テクノロジー大手の Google は、世界のソフトウェア開発市場に Gemma 4 ファミリが登場したことを明らかにしました。新しいオープンソースの人工知能モデルにより、研究者やプログラマーは重みを完全に利用できるようになります。このアップデートは、1 年以上前に前世代が発売されて以来、この製品ラインにおける最初の大きな進歩を示しています。現在、システムは Apache 2.0 ライセンスに基づいて動作しています。この根本的な変更により、過去のリリースでは企業による導入を制限していた商業的な障壁が取り除かれます。
このプラットフォームは、テキスト、音声、画像の同時入力をネイティブにサポートします。コンテキスト ウィンドウは、パッケージの最も堅牢なバージョンでは、なんと 256,000 トークンに達します。このプロジェクトは、一般の人々がアクセスできるハードウェア上でのローカル実行に重点を置いています。消費者向けグラフィックス カードとモバイル デバイスは、システムを簡単かつスムーズに実行します。新しいライセンスにより、追加の条件や作成会社への義務を課すことなく、商用製品の作成が容易になります。
アーキテクチャとローカル処理の進歩
エンジニアは、完全なオフライン環境向けにコード処理能力を最適化しました。現在のパフォーマンスは、Gemini Pro などのトップクラスのクラウドベース サービスと同等です。関数呼び出しのネイティブ サポートにより、他のソフトウェア ツールとの統合が向上します。 JSON 形式で構造化された出力を生成すると、複雑な自動化されたワークフローに直接メリットがもたらされます。開発者は、外部サーバーへの常時接続に依存せずに、自主的にソリューションを作成できるようになります。
技術的な改善は、論理的推論や数学的問題解決などの基本的な領域をカバーします。複雑な命令に従う精度は、前世代よりもはるかに高くなります。ビジュアル入力サポートにより、スキャンされた文書の高忠実度の光学式文字認識が可能になります。グラフや表は迅速かつ詳細に解釈されます。ローカル処理における待ち時間の短縮は、エンドユーザーにとって実質的に大きなメリットとなります。
マルチモーダル機能とパフォーマンスの向上
このアーキテクチャは、処理のボトルネックを発生させることなく、音声と画像を同時に処理します。音声認識は、Gemma 3 と比較して品質が著しく向上しています。マルチモーダル機能により、最新の対話型アプリケーションの可能性が広がります。さまざまな種類のデータをリアルタイムで組み合わせるシステムは安定して動作します。厳格なプライバシーを必要とするアプリケーションは、この新世代のオープン モデルに理想的な環境を見つけます。
クラウドにデータを送信する必要がない迅速な応答により、ユーザーの機密情報が保護されます。開発者は、AI Core Developer Preview でワークフローのプロトタイプを直接簡単に作成できます。現在の実装では、モバイル分野における同社の次期リリースとの将来的な互換性が保証されています。引き続き、どのような環境でも迅速かつ安全な結果を提供することに重点を置いています。このテクノロジーは、リアルタイム処理の要求に迅速に適応します。
さまざまなハードウェアに対応したサイズバリエーション
Gemma 4 ファミリは、4 つの主要なサイズと容量構成で市場に投入されます。 26B Mixture of Experts バージョンと 31B Dense バージョンは、最高レベルの計算パフォーマンスを提供します。これらは、強力な研究指向のサーバーまたはワークステーション ハードウェア上でシームレスに実行されます。効果的な 2B および効果的な 4B バリアントは、何よりもエネルギー効率を優先します。これらは、最小限のバッテリー消費と限られたリソースでエッジ デバイス上で動作します。
26B MoE モデルは、データ推論プロセス中に 38 億個のパラメーターのみをアクティブにします。この技術機能により、機器の遅延とエネルギー消費が大幅に削減されます。すべてのバージョンは、140 以上の異なる言語をリアルタイムで流動的に処理します。このエコシステムは、企業および個人の多様な処理ニーズに適応します。
- 効果的な 2B および 4B モデルは、市販の一般的なスマートフォンで低遅延を保証します。
- Qualcomm および MediaTek との戦略的パートナーシップにより、モバイル プロセッサへの統合が促進されます。
- より大きなバージョンは、量子化を必要とせずに単一の 80GB H100 GPU で実行されます。
軽量バージョンは、大手モバイル チップ メーカーとの直接コラボレーションから生まれました。日常の仮想アシスタンス タスクにおいて、ゼロに近い応答時間を実現します。実用的なテストにより、Raspberry Pi や Jetson Nano などのコンパクトなボードでのスムーズな動作が確認されています。コードの汎用性により、低コストの機器への設置が可能になります。
新しい商用ライセンスによる制限の終了
Apache 2.0 ライセンスの採用により、独立系ソフトウェア作成者の状況は一変します。この変更により、市場に不信感をもたらした古いカスタム ライセンス制限が排除されます。古いモデルには、いつでも一方的に更新できる使用禁止ポリシーが含まれていました。開発者は、データと製品の商用展開を完全に制御できるようになりました。使用の自由は、情報技術分野のイノベーションを推進します。
この戦略的変更は、世界的なプログラミング コミュニティでの多数のプロジェクトの作成を刺激するはずです。この愛好家と専門家のグループは、ソーシャル メディア上では既に Gemmaverse として非公式に知られています。ローカル実行に重点を置くことで、開発者にオープンで堅牢な代替手段を提供する戦略が強化されます。同社は、この斬新さを、Gemini シリーズのクローズドモデルに直接対抗するものとして位置づけています。コードの透明性により、あらゆる経済規模の研究者や企業が集まります。
スマートフォンでの即時および将来の利用可能性
より重い 31B モデルと 26B モデルが、Google の AI Studio プラットフォームで利用できるようになりました。プログラマーは、軽量の E4B および E2B バージョンに AI Edge Gallery ですぐにアクセスできます。完全な重みは、インターネット上の有名な公開リポジトリからすぐにダウンロードできます。 Hugging Face、Kaggle、Ollama などのプラットフォームは、すでにオリジナルのファイルを無料でホストしています。簡単にアクセスできるため、世界規模でのテクノロジーの導入が加速します。
企業や研究機関は、ダウンロード後すぐにモデルをローカル アプリケーションに統合できます。定期的な API コストがないため、スタートアップ企業における高度な人工知能の使用が民主化されます。テクノロジー大手はまた、今後数カ月間のモバイルエコシステムの構造計画を確認した。 2B および 4B のバリアントは、次期 Gemini Nano 4 のコード ベースとして機能します。この新機能は、Android オペレーティング システムをネイティブに搭載したデバイスにまもなく提供される予定です。

