Nachrichten (DE)

Google kündigt Gemma 4 mit Apache 2.0-Lizenz und Vorlagen für lokale Geräte an

Gemma 4
Foto: Gemma 4 - Google

Google kündigte diesen Donnerstag die Gemma 4-Familie an, die aus neuen Open-Source-Modellen für künstliche Intelligenz mit verfügbaren Gewichten besteht. Das Update stellt die erste große Weiterentwicklung der Produktreihe seit der Einführung von Gemma 3 vor mehr als einem Jahr dar. Entwickler verfügen jetzt über die Lizenz Apache 2.0, die kommerzielle Einschränkungen in früheren Versionen aufhebt.

Die Modelle unterstützen die Text-, Audio- und Bildeingabe mit Kontextfenstern, die in den größten Varianten 256.000 Token erreichen. Eles sind in erster Linie für die lokale Ausführung auf erschwinglicher Hardware konzipiert, einschließlich Consumer-GPUs und Mobilgeräten. Die Lizenzänderung ermöglicht eine kommerzielle Nutzung ohne zusätzliche Verpflichtungen durch Google.

Technische Verbesserungen im Denken und Multimodalität

Die neuen Modelle bringen im Vergleich zur Vorgängergeneration erhebliche Fortschritte in den Bereichen Denkvermögen, Mathematik und Befolgen von Anweisungen. Eles bieten native Unterstützung für Funktionsaufrufe und die Generierung strukturierter JSON-Ausgaben, was Agenten-Workflows zugute kommt.

Die Codeverarbeitungsfähigkeit wurde für Offline-Umgebungen optimiert und erreicht eine Leistung, die mit Cloud-Diensten wie Gemini Pro vergleichbar ist. Die Unterstützung visueller Eingaben ermöglicht Aufgaben wie optische Zeichenerkennung und Diagramminterpretation mit größerer Genauigkeit.

  • Zu den Varianten gehören die Modelle Effective 2B und 4B, die für geringe Latenz auf Smartphones optimiert sind.
  • Die Zusammenarbeit mit Qualcomm und MediaTek erleichtert die Integration auf mobilen Geräten.
  • Größere Modelle laufen auf einer einzelnen 80-GB-H100-GPU ohne Quantisierung.

Größenvarianten und Energieeffizienz

Die Gemma 4-Familie verfügt über vier Hauptgrößenkonfigurationen. Die Versionen 26B Mixture von Experts und 31B Dense bieten eine hohe Leistung und laufen auf Server- oder Workstation-Hardware. Já und Effective 2B und 4B priorisieren die Effizienz bei der Ausführung auf Edge-Geräten.

Das 26B MoE-Modell aktiviert während der Inferenz nur 3,8 Milliarden Parameter und reduziert so Latenz und Stromverbrauch. Todas Varianten verarbeiten über 140 Sprachen. Entwickler können die vollständigen Gewichtungen auf Plattformen wie Hugging Face, Kaggle und Ollama herunterladen.

Sofortige Verfügbarkeit auf allen Plattformen

Die größeren 31B- und 26B-Modelle sind unter AI Studio und Google erhältlich. Auf die leichteren E4B- und E2B-Versionen kann unter AI Edge Gallery zugegriffen werden. Die vollständigen Gewichte stehen zum sofortigen Download aus öffentlichen Repositories zur Verfügung.

Unternehmen und Forscher können die Modelle ohne wiederkehrende API-Kosten in lokale Anwendungen integrieren. Google gab außerdem an, dass die Varianten 2B und 4B als Basis für die kommenden Gemini Nano 4 auf Android-Geräten dienen werden.

Auswirkungen des Wechsels zur Lizenz Apache 2.0

Durch die Einführung der Lizenz Apache 2.0 entfallen die Einschränkungen der vorherigen benutzerdefinierten Lizenz, die einseitig aktualisierbare No-Use-Richtlinien beinhaltete. Desenvolvedores Erhalten Sie eine bessere Kontrolle über Daten und Geschäftsbereitstellungen.

Diese Änderung soll die Schaffung neuer Projekte in der Community fördern, die informell als Gemmaverse bekannt sind. Der Fokus auf die lokale Umsetzung verstärkt die Strategie, offene Alternativen zu den geschlossenen Modellen der Gemini-Linie anzubieten.

Optimierungen für bestimmte Hardware

Die leichten Versionen wurden in Zusammenarbeit mit Herstellern mobiler Chips entwickelt. Elas liefern nahezu keine Latenz bei alltäglichen Aufgaben und sorgen gleichzeitig für einen reduzierten Batterieverbrauch. Testes weist auf eine gute Leistung auf Karten wie Raspberry Pi und Jetson Nano hin.

Größere Modelle behalten ihre Effizienz auch in dichter Konfiguration oder MoE. Die Reduzierung der Latenz bei der lokalen Verarbeitung stellt einen praktischen Vorteil für Anwendungen dar, die Privatsphäre und schnelle Reaktionen ohne ständige Verbindung zu Servern erfordern.

Unterstützt mehrere Eingabemodalitäten

Neben Text verarbeiten die Modelle nativ auch Audio und Bilder. Die Spracherkennung verbessert sich gegenüber Gemma 3. Die multimodale Fähigkeit eröffnet Möglichkeiten für Anwendungen, die verschiedene Arten von Daten in Echtzeit kombinieren.

Entwickler können mit den Lightweight-Varianten Agentenabläufe direkt in AI Core Developer Preview prototypisieren. Essas Implementierungen sind vorwärtskompatibel mit der Zukunft Gemini Nano 4.

Die Gemma 4-Familie unterstreicht das Engagement von Google, offene Modelle mit zugänglichen Gewichten anzubieten. Die Kombination aus verbesserter Leistung, freizügiger Lizenzierung und vielfältiger Hardwareunterstützung erweitert die Optionen für diejenigen, die lokal ausführbare KI-Lösungen suchen.