Nachrichten (DE)

Die neue Generation der künstlichen Intelligenz Gemma 4 übernimmt die Apache 2.0-Lizenz auf lokalen Geräten

Gemma 4
Foto: Gemma 4 - Google

Der Technologieriese, der für die meistgenutzte Suchmaschine der Welt verantwortlich ist, hat eine neue Familie von Open-Source-Sprachmodellen für Entwickler und Forscher zur Verfügung gestellt. Das jüngste Update bringt Tools, die die Text-, Audio- und Bildeingabe unterstützen, mit Kontextfenstern, die in den robustesten Versionen die Marke von 256.000 Token erreichen. Das Hauptunterscheidungsmerkmal dieser Generation ist die Aufhebung früherer kommerzieller Beschränkungen, wodurch Unternehmen die Technologie freier auf ihrer eigenen Hardware nutzen können, von Servern bis hin zu Mobiltelefonen.

Änderung der kommerziellen Nutzungsrichtlinien

Durch die Einführung eines neuen Lizenzierungsformats werden die Hindernisse beseitigt, die in früheren Versionen des Tools bestanden. Entwickler haben jetzt eine größere Kontrolle über verarbeitete Daten und kommerzielle Bereitstellungen, ohne dass sie Richtlinien zur verbotenen Nutzung befolgen müssen, die vom Systemersteller einseitig aktualisiert werden könnten.

Ziel dieser Strukturänderung ist es, die Entstehung neuer Projekte innerhalb der Programmiergemeinschaft zu fördern. Der Fokus auf die Offline-Ausführung stärkt die Strategie, offene und flexible Alternativen anzubieten, die es Startups und großen Unternehmen ermöglichen, Technologie zu integrieren, ohne wiederkehrende Kosten für Anwendungsprogrammierschnittstellen zu verursachen.

Technische Fortschritte im logischen Denken

Die neuen Systeme bieten erhebliche Verbesserungen in der Fähigkeit, mathematische Probleme zu lösen und komplexe Anweisungen zu befolgen. Die aktualisierte Architektur umfasst native Unterstützung für Funktionsaufrufe und die Generierung strukturierter Ausgaben in bestimmten Datenformaten, was den Arbeitsablauf autonomer Agenten optimiert.

Die Verarbeitungskapazität des Programmiercodes wurde ebenfalls verfeinert, um in Umgebungen ohne Internetverbindung ordnungsgemäß zu funktionieren. Die unter diesen Bedingungen erzielte Leistung kommt den Ergebnissen von Nachrichtendiensten nahe, die ausschließlich auf Cloud-Verarbeitung angewiesen sind.

Multimodale Informationsverarbeitung

Zusätzlich zur traditionellen Textinterpretation verarbeitet die neue Generation Audiodateien und Bilder nativ. Das Spracherkennungssystem weist im Vergleich zu den im Vorjahr eingeführten Modellen eine überlegene Genauigkeit auf und erleichtert die Transkription und Analyse von Sprachbefehlen in Echtzeit.

Mithilfe der visuellen Eingabeunterstützung können Sie erweiterte Aufgaben wie die optische Zeichenerkennung in gescannten Dokumenten ausführen. Das Tool kann auch komplexe Grafiken und Tabellen interpretieren und relevante Daten mit einer Genauigkeit extrahieren, die den Anforderungen des Unternehmenssektors entspricht.

Die Kombination dieser unterschiedlichen Eingabemodalitäten eröffnet vielfältige Möglichkeiten zur Erstellung interaktiver Anwendungen. Entwickler können Lösungen strukturieren, die gleichzeitig analysieren, was der Benutzer sagt und was die Kamera des Geräts aufnimmt, und alles verarbeiten, ohne die Daten an externe Server zu senden.

Größen- und Effizienzvarianten

Die Modellfamilie wurde in vier Hauptkonfigurationen unterteilt, um unterschiedlichen Hardwareanforderungen gerecht zu werden. Die robusteren Versionen, bekannt als Mixture von Experts und Dense, richten sich an Hochleistungsserver und professionelle Workstations, die große Datenmengen verarbeiten.

Andererseits wurden die leichteren Varianten speziell entwickelt, um die Energieeffizienz in den Vordergrund zu stellen. Esses kleinere Modelle eignen sich ideal für den Betrieb am Rande des Netzwerks, also direkt auf den Geräten der Endbenutzer, wodurch der Batterieverbrauch und die Notwendigkeit einer externen Verarbeitung minimiert werden.

Die auf der Expertenarchitektur basierende Version aktiviert während des Inferenzprozesses nur einen Bruchteil ihrer Milliarden Parameter. Der technische Ansatz von Essa reduziert die Antwortlatenz und den Energieverbrauch drastisch und behält gleichzeitig die Fähigkeit bei, Texte in mehr als einhundertvierzig verschiedenen Sprachen zu verstehen und zu generieren.

Die vollständigen Dateien mit den neuronalen Netzwerkgewichten werden nun der Öffentlichkeit zugänglich gemacht. Profissionais aus dem Technologiebereich können das Material sofort auf anerkannten Code-Hosting-Plattformen und Repositories mit Schwerpunkt auf maschinellem Lernen herunterladen.

Optimierung für mobile Geräte

Die Entwicklung der Kompaktversionen erfolgte in Zusammenarbeit mit den wichtigsten Herstellern von Prozessoren für mobile Geräte auf dem Weltmarkt. Essa Die technische Zusammenarbeit führte zu Systemen, die in der Lage sind, bei alltäglichen Aufgaben wie der Simultanübersetzung und der Zusammenfassung langer Texte Antworten praktisch ohne Latenz zu liefern. Praxistests zeigen, dass die Technologie selbst auf kostengünstigen Entwicklungsplatinen und Einplatinencomputern, die häufig in Bildungs- und Industrieprojekten eingesetzt werden, eine stabile Leistung beibehält.

Die Aufrechterhaltung der Effizienz über verschiedene Hardwarekonfigurationen hinweg stellt einen erheblichen praktischen Gewinn für das Anwendungsökosystem dar. Die Reduzierung der Reaktionszeit bei der lokalen Verarbeitung ist von entscheidender Bedeutung für Dienste, die ein hohes Maß an Privatsphäre erfordern, wie z. B. Gesundheits- und Finanzanwendungen. Durch die Verarbeitung von Informationen direkt auf dem Gerät des Benutzers eliminiert die Technologie die Risiken, die mit der Übertragung sensibler Daten über das Internet verbunden sind, und stellt sicher, dass persönliche Daten vor dem Abfangen durch Dritte geschützt bleiben.

Integration in das Entwicklungsökosystem

Die sofortige Verfügbarkeit von Tools auf offiziellen Plattformen erleichtert Forschern und Softwareentwicklern den Zugang zu neuen Technologien der künstlichen Intelligenz. Modelle mit höherer Kapazität können in Cloud-Entwicklungsstudios getestet und bereitgestellt werden, während sich für Mobilgeräte optimierte Versionen in speziellen Galerien für die Edge-Verarbeitung befinden. Unternehmen, die ihre internen Systeme modernisieren möchten, können diese Lösungen in ihre lokalen Infrastrukturen integrieren, ohne sich Gedanken über monatliche Kosten für die Nutzung von Schnittstellen von Drittanbietern machen zu müssen. Darüber hinaus wird die Architektur der leichteren Varianten als grundlegende Grundlage für zukünftige Aktualisierungen mobiler Betriebssysteme dienen, was einen klaren Trend zeigt, dass generative künstliche Intelligenz zu einer standardmäßigen und allgegenwärtigen Komponente in Mobiltelefonen werden wird, die in den kommenden Jahren auf den Markt kommen und die Art und Weise verändern werden, wie Benutzer täglich mit ihren Geräten interagieren.

Ausweitung der Nutzung offener künstlicher Intelligenz

Durch die Kombination verbesserter Leistung mit freizügiger Lizenzierung erweitert sich das Spektrum der Optionen für den Technologiesektor. Der Übergang zu lokal ausführbaren Open-Source-Modellen stärkt die Unabhängigkeit der Entwickler und fördert die Schaffung einer vielfältigeren digitalen Umgebung, in der Innovation nicht ausschließlich auf große Cloud-Computing-Infrastrukturen angewiesen ist.