News (HU)

A Google bemutatja a Gemma 4-et Apache 2.0 licenccel és sablonokkal a helyi eszközökhöz

Gemma 4
Foto: Gemma 4 - Google

A Google csütörtökön bejelentette a Gemma 4 családot, amely új, nyílt forráskódú mesterséges intelligencia modellekből áll, elérhető súlyokkal. A frissítés az első jelentős előrelépés a sorozatban a Gemma 3 megjelenése óta, ami több mint egy évvel ezelőtti. A fejlesztők mostantól a Apache 2.0 licenccel rendelkeznek, amely eltávolítja a korábbi verziókban meglévő kereskedelmi korlátozásokat.

A modellek támogatják a szöveg-, hang- és képbevitelt, a kontextus ablakai a legnagyobb változatokban elérik a 256 ezer tokent. A Eles-et elsősorban arra tervezték, hogy megfizethető hardveren, beleértve a fogyasztói GPU-kat és mobileszközöket, helyben fussanak. Az engedélymódosítás megkönnyíti a kereskedelmi felhasználást a Google által előírt további kötelezettségek nélkül.

Technikai fejlesztések az érvelésben és a multimodálisban

Az új modellek jelentős előrelépést hoznak az érvelés, a matematika és az utasítások követése terén az előző generációhoz képest. A Eles natív támogatást tartalmaz a függvényhívásokhoz és a JSON strukturált kimenetek generálásához, ami az ügynöki munkafolyamatok számára előnyös.

A kódfeldolgozási képességet offline környezetekre optimalizálták, és a felhőszolgáltatásokhoz, például a Gemini Pro-hez hasonló teljesítményt érnek el. A vizuális beviteli támogatás nagyobb pontossággal teszi lehetővé az olyan feladatokat, mint az optikai karakterfelismerés és a grafikonértelmezés.

  • A változatok között megtalálhatók a Effective 2B és 4B modellek, amelyek alacsony késleltetésre vannak optimalizálva okostelefonokon.
  • A Qualcomm számmal és a MediaTekkel való együttműködés megkönnyíti a mobileszközökön való integrációt.
  • A nagyobb modellek egyetlen 80 GB-os H100 GPU-n futnak kvantálás nélkül.

Méretváltozatok és energiahatékonyság

A Gemma 4-es család négy fő méretkonfigurációval rendelkezik. A Experts és a 31B Dense 26B Mixture és 31B Dense verziói nagy teljesítményt kínálnak, és kiszolgálón vagy munkaállomás hardverén futnak. A Já mint Effective 2B és 4B a hatékonyságot részesíti előnyben a szélső eszközökön történő végrehajtásnál.

A 26B MoE modell mindössze 3,8 milliárd paramétert aktivál a következtetés során, csökkentve a késleltetést és az energiafogyasztást. A Todas változat több mint 140 nyelvet kezel. A fejlesztők letölthetik a teljes súlyokat olyan platformokon, mint a Hugging Face, Kaggle és Ollama.

Azonnali elérhetőség minden platformon

A nagyobb 31B és 26B modellek az AI Studio és Google verziókban érhetők el. A könnyű E4B és E2B verziók az AI Edge Gallery számon érhetők el. A teljes súlyok azonnal letölthetők nyilvános adattárakból.

A vállalatok és kutatók a modelleket a helyi alkalmazásokba integrálhatják, ismétlődő API-költségek nélkül. A Google azt is jelezte, hogy a 2B és 4B variánsok szolgálnak majd a Android készülékeken megjelenő Gemini Nano 4 alapjául.

A Apache licencre váltás hatása 2.0

A Apache 2.0-s licenc elfogadása megszünteti a korábbi egyéni licenc korlátozásait, amely egyoldalúan frissíthető, használaton kívüli szabályzatot tartalmazott. Desenvolvedores Szerezzen nagyobb ellenőrzést az adatok és az üzleti telepítések felett.

Ennek a változásnak ösztönöznie kell az új projektek létrehozását a közösségben, amelyek informálisan Gemmaverse néven ismertek. A helyi végrehajtásra való összpontosítás megerősíti azt a stratégiát, hogy nyitott alternatívákat kínálnak a Gemini vonal zárt modelljei helyett.

Optimalizálás bizonyos hardverekhez

A könnyű változatokat mobilchip-gyártókkal együttműködésben fejlesztették ki. A Elas szinte nulla késleltetést biztosít a mindennapi feladatok során, miközben csökkenti az akkumulátorfogyasztást. A Testes jó teljesítményt jelez az olyan kártyákon, mint a Raspberry Pi és a Jetson Nano.

A nagyobb modellek még sűrű konfigurációban vagy MoE-ben is megőrzik a hatékonyságot. A helyi feldolgozás késleltetésének csökkentése gyakorlati előnyt jelent azon alkalmazások számára, amelyek adatvédelmet és gyors reagálást igényelnek a szerverekhez való állandó kapcsolat nélkül.

Többféle beviteli mód támogatása

A modellek a szöveg mellett natív módon dolgozzák fel a hangot és a képeket. A beszédfelismerés a Gemma-hez képest javult 3. A multimodális képesség olyan alkalmazások számára nyit lehetőségeket, amelyek valós időben kombinálják a különböző típusú adatokat.

A fejlesztők prototípusokat készíthetnek közvetlenül az AI Core Developer Preview-ben a könnyű változatok használatával. A Essas megvalósítások előre kompatibilisek a jövőbeli Gemini Nano 4-gyel.

A Gemma 4-es család megerősíti a Google azon elkötelezettségét, hogy hozzáférhető súllyal rendelkező nyitott modelleket kínáljon. A jobb teljesítmény, a megengedő licencelés és a változatos hardvertámogatás kombinációja bővíti a lehetőségeket azok számára, akik helyileg futtatható AI-megoldásokat keresnek.