Η Google ανακοινώνει το Gemma 4 με άδεια Apache 2.0 και πρότυπα για τοπικές συσκευές

Gemma 4

Gemma 4 - Google

Το Google ανακοίνωσε αυτήν την Πέμπτη την οικογένεια Gemma 4, που αποτελείται από νέα μοντέλα τεχνητής νοημοσύνης ανοιχτού κώδικα με διαθέσιμα βάρη. Η ενημέρωση αντιπροσωπεύει την πρώτη σημαντική πρόοδο στη σειρά από την κυκλοφορία του Gemma 3 περισσότερο από ένα χρόνο πριν. Οι προγραμματιστές έχουν πλέον άδεια Apache 2.0, η οποία καταργεί τους εμπορικούς περιορισμούς που υπάρχουν σε προηγούμενες εκδόσεις.

Τα μοντέλα υποστηρίζουν εισαγωγή κειμένου, ήχου και εικόνας, με παράθυρα περιβάλλοντος που φτάνουν τα 256 χιλιάδες διακριτικά στις μεγαλύτερες παραλλαγές. Τα Eles έχουν σχεδιαστεί κυρίως για να εκτελούνται τοπικά σε προσιτό υλικό, συμπεριλαμβανομένων των GPU των καταναλωτών και των φορητών συσκευών. Η αλλαγή άδειας διευκολύνει την εμπορική χρήση χωρίς πρόσθετες υποχρεώσεις που επιβάλλονται από το Google.

Τεχνικές βελτιώσεις στη συλλογιστική και πολυτροπική

Τα νέα μοντέλα φέρνουν σημαντικές προόδους στη λογική, τα μαθηματικά και την τήρηση οδηγιών σε σύγκριση με την προηγούμενη γενιά. Eles ενσωματώνουν εγγενή υποστήριξη για κλήση συναρτήσεων και δημιουργία δομημένων εξόδων JSON, που ωφελούν τις ροές εργασίας των πρακτόρων.

Η δυνατότητα επεξεργασίας κώδικα έχει βελτιστοποιηθεί για περιβάλλοντα εκτός σύνδεσης, επιτυγχάνοντας απόδοση συγκρίσιμη με υπηρεσίες cloud όπως το Gemini Pro. Η υποστήριξη οπτικής εισαγωγής επιτρέπει εργασίες όπως η οπτική αναγνώριση χαρακτήρων και η ερμηνεία γραφήματος με μεγαλύτερη ακρίβεια.

  • Οι παραλλαγές περιλαμβάνουν μοντέλα Effective 2B και 4B βελτιστοποιημένα για χαμηλή καθυστέρηση σε smartphone.
  • Η συνεργασία με το Qualcomm και το MediaTek διευκολύνει την ενσωμάτωση σε κινητές συσκευές.
  • Τα μεγαλύτερα μοντέλα λειτουργούν με μία GPU 80 GB H100 χωρίς κβαντισμό.

Παραλλαγές μεγέθους και ενεργειακή απόδοση

Η οικογένεια Gemma 4 έχει τέσσερις κύριες διαμορφώσεις μεγέθους. Οι εκδόσεις 26B Mixture of Experts και 31B Dense προσφέρουν υψηλή απόδοση και εκτελούνται σε υλικό διακομιστή ή σταθμού εργασίας. Já as Effective 2B και 4B δίνουν προτεραιότητα στην αποτελεσματικότητα για εκτέλεση σε συσκευές άκρων.

Το μοντέλο 26B MoE ενεργοποιεί μόλις 3,8 δισεκατομμύρια παραμέτρους κατά την εξαγωγή συμπερασμάτων, μειώνοντας την καθυστέρηση και την κατανάλωση ενέργειας. Todas παραλλαγές χειρίζονται περισσότερες από 140 γλώσσες. Οι προγραμματιστές μπορούν να κατεβάσουν τα πλήρη βάρη σε πλατφόρμες όπως Hugging Face, Kaggle και Ollama.

Άμεση διαθεσιμότητα σε όλες τις πλατφόρμες

Τα μεγαλύτερα μοντέλα 31B και 26B είναι διαθέσιμα στα AI Studio και Google. Οι ελαφριές εκδόσεις E4B και E2B είναι προσβάσιμες στο AI Edge Gallery. Τα πλήρη βάρη είναι διαθέσιμα για άμεση λήψη από δημόσια αποθετήρια.

Οι εταιρείες και οι ερευνητές μπορούν να ενσωματώσουν τα μοντέλα σε τοπικές εφαρμογές χωρίς επαναλαμβανόμενο κόστος API. Το Google έδειξε επίσης ότι οι παραλλαγές 2B και 4B θα χρησιμεύσουν ως βάση για τις επερχόμενες Gemini Nano 4 σε Android συσκευές.

Επίπτωση της μετάβασης στην άδεια Apache 2.0

Η υιοθέτηση της άδειας χρήσης Apache 2.0 καταργεί τους περιορισμούς της προηγούμενης προσαρμοσμένης άδειας, η οποία περιελάμβανε μονομερώς ενημερωμένες πολιτικές μη χρήσης. Desenvolvedores Αποκτήστε μεγαλύτερο έλεγχο σε δεδομένα και επιχειρηματικές αναπτύξεις.

Αυτή η αλλαγή θα πρέπει να ενθαρρύνει τη δημιουργία νέων έργων στην κοινότητα, γνωστά ανεπίσημα ως Gemmaverse. Η εστίαση στην τοπική εκτέλεση ενισχύει τη στρατηγική της προσφοράς ανοικτών εναλλακτικών λύσεων στα κλειστά μοντέλα της γραμμής Gemini.

Βελτιστοποιήσεις για συγκεκριμένο υλικό

Οι ελαφριές εκδόσεις αναπτύχθηκαν σε συνεργασία με κατασκευαστές chip για κινητά. Το Elas παρέχει σχεδόν μηδενική καθυστέρηση στις καθημερινές εργασίες, διατηρώντας παράλληλα μειωμένη κατανάλωση μπαταρίας. Το Testes υποδεικνύει καλή απόδοση σε κάρτες όπως Raspberry Pi και Jetson Nano.

Τα μεγαλύτερα μοντέλα διατηρούν την απόδοση ακόμη και σε πυκνή διαμόρφωση ή MoE. Η μείωση του λανθάνοντος χρόνου στην τοπική επεξεργασία αντιπροσωπεύει ένα πρακτικό κέρδος για εφαρμογές που απαιτούν απόρρητο και γρήγορη απόκριση χωρίς συνεχή σύνδεση με διακομιστές.

Υποστήριξη πολλαπλών τρόπων εισαγωγής

Εκτός από το κείμενο, τα μοντέλα επεξεργάζονται εγγενώς ήχο και εικόνες. Η αναγνώριση ομιλίας βελτιώνεται πάνω από Gemma 3. Η πολυτροπική ικανότητα ανοίγει δυνατότητες για εφαρμογές που συνδυάζουν διαφορετικούς τύπους δεδομένων σε πραγματικό χρόνο.

Οι προγραμματιστές μπορούν να δημιουργήσουν πρωτότυπες ροές πρακτόρων απευθείας στο AI Core Developer Preview χρησιμοποιώντας τις ελαφριές παραλλαγές. Essas υλοποιήσεις είναι μελλοντικά συμβατές με τις μελλοντικές Gemini Nano 4.

Η οικογένεια Gemma 4 ενισχύει τη δέσμευση του Google να προσφέρει ανοιχτά μοντέλα με προσβάσιμα βάρη. Ο συνδυασμός βελτιωμένης απόδοσης, επιτρεπόμενης αδειοδότησης και ποικίλης υποστήριξης υλικού επεκτείνει τις επιλογές για όσους αναζητούν λύσεις τεχνητής νοημοσύνης με δυνατότητα τοπικής εκτέλεσης.