Actualités (FR)

La nouvelle génération d’intelligence artificielle Gemma 4 adopte la licence Apache 2.0 sur les appareils locaux

Gemma 4
Photo: Gemma 4 - Google

Le géant de la technologie responsable du moteur de recherche le plus utilisé au monde a mis à disposition une nouvelle famille de modèles de langage open source destinés aux développeurs et aux chercheurs. La récente mise à jour apporte des outils prenant en charge la saisie de texte, d’audio et d’image, avec des fenêtres contextuelles qui atteignent la barre des 256 000 jetons dans les versions les plus robustes. Le principal différenciateur de cette génération est la suppression des restrictions commerciales antérieures, permettant aux entreprises d’utiliser la technologie plus librement sur leur propre matériel, des serveurs aux téléphones portables.

Modification des directives d’utilisation commerciale

L’adoption d’un nouveau format de licence élimine les barrières qui existaient dans les versions précédentes de l’outil. Les développeurs ont désormais un plus grand contrôle sur les données traitées et les déploiements commerciaux, sans avoir besoin de suivre des politiques d’utilisation interdite qui pourraient être mises à jour unilatéralement par le créateur du système.

Ce changement structurel vise à encourager la création de nouveaux projets au sein de la communauté de programmation. L’accent mis sur l’exécution hors ligne renforce la stratégie consistant à proposer des alternatives ouvertes et flexibles, permettant aux startups et aux grandes entreprises d’intégrer la technologie sans coûts récurrents d’interface de programmation d’applications.

Avancées techniques du raisonnement logique

Les nouveaux systèmes présentent des améliorations substantielles dans la capacité à résoudre des problèmes mathématiques et à suivre des instructions complexes. L’architecture mise à jour intègre une prise en charge native des appels de fonction et génère une sortie structurée dans des formats de données spécifiques, ce qui optimise le flux de travail des agents autonomes.

La capacité de traitement du code de programmation a également été améliorée pour fonctionner correctement dans des environnements sans connexion Internet. Les performances atteintes dans ces conditions sont proches des résultats obtenus par les services de renseignement qui s’appuient exclusivement sur les traitements cloud.

Traitement de l’information multimodale

En plus de l’interprétation traditionnelle des textes, la nouvelle génération traite les fichiers audio et les images de manière native. Le système de reconnaissance vocale démontre une précision supérieure par rapport aux modèles lancés l’année précédente, facilitant la transcription et l’analyse des commandes vocales en temps réel.

La prise en charge de la saisie visuelle vous permet d’effectuer des tâches avancées telles que la reconnaissance optique de caractères dans les documents numérisés. L’outil peut également interpréter des graphiques et des tableaux complexes, en extrayant des données pertinentes avec un niveau de précision qui répond aux exigences du secteur des entreprises.

La combinaison de ces différentes modalités de saisie ouvre un éventail de possibilités pour créer des applications interactives. Les développeurs peuvent structurer des solutions qui analysent simultanément ce que dit l’utilisateur et ce que la caméra de l’appareil capture, en traitant le tout sans envoyer les données à des serveurs externes.

Variantes de taille et d’efficacité

La famille de modèles a été divisée en quatre configurations principales pour répondre aux différents besoins matériels. Les versions plus robustes, appelées Mixture, Experts et Dense, sont destinées aux serveurs performants et aux postes de travail professionnels gérant des traitements massifs de données.

D’un autre côté, les variantes plus légères ont été spécialement conçues pour donner la priorité à l’efficacité énergétique. Les modèles plus petits Esses sont idéaux pour fonctionner en périphérie du réseau, c’est-à-dire directement sur l’équipement des utilisateurs finaux, minimisant ainsi la consommation de la batterie et le besoin de traitement externe.

La version basée sur une architecture experte n’active qu’une fraction de ses milliards de paramètres pendant le processus d’inférence. L’approche technique Essa réduit considérablement la latence de réponse et la consommation d’énergie tout en conservant la capacité de comprendre et de générer des textes dans plus de cent quarante langues différentes.

Les fichiers complets avec les poids des réseaux neuronaux sont désormais rendus publics. Profissionais du domaine technologique peuvent télécharger immédiatement le matériel sur des plates-formes d’hébergement de code reconnues et des référentiels axés sur l’apprentissage automatique.

Optimisation pour les appareils mobiles

Le développement des versions compactes a eu lieu en partenariat avec les principaux fabricants de processeurs pour appareils mobiles du marché mondial. Essa La collaboration technique a abouti à des systèmes capables de fournir des réponses avec une latence pratiquement nulle dans les tâches quotidiennes, telles que la traduction simultanée et la synthèse de longs textes. Des tests pratiques démontrent que la technologie maintient des performances stables même sur les cartes de développement à faible coût et les ordinateurs monocarte largement utilisés dans les projets éducatifs et industriels.

Maintenir l’efficacité sur différentes configurations matérielles représente un gain pratique significatif pour l’écosystème d’applications. La réduction du temps de réponse lors du traitement local est essentielle pour les services qui nécessitent un niveau élevé de confidentialité, tels que les applications de santé et de finance. En traitant les informations directement sur l’appareil de l’utilisateur, la technologie élimine les risques liés à la transmission de données sensibles sur Internet, garantissant que les informations personnelles restent protégées contre toute interception par des tiers.

Intégration avec l’écosystème de développement

La disponibilité immédiate des outils sur les plateformes officielles facilite l’accès des chercheurs et ingénieurs logiciels aux nouvelles technologies d’intelligence artificielle. Les modèles de plus grande capacité peuvent être testés et déployés via les studios de développement cloud, tandis que les versions optimisées pour les mobiles se trouvent dans des galeries dédiées au traitement en périphérie. Les entreprises qui cherchent à moderniser leurs systèmes internes peuvent intégrer ces solutions dans leurs infrastructures locales sans se soucier de payer des frais mensuels pour l’utilisation d’interfaces tierces. En outre, l’architecture des variantes plus légères servira de base fondamentale pour les futures mises à jour des systèmes d’exploitation mobiles, indiquant une tendance claire selon laquelle l’intelligence artificielle générative deviendra un composant standard et omniprésent dans les téléphones portables qui arriveront sur le marché dans les années à venir, transformant la façon dont les utilisateurs interagissent quotidiennement avec leurs appareils.

Utilisation croissante de l’intelligence artificielle ouverte

La combinaison de performances améliorées et de licences permissives élargit la gamme d’options pour le secteur technologique. L’évolution vers des modèles open source exécutables localement renforce l’indépendance des développeurs et favorise la création d’un environnement numérique plus diversifié, où l’innovation ne repose pas exclusivement sur de grandes infrastructures de cloud computing.

Veja Tambem em Actualités (FR)