Google anunció este jueves la familia Gemma 4, compuesta por nuevos modelos de inteligencia artificial de código abierto y con pesos disponibles. La actualización representa el primer avance importante en la línea desde el lanzamiento de Gemma 3 hace más de un año. Los desarrolladores ahora tienen la licencia Apache 2.0, que elimina las restricciones comerciales presentes en versiones anteriores.
Los modelos admiten entrada de texto, audio e imágenes, con ventanas contextuales que alcanzan los 256 mil tokens en las variantes más grandes. Eles están diseñados principalmente para ejecutarse localmente en hardware asequible, incluidas GPU de consumo y dispositivos móviles. El cambio de licencia facilita el uso comercial sin obligaciones adicionales impuestas por Google.
Mejoras técnicas en razonamiento y multimodal.
Los nuevos modelos aportan avances significativos en razonamiento, matemáticas y seguimiento de instrucciones en comparación con la generación anterior. Eles incorpora soporte nativo para llamadas de funciones y generación de resultados estructurados JSON, lo que beneficia los flujos de trabajo agentes.
La capacidad de procesamiento de código se ha optimizado para entornos fuera de línea, logrando un rendimiento comparable al de servicios en la nube como Gemini Pro. El soporte de entrada visual permite tareas como el reconocimiento óptico de caracteres y la interpretación de gráficos con mayor precisión.
- Las variantes incluyen los modelos Effective 2B y 4B optimizados para baja latencia en teléfonos inteligentes.
- La colaboración con Qualcomm y MediaTek facilita la integración en dispositivos móviles.
- Los modelos más grandes funcionan con una única GPU H100 de 80 GB sin cuantificación.
Variantes de tamaño y eficiencia energética
La familia Gemma 4 tiene cuatro configuraciones de tamaño principales. Las versiones 26B Mixture de Experts y 31B Dense ofrecen alto rendimiento y se ejecutan en hardware de servidor o estación de trabajo. Já como Effective 2B y 4B priorizan la eficiencia para la ejecución en dispositivos de borde.
El modelo 26B MoE activa solo 3.800 millones de parámetros durante la inferencia, lo que reduce la latencia y el consumo de energía. Las variantes Todas manejan más de 140 idiomas. Los desarrolladores pueden descargar los pesos completos en plataformas como Hugging Face, Kaggle y Ollama.
Disponibilidad inmediata en todas las plataformas
Los modelos más grandes 31B y 26B están disponibles en AI Studio y Google. Se puede acceder a las versiones livianas E4B y E2B en AI Edge Gallery. Los pesos completos están disponibles para descarga inmediata desde repositorios públicos.
Las empresas y los investigadores pueden integrar los modelos en aplicaciones locales sin costos recurrentes de API. Google también indicó que las variantes 2B y 4B servirán como base para los próximos dispositivos Gemini Nano 4 en Android.
Impacto del cambio a licencia Apache 2,0
La adopción de la licencia Apache 2.0 elimina las restricciones de la licencia personalizada anterior, que incluía políticas de no uso actualizables unilateralmente. Desenvolvedores Obtenga un mayor control sobre los datos y las implementaciones comerciales.
Este cambio debería incentivar la creación de nuevos proyectos en la comunidad, conocida informalmente como Gemmaverse. El enfoque en la ejecución local refuerza la estrategia de ofrecer alternativas abiertas a los modelos cerrados de la línea Gemini.
Optimizaciones para hardware específico
Las versiones ligeras se desarrollaron en colaboración con fabricantes de chips móviles. Elas ofrece una latencia casi nula en las tareas cotidianas y, al mismo tiempo, mantiene un consumo reducido de batería. Testes indica un buen rendimiento en tarjetas como Raspberry Pi y Jetson Nano.
Los modelos más grandes mantienen la eficiencia incluso en configuraciones densas o MoE. La reducción de la latencia en el procesamiento local representa una ganancia práctica para las aplicaciones que requieren privacidad y una respuesta rápida sin una conexión constante a los servidores.
Admite múltiples modalidades de entrada
Además del texto, los modelos procesan audio e imágenes de forma nativa. El reconocimiento de voz mejora con respecto a Gemma 3. La capacidad multimodal abre posibilidades para aplicaciones que combinan diferentes tipos de datos en tiempo real.
Los desarrolladores pueden crear prototipos de flujos agentes directamente en AI Core Developer Preview utilizando las variantes ligeras. Las implementaciones Essas son compatibles con el futuro Gemini Nano 4.
La familia Gemma 4 refuerza la apuesta de Google por ofrecer modelos abiertos y con pesos accesibles. La combinación de rendimiento mejorado, licencias permisivas y soporte de hardware diverso amplía las opciones para quienes buscan soluciones de IA ejecutables localmente.

