Informe técnico Gemma 3 Versión china

Base de conocimientos de IAPublicado hace 4 meses Sharenet.ai

867 0

Gemma 3 Resumen del mensaje clave

I. Indicadores clave

parámetros	datos
tamaño del modelo	De 100 millones a 27.000 millones de parámetros en cuatro versiones: 1B, 4B, 12B, 27B
construya	sobre la base de Transformador La arquitectura específica del descodificador, heredada de Gemma 2, con una serie de mejoras
capacidad multimodal	Admite la introducción de texto e imágenes, utilizando un codificador visual SigLIP personalizado para codificar imágenes en 256 etiquetas blandas.
Longitud del contexto	El modelo 1B soporta 32K tags, el resto de los modelos soportan 128K tags.
mecanismo de atención	Patrón de intercalación de capas de atención local/global 5:1 con una capa local que abarca 1024 fichas.
Métodos de formación	Formación previa mediante destilación de conocimientos e instrucciones de perfeccionamiento mediante métodos mejorados de formación posterior.
Datos previos al entrenamiento	Cantidad de datos de preentrenamiento: 1B modelo 2T tokens, 4B modelo 4T tokens, 12B modelo 12T tokens, 27B modelo 14T tokens
multilingüismo	Comparación del uso de Géminis 2.0 El mismo clasificador SentencePiece con 262.000 entradas en el vocabulario, compatible con varios idiomas.
Apoyo cuantitativo	Existen versiones de cuantificación en distintos formatos estándar, como int4 por canal, int4 por bloque y toggle fp8.
Infraestructura de formación	Entrenamiento con TPUv4, TPUv5e y TPUv5p con estrategia de fragmentación de estados y replicación de datos del optimizador ZeRO-3
huella de carbono	Con una huella de carbono preestablecida de 1.497,13 toneladas de CO2e, los centros de datos de Google son neutros en carbono.

II. Ventajas

Excelente comprensión multimodal
- Gemma 3 integra un codificador visual capaz de manejar entradas de texto e imágenes y que rinde bien en tareas multimodales.
  - Obtiene buenos resultados en pruebas de evaluación visual como DocVQA, InfoVQA, TextVQA y otras, especialmente en tareas de comprensión de documentos y lectura de texto en imágenes.
  - En comparación con PaliGemma 2, Gemma 3 obtiene mejores resultados en tareas de comprensión de documentos como DocVQA e InfoVQA.
  - El uso de la tecnología Pan & Scan (P&S) permite a Gemma 3 procesar imágenes con una resolución casi nativa, lo que mejora aún más su rendimiento en tareas de lenguaje visual.
Potente procesamiento de contextos largos
- El soporte de longitud de contexto para 128K tokens (32K para los modelos 1B) es ventajoso cuando se trabaja con tareas de texto largo.
  - Obtiene buenos resultados en evaluaciones comparativas de contexto largo como RULER y MRCR.
  - El patrón de intercalación de la capa de atención local/global y el diseño de corto alcance de la capa local controlan eficazmente el consumo de memoria de la caché KV, al tiempo que mantienen la capacidad de procesamiento de contexto largo.
Mejora del multilingüismo
- Utilización de un léxico más equilibrado para las lenguas distintas del inglés y mayor cantidad de formación con datos multilingües.
  - Buen rendimiento en pruebas multilingües como MGSM, Global-MMLU-Lite y WMT24++.
  - Excelente rendimiento en tareas de cuestionario interlingüístico y de generación de lenguas indias como XQuAD e IndicGenBench.
Aumento de las capacidades matemáticas, de razonamiento y de codificación
- Los métodos posteriores a la formación están optimizados para las competencias matemáticas, de razonamiento y de codificación.
  - Excelente rendimiento en MATH, GSM8K, HumanEval y otros benchmarks matemáticos y de código.
  - Obtiene buenos resultados en pruebas de comprensión lingüística multitarea como MMLU, MMLU-Pro y AGIEval.
Gran eficacia de modelado
- Los modelos 1B y 4B tienen parámetros más pequeños y son adecuados para dispositivos con recursos limitados.
- Con la técnica de pooling medio, los modelos Gemma 3 4B y 12B tienen unos costes de migración 10 veces inferiores a los modelos PaliGemma 2 9B y 27B para la misma resolución de las entradas del codificador visual.

III. Desventajas

Conocimientos limitados en materia química, biológica, radiológica y nuclear (QBRN).
- Gemma 3 obtuvo malos resultados en la evaluación de conocimientos QBRN debido a la falta de contenido relacionado con QBRN en los datos previos a la formación.
- Esto significa que en escenarios de aplicación que impliquen dominios QBRN, Gemma 3 puede no proporcionar información precisa y fiable.
Posibles cuellos de botella en el rendimiento al procesar imágenes de alta resolución
- Aunque las técnicas de P&S pueden aliviar los problemas asociados a las relaciones de aspecto no cuadradas y a las imágenes de alta resolución, el recorte y el escalado frecuentes de las imágenes pueden afectar a la velocidad de inferencia.
- El Gemma 3 puede enfrentarse a problemas de rendimiento en aplicaciones que requieran el procesamiento de imágenes de resolución ultraalta o tareas de visión en tiempo real.
La comprensión de determinadas áreas puede ser insuficiente
- Aunque Gemma 3 destaca en varios ámbitos, puede tener una comprensión limitada de ciertas áreas muy especializadas (por ejemplo, jurídica, médica, etc.).
- Esto requiere un mayor ajuste o adaptación del dominio en función de escenarios de aplicación específicos.
Existen ciertos riesgos para la memoria y la privacidad
- Los grandes modelos lingüísticos corren el riesgo de generar texto que aparece en los datos de entrenamiento, y Gemma 3 no es una excepción.
- Aunque la tasa de memoria de Gemma 3 es inferior a la de los modelos anteriores, sigue siendo necesario manejar la información sensible con cuidado para evitar comprometer la privacidad del usuario.
Hay que mejorar la capacidad de razonar sobre relaciones causa-efecto complejas
- Es posible que Gemma 3 no rinda tan bien como se espera en tareas que impliquen un razonamiento causal complejo.
- Esto requiere más investigación y el perfeccionamiento del modelo para mejorar su rendimiento en tareas de razonamiento causal.

Valoración Gemma 3

La serie de modelos Gemma 3 consta de cuatro versiones, cada una de las cuales incluye una versión base de preentrenamiento (versión con sufijo pt, que indica preentrenamiento) y una versión de ajuste de instrucciones (versión con sufijo it, que indica ajuste de instrucciones), lo que significa que en total se han abierto ocho versiones del modelo más amplio.

El tamaño máximo de parámetro del Gemma 3-27B IT tiene un tamaño de precisión fp16 de 54,8 GB, 27 GB después de la cuantificación INT8, dos 4090 disponibles, y la cuantificación INT4 requiere 14 GB de memoria de vídeo, lo que está perfectamente bien para un solo 4090.

Y esta versión del modelo obtuvo muy buenas críticas, con una puntuación de 1.338 puntos (a 8 de marzo de 2025) en la Arena de Grandes Modelos Anónimos (Arena Chatbot), ocupando el noveno puesto mundial por detrás del modelo o1-2024-12-17, y por delante de modelos de la talla de Qwen 2.5-Max y DeepSeek V3.

Según el comunicado oficial de Google, esta serie Gemma 3 es una actualización significativa, ya que la versión Gemma 3-4B modela a un nivel cercano al de la Gemma 2-27B, ¡mientras que la Gemma 3-27B se acerca al de la Gemini 1.5-Pro!

Experiencia Gemma 3 Localización

https://aistudio.google.com/prompts/new_chat?model=gemma-3-27b-it

https://ollama.com/library/gemma3

resúmenes

Gemma 3 es un potente modelo de macrolenguaje multimodal que destaca en comprensión multimodal, procesamiento de contextos largos, capacidades multilingües, matemáticas, razonamiento y código. Sin embargo, aún tiene margen de mejora en conocimientos QBRN, procesamiento de imágenes de alta resolución, comprensión de dominios específicos, riesgos para la memoria y la privacidad, y razonamiento causal complejo.

Informe técnico completo:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

Presentamos Gemma 3, una extensión multimodal de la familia Gemma de modelos ligeros de código abierto con tamaños de parámetros que van de 100 millones a 27.000 millones. Esta versión introduce funciones de comprensión visual, compatibilidad con más idiomas y mayores longitudes de contexto, con un mínimo de 128.000 tokens. También hemos introducido mejoras en la arquitectura del modelo para reducir la memoria caché KV, que crece de forma espectacular al aumentar la longitud del contexto. El modelo Gemma 3 se entrena mediante destilación de conocimientos y supera a Gemma 2 tanto en la versión preentrenada como en la ajustada a las instrucciones. En concreto, nuestro novedoso enfoque de postentrenamiento mejora significativamente las capacidades matemáticas, de chat, de cumplimiento de instrucciones y multilingüe, lo que hace que Gemma3-4B -IT sea comparable en rendimiento a Gemma2-27B-IT, y Gemma3-27B-IT comparable a Gemini-1.5-Pro en las pruebas de referencia. Ponemos todos los modelos a disposición de la comunidad.

1. Introducción

Presentamos la última versión del modelo lingüístico de código abierto Gemma (Gemma Team, 2024a), codiseñado con la familia de modelos de frontera Gemini (Gemini Team, 2023). Esta nueva versión es comparable en tamaño a Gemma 2 (Gemma Team, 2024b) y añade un modelo de mil millones de parámetros. Estos modelos están pensados para ejecutarse en hardware estándar de consumo, como teléfonos móviles, ordenadores portátiles y GPU de gama alta. Esta versión aporta varias características nuevas a la familia Gemma, como la multimodalidad, los contextos largos y el multilingüismo, al tiempo que mantiene o supera el rendimiento de las versiones anteriores.

En términos de multimodalidad, la mayoría de los modelos de Gemma 3 son compatibles con el codificador visual personalizado SigLIP (Zhai et al., 2023). El modelo de lenguaje trata las imágenes como secuencias de tokens blandos codificados por SigLIP. Reducimos el coste de inferencia del procesamiento de imágenes comprimiendo la incrustación visual en 256 vectores de tamaño fijo. El codificador funciona a una resolución fija, y nos inspiramos en LLaVA (Liu et al., 2024) para lograr una resolución flexible mediante un enfoque de pan-and-scan (P&S).

La segunda mejora arquitectónica importante consiste en aumentar el tamaño del contexto a 128.000 tokens sin que ello afecte al rendimiento. Uno de los problemas de los contextos largos es la explosión de memoria en la caché KV durante la inferencia. Para reducir este problema, intercalamos varias capas locales entre cada capa global y fijamos el alcance de las capas locales en sólo 1024 tokens. Así, sólo la capa global se ocupa de los contextos largos, y tenemos 1 capa global por cada 5 capas locales.

El enfoque de optimización del preentrenamiento es similar al de Gemma 2, pero con algunas modificaciones en el diseño arquitectónico. Utilizamos el mismo desambiguador que en Gemini 2.0, y también hemos revisado nuestra estrategia de mezcla de datos para mejorar las capacidades multilingües de los modelos, además de introducir la comprensión de imágenes. Todos los modelos de Gemma 3 se entrenaron mediante destilación de conocimientos (Hinton et al., 2015).

En el postentrenamiento, nos centramos en mejorar las capacidades matemáticas, de razonamiento y de chat, así como en integrar las nuevas funciones de Gemma 3, los contextos largos y la introducción de imágenes. Utilizamos un novedoso enfoque de post-entrenamiento para mejorar todas las capacidades en matemáticas, codificación, chat, seguimiento de órdenes y multilingüismo. El modelo de perfeccionamiento de instrucciones Gemma 3 resultante es potente y versátil, y supera con creces a su predecesor en las pruebas comparativas.

En las secciones siguientes, ofrecemos una breve descripción de nuestro modelo, incluida la arquitectura y los métodos de preentrenamiento y postentrenamiento. También ofrecemos una evaluación detallada de varias pruebas de referencia cuantitativas y cualitativas. Discutimos los enfoques para un despliegue seguro y responsable y esbozamos las implicaciones más amplias de Gemma 3, sus limitaciones y ventajas.

Este es un desglose de los cálculos de costes y propinas basado en los recibos:

1.Identifique el coste de la carne en lonchas:1. En el recibo figura "1x Zurcher Geschnetzeltes + Rosti" por 36,50 CHF. 2. Se trata de un plato de carne en lonchas con guarnición de patatas fritas (Rosti). Se trata de un plato de carne en lonchas con una guarnición de patatas fritas (Rosti). 2.Calcular la punta para 18%:2. Importe de la propina = 36,5 CHF * 0,18 = 6,57 CHFCalcula el importe total:Total = 36,50 CHF + 6,57 CHF = 43,07 CHF

2. Arquitectura del modelo

El modelo Gemma 3 sigue la misma arquitectura genérica Transformer específica del descodificador que las generaciones anteriores de modelos (Vaswani et al., 2017), con la mayoría de los elementos arquitectónicos similares a las dos primeras versiones de Gemma. Utilizamos Grouped Query Attention (GQA) (Ainslie et al., 2023), así como Post-Normalisation y Pre-Normalisation con RMSNorm (Zhang y Sennrich, 2019). Inspirándonos en Dehghani et al. (2023), Wortsman et al. (2023) y el equipo de Chameleon (2024), sustituimos los soft caps de Gemma 2 por la normalización QK. En esta sección, destacamos algunas diferencias clave con respecto a las generaciones anteriores de modelos.

5:1 Intercalación de capas local/global. Alternamos entre autoatención local de ventana deslizante (Beltagy et al., 2020) y autoatención global (Luong et al., 2015), con un patrón de alternancia de 1 capa global por cada 5 capas locales, comenzando con la capa local como primera capa del modelo.

modelización	codificador visual	Parámetros de incrustación	Parámetros no integrados
1B	0	302M	698M
4B	417M	675M	3,209M
12B	417M	1,012M	10,759M
27B	417M	1,416M	25,600M

Contexto largo. Los modelos Gemma 3 admiten una longitud de contexto de 128K tokens, a excepción del modelo 1B, que tiene una longitud de contexto de 32K. aumentamos la frecuencia base RoPE de la capa de autoatención global de 10k a 1M, y mantenemos la frecuencia de la capa local en 10k. seguimos un proceso similar a la interpolación posicional de Chen et al. (2023) para ampliar la extensión de la capa de autoatención global.

2.1 Modalidades visuales

Codificador visual. Se utilizó la variante 400M del codificador SigLIP (Zhai et al., 2023), un transformador visual (Dosovitskiy, 2020) entrenado con una variante de la pérdida CLIP (Radford et al., 2021). El codificador visual Gemma tomó como entrada una imagen cuadrada redimensionada a 896x896 y se ajustó con los datos de la tarea Visual Assistant. Para simplificar, compartimos el codificador visual entre los modelos 4B, 12B y 27B y lo mantuvimos congelado durante el entrenamiento.

Pan y Scan (P&S). El codificador visual Gemma funciona con una resolución fija de 896x896. Cuando se trabaja con relaciones de aspecto no cuadradas e imágenes de alta resolución, esto puede provocar una distorsión de la imagen, con la consiguiente ilegibilidad del texto o la desaparición de objetos pequeños. Para resolver este problema, utilizamos un algoritmo de ventanas adaptables en el momento de la inferencia. Este algoritmo divide la imagen en bloques recortados no solapados de igual tamaño que cubren toda la imagen y la redimensiona a 896x896 píxeles para pasarla al codificador. Esta ventana sólo se aplica cuando es necesario y controla el número máximo de recortes. Se trata de una optimización exclusiva de la inferencia que puede desactivarse para acelerarla.

Fragmentos
modelización	tipología	Número de fichas	series de datos	ejemplares
1B	TPUv5e	512	16 16	2
4B	TPUv5e	2048	16 16	8
12B	TPUv4	6144	16 16	24
27B	TPUv5p	6144	24 8	32

2.2 Formación previa

Hemos seguido una receta de preentrenamiento similar a la de Gemma 2 con destilación de conocimientos.

Datos de entrenamiento. Preentrenamos nuestro modelo con un presupuesto de etiquetado ligeramente superior al de Gemma 2, es decir, utilizamos 14T de etiquetas para entrenar Gemma 3 27B, 12T de etiquetas para entrenar la versión 12B, 4T de etiquetas para entrenar 4B y 2T de etiquetas para entrenar 1B. El aumento de etiquetas se realizó para tener en cuenta la mezcla de imágenes y texto utilizada durante el preentrenamiento. También aumentamos la cantidad de datos multilingües para mejorar la cobertura lingüística. Añadimos datos monolingües y paralelos y utilizamos una estrategia inspirada en Chung et al. (2023) para tratar los desequilibrios en la representación lingüística.

Separadores. Utilizamos el mismo lexer que Gemini 2.0: un lexer SentencePiece con dígitos divididos, espacios en blanco preservados y codificación a nivel de byte (Kudo y Richardson, 2018). El vocabulario resultante tiene 262k entradas. Este lexer está más equilibrado para las lenguas no inglesas.

Filtrado. Utilizamos técnicas de filtrado para reducir el riesgo de generar discursos no deseados o inseguros y eliminar determinada información personal y otros datos sensibles. Descontaminamos el conjunto de evaluación en la mezcla de datos de preentrenamiento y reducimos el riesgo de recitación minimizando la propagación de salidas sensibles. También aplicamos un paso de reponderación de la calidad inspirado en Sachdeva et al. (2024) para reducir la aparición de datos de baja calidad.

Destilación de conocimientos. Muestreamos 256 logits por ficha y los ponderamos según las probabilidades de los profesores. Los alumnos aprenden la distribución de profesores a través de estas muestras mediante la pérdida de entropía cruzada. La distribución objetivo de los profesores se establece en probabilidad cero para los logits no muestreados y se renormaliza.

	Original (GB)	Cuantitativo (GB)
Modelo 1B	bf16 2.0	0.5	0.7 1.0
+KV	2.9	1.4	1.6 1.9
4B	8.0	2.6	2.9 4.4
+KV	12.7	7.3	7.6 9.1
12B	24.0	6.6	7.1 12.4
+KV	38.9	21.5	22.0 27.3
27B	54.0	14.1	15.3 27.4
+KV	72.7	32.8	34.0 46.1

2.3 Entrenamiento cuantitativo de la percepción

Además de los puntos de control originales, proporcionamos versiones cuantificadas de los modelos en diferentes formatos estándar. Estas versiones se obtienen afinando cada modelo en un pequeño número de pasos (normalmente 5.000) mediante Quantitative Awareness Training (QAT) (Jacob et al., 2018). Utilizamos las probabilidades de los puntos de control no cuantificados como objetivos y ajustamos los datos para que coincidan con las distribuciones previas y posteriores al entrenamiento. Basándonos en los motores de inferencia cuantitativa de código abierto más populares (por ejemplo, llama.cpp), nos centramos en tres representaciones de peso: por canal int4, por bloque int4 y toggle fp8. En la Tabla 3, informamos de las huellas de memoria de los modelos originales y cuantificados para diferentes representaciones de peso, y con y sin la caché KV para una longitud de secuencia de marcadores de 32k.

2.4 Infraestructura informática

Entrenamos nuestros modelos utilizando TPUv4, TPUv5e y TPUv5p como se muestra en la Tabla 2. Cada configuración del modelo se optimiza para minimizar el tiempo de entrenamiento. Para el codificador visual, calculamos previamente las incrustaciones de cada imagen y entrenamos directamente con ellas sin aumentar el coste del entrenamiento del modelo lingüístico.

Los estados del optimizador se fragmentan utilizando la implementación ZeRO-3 (Ren et al., 2021). Para el entrenamiento multipod, realizamos réplicas de datos en la red del centro de datos re

contexto (textual)	formato
rondas de usuarios	usuario
modelo turn	modelo
Fin de la ronda
Ejemplo de debate:
Usuario: ¿Quién eres? Modelo: ¡Me llamo Gemma! Usuario: ¿Qué es 2+2? Modelo: 2+2=4.
	Modelo de entrada:
[BOS]usuario ¿Quién eres? modelo ¡Me llamo Gemma! usuario
¿Qué es 2+2?
2+2=4.	Modelo de salida:

2.5 Huella de carbono

La huella de carbono del modelo Gemma 3 preentrenado es de 1.497,13 toneladas de CO2e. Esta cifra se ha calculado a partir del consumo de energía por hora notificado por nuestros centros de datos TPU y se ha ampliado para tener en cuenta la energía adicional consumida para crear y mantener los centros de datos. Los centros de datos de Google son neutros en carbono, lo que se consigue mediante una combinación de eficiencia energética, compras de energía renovable y compensaciones de carbono. Esta neutralidad de carbono se aplica a nuestra formación y a las máquinas que la ejecutan.

3. Ajuste del mando

El modelo preentrenado se transformó en un modelo de ajuste de comandos mediante un método de postentrenamiento mejorado (véase el cuadro 6).

habilidad

Nuestro enfoque de post-entrenamiento se basa en una versión mejorada de Knowledge Distillation (Agarwal et al., 2024; Anil et al., 2018; Hinton et al., 2015) de una gran facultad de TI, así como en la fase de ajuste fino de RL basada en versiones mejoradas de BOND (Sessa et al., 2024), WARM (Ram et al., 2024b) y WARP (Ram et al. , 2024a) en la fase de ajuste fino RL.

Objetivos de aprendizaje mejorados

Utilizamos diversas funciones de recompensa para mejorar la utilidad, las matemáticas, la codificación, el razonamiento, el seguimiento de instrucciones y el multilingüismo, minimizando al mismo tiempo el daño al modelo. Esto incluye el aprendizaje a partir de modelos de recompensa agregada ponderada entrenados utilizando datos de feedback humano (Ram et al., 2024b), feedback de ejecución de código (Gehring et al., 2024) y recompensas reales por resolver problemas matemáticos (DeepSeek-AI, 2025; Lambert et al., 2024).

Filtrado de datos

Optimizamos cuidadosamente los datos utilizados en el postentrenamiento para maximizar el rendimiento del modelo. Filtramos las salidas del modelo que muestran cierta información personal, son inseguras o tóxicas, datos incorrectamente autoidentificados y ejemplos duplicados. Incluir un subconjunto de datos que fomente una mejor atribución contextual, moderación y rechazo para minimizar las ilusiones también mejora el rendimiento en las métricas de hechos sin degradar el rendimiento del modelo en otras métricas.

[BOS] Marcado

Para los modelos PT e IT en los que el texto comienza con una etiqueta [BOS], es necesario añadirla explícitamente, ya que el texto "[BOS]" no se asignará a una etiqueta [BOS]. Por ejemplo, Flax tiene una opción, add_bos = True, para añadir automáticamente este token durante la división de palabras. El cuadro 4 muestra un ejemplo de formato de un modelo de TI.

Formateo PT e IT

Todos los modelos comparten el mismo desambiguador, con algunos tokens de control dedicados al formato IT. Una diferencia clave es que los modelos PT emiten un token al final de la generación, mientras que los modelos IT emiten un token al final de la generación, como se muestra para IT en la Tabla 4. Por lo tanto, el ajuste fino de cualquiera de los dos tipos de modelos también requiere la adición de sus respectivas etiquetas de fin de turno. Por lo tanto, el ajuste fino de cualquiera de los dos tipos de modelos también requiere la adición de sus respectivas etiquetas de fin de turno.

clasificaciones	modelización	Elo	95% CI	liberalización	tipología	Parámetros #/# activación
1	Grok-3-Prevista-02-24	1412	+8/-10
1	GPT-4.5-Previsualización	1411	+11/-11
3	Gemini-2.0-Flash-Thinking-Exp-01-21	1384	+6/-5
3	Gemini-2.0-Pro-Exp-02-05	1380	+ 5/-6
3	ChatGPT-4o-latest (2025-01-29)	1377	+ 5/-4
6	DeepSeek-R1	1363	+8/-6	sea	ME	671B/37B
6	Géminis-2.0-Flash-001	1357	+6/-5
8	01-2024-12-17	1352	+ 4/-6
9	Gemma-3-27B-IT	1338	+8/-9	sea	comprimido	27B
9	Qwen2.5-Max	1336	+ 7/-5
9	01-vista previa	1335	+4/-3
9	03-mini-alta	1329	+8/-6
13	DeepSeek-V3	1318	+8/-6	sea	ME	671B/37B
14	GLM-4-Plus-0111	1311	+8/-8
14	Qwen-Plus-0125	1310	+7/-5
14	Claude 3.7 Soneto	1309	+ 9/-11
14	Gemini-2.0-Flash-Lite	1308	+5/-5
18	Paso-2-16K-Exp	1305	+ 7/-6
18	03-mini	1304	+ 5/-4
18	0l-mini	1304	+4/-3
18	Géminis-1.5-Pro-002	1302	+3/-3
28	Meta-Llama-3.1-405B-Instruct-bf16	1269	+4/-3	sea	comprimido	405B

38	Llama-3.3-70B-Instruct	1257	+5/-3	sea	comprimido	70B

39	Qwen2.5-72B-Instrucción	1257	+3/-3	sea	comprimido	72B

59	Gemma-2-27B-it	1220	+3/-2	sea	comprimido	27B

Tabla 5 | Evaluación de los modelos Gemma 3 27B IT en Chatbot Arena (Chiang et al., 2024). Todos los modelos fueron evaluados de forma ciega por un evaluador humano. A cada modelo se le asignó una puntuación según el sistema de puntuación Elo.Las cifras de Gemma-3-27B-IT son resultados preliminares recibidos el 8 de marzo de 2025.Los modelos Gemma-3-27B-IT fueron evaluados en Chatbot Arena (Chiang et al., 2024) por un evaluador humano.

4. Evaluación final del modelo

En esta sección, evaluamos el modelo informático mediante una serie de pruebas comparativas automatizadas y evaluaciones humanas, así como pruebas comparativas estáticas como MMLU.

4.1 LMSYS Chatbot Arena

En esta sección, informamos sobre el rendimiento de nuestro modelo IT 27B en el LMSys en una evaluación paralela ciega de otros modelos de última generación en Chatbot Arena (Chiang et al., 2024). Informamos de las puntuaciones Elo en la Tabla 5. Gemma 3 27B IT (1338) es el mejor modelo de los 10 primeros y obtiene puntuaciones más altas que otros modelos abiertos no pensantes como DeepSeek-V3 (1318), LLaMA 3 405B (1257) y Qwen2.5-70B (1257), que son modelos mucho más grandes. Por último, Gemma 3 tiene un Elo significativamente mayor que Gemma 2, con 1220. Nótese que las puntuaciones Elo no tienen en cuenta las capacidades visuales, mientras que ninguno de los modelos anteriores lo hace.

4.2 Evaluación comparativa normalizada

En la Tabla 6, mostramos el rendimiento de nuestro modelo final en diferentes puntos de referencia en comparación con nuestras iteraciones de modelos anteriores y Gemini 1.5. No realizamos comparaciones directas con modelos externos que suelen informar de sus propias configuraciones de evaluación, ya que ejecutarlas en nuestra configuración no garantiza una comparación justa. Animamos a los lectores a que sigan las clasificaciones estáticas de terceros para una comparación más justa de los distintos modelos. En el apéndice incluimos evaluaciones adicionales de nuestros modelos en otros puntos de referencia.

	Géminis 1.5		Géminis 2.0			Gemma 2			Gemma 3
	Flash	Pro	Flash	Pro	2B	9B	27B	1B	4B	12B	27B
MMLU-Pro	67.3	75.8	77.6	79.1	15.6	46.8	56.9	14.7	43.6	60.6	67.5
LiveCodeBench	30.7	34.2	34.5	36.0	1.2	10.8	20.4	1.9	12.6	24.6	29.7
Bird-SQL (desarrollo)	45.6	54.4	58.7	59.3	12.2	33.8	46.7	6.4	36.3	47.9	54.4
GPQA Diamante	51.0	59.1	60.1	64.7	24.7	28.8	34.3	19.2	30.8	40.9	42.4
SimpleQA	8.6	24.9	29.9	44.3	2.8	5.3	9.2	2.2	4.0	6.3	10.0
FACTS Toma de tierra	82.9	80.0	84.6	82.8	43.8	62.0	62.4	36.4	70.1	75.8	74.9
MATEMÁTICAS	77.9	86.5	90.9	91.8	27.2	49.4	55.6	48.0	75.6	83.8	89.0
HiddenMath	47.2	52.0	63.5	65.2	1.8	10.4	14.8	15.8	43.0	54.5	60.3
MMMU (val)	62.3	65.9	71.7	72.7					48.8	59.6	64.9

Tabla 6 | Comparación del rendimiento con el modelo de recorte de instrucciones (IT) de Gemini 1.5, Gemini 2.0 y Gemma 2 en pruebas de referencia de muestra cero.

5. Estudios de ablación

En esta sección, nos centramos en el impacto de los cambios arquitectónicos y las nuevas capacidades visuales de algunos de los nuevos modelos.

5.1 Detección de la capacidad previa al entrenamiento

Durante el preentrenamiento utilizamos varias pruebas de referencia estándar para asegurarnos de que nuestros modelos captan las capacidades generales. En la Figura 2, comparamos la calidad de los modelos preentrenados de Gemma 2 y 3 en estas capacidades generales, es decir, ciencia, código, factualidad, multilingüismo, razonamiento y visión. En el Apéndice se resumen los detalles de rendimiento de las distintas referencias públicas utilizadas en estos gráficos. En general, vemos que, a pesar de la incorporación de la visión, la nueva versión mejora en la mayoría de las categorías. Nos preocupa especialmente el multilingüismo de esta versión, que afecta directamente a la calidad de nuestros modelos. Sin embargo, a pesar del uso de técnicas de descontaminación, siempre existe un riesgo de contaminación en estas sondas (Mirzadeh et al., 2024), lo que dificulta la obtención de conclusiones más claras.

5.2 Capa de atención local: global

Medimos el impacto de los cambios en las capas de autoatención local y global sobre el rendimiento y el consumo de memoria durante la inferencia.

Local: tasa global. En la Fig. 3, comparamos diferentes proporciones de capas de atención local y global. el modelo Gemma 2 utiliza 1:1, y Gemma 3 utiliza 5:1. observamos que cambiar esta proporción tiene poco efecto sobre la perplejidad.

Tamaño de la ventana corredera. En la Figura 4, comparamos la perplejidad de distintos tamaños de ventana deslizante para distintas configuraciones de la relación global:local de la capa de atención local. La ventana deslizante puede reducirse significativamente sin afectar a la perplejidad.

Impacto en la memoria caché KV. En la Fig. 5, mostramos el equilibrio entre el modelo y la memoria caché KV en el contexto de 32.000 etiquetas. Consideramos un modelo 2B con diferentes ratios local-global y tamaños de ventana deslizante (sw). Lo comparamos con una configuración globalmente única, que es la configuración estándar utilizada en Gemma 1 y Llama. Observamos que la configuración "globalmente única" conlleva una sobrecarga de memoria de 60%, mientras que el uso de una ventana deslizante de 1:3 y 1024 (sw=1024En la Figura 6, calculamos el uso de memoria de la caché KV en función de la longitud del contexto, utilizando nuestra arquitectura 2B (**L:G=5:1, sw=1024**) con un modelo 2B "globalmente único".

5.3 Activar contextos largos

En lugar de entrenar 128k secuencias desde cero, pre-entrenamos nuestros modelos para usar 32k secuencias, y luego escalamos los modelos 4B, 12B, y 27B a 128k tokens al final del pre-entrenamiento mientras re-escalamos el RoPE (Chen et al., 2023). Descubrimos que un factor de escalado de 8 funcionaba bien en la práctica. Cabe destacar que, en comparación con Gemma 2, también aumentamos la frecuencia base del RoPE para la capa de autoatención global de 10k a 1M, mientras que mantuvimos la frecuencia de la capa de autoatención local en 10k.En la Fig. 7, mostramos el efecto de la perplejidad para diferentes longitudes de contexto. Nuestro modelo se generaliza hasta 128k, pero la perplejidad disminuye rápidamente a medida que seguimos escalando.

5.4 Pequeños y grandes profesores

Un hallazgo común es que para entrenar un modelo pequeño, lo mejor es destilar de un maestro pequeño.

Sospechamos que esto se debe a que estos estudios suelen utilizar profesores más pobres en entornos que compensan los beneficios de utilizar profesores mejores. Entrenamos a los alumnos con dos profesores de distinto tamaño, uno grande y otro pequeño, para distintas duraciones de entrenamiento. En la figura 8, se observa que, para períodos de formación cortos, el profesor más pequeño es mejor, pero la tendencia se invierte para períodos de formación más largos.

5.5 Codificador visual

El efecto de la resolución de la imagen. Utilizamos un codificador visual basado en SigLIP (Zhai et al., 2023). El codificador visual se congela y solo se entrena el modelo lingüístico. Cada imagen de estos datos multimodales está representada por 256 tokens de imagen del codificador visual correspondiente. Por lo tanto, los codificadores de mayor resolución utilizan la agrupación de promedios para reducir su salida a 256 tokens. Por ejemplo, el codificador de resolución 896 tiene 4x4 average pooling en su salida. Como muestra la tabla 7, el codificador de mayor resolución supera al de menor resolución.

Pan y Scan (P&S). P&S permite capturar imágenes con una relación de aspecto y una resolución cercanas a las originales. En la Tabla 8, comparamos nuestros modelos 27B IT con y sin P&S. Como era de esperar, la capacidad de procesar imágenes a una resolución cercana a la nativa es de gran ayuda para tareas que requieren algún tipo de lectura de texto en una imagen, lo que es especialmente importante para los modelos de lenguaje visual.

6. Memoria y privacidad

Los grandes modelos lingüísticos pueden producir casi réplicas de algunos de los textos utilizados en el entrenamiento (Biderman et al. 2023; Carlini et al. 2021, 2022; Ippolito et al. 2022; Nasr et al. 2023). Varios informes anteriores han publicado auditorías que cuantifican este riesgo midiendo el índice de memoria (Anil et al. 2023; Chowdhery et al. 2022; equipo Gemini 2023, 2024; equipo Gemma 2024a,b; equipo LLaMa 2024). Esta "tasa de memoria "1 se define como la relación entre la generación de modelos que coinciden con los datos de entrenamiento y toda la generación de modelos, utilizando la siguiente configuración. Seguimos el método descrito en el equipo Gemma (2024b) para medirla. En concreto, tomamos una submuestra de una porción más grande de los datos de entrenamiento distribuida uniformemente y probamos la extracción detectable de este contenido utilizando un prefijo de longitud 50 y un sufijo de longitud 50 (Nasr et al., 2023). El texto se representó como "memoria completa" si todos los tokens de la continuación coincidían con el sufijo de origen, o como "memoria cercana" si coincidían dentro de una distancia de edición de 10%.

En la Figura 9 se comparan los índices de memoria de los modelos Gemma y Gemini; los modelos están dispuestos en orden cronológico inverso, con el último modelo Gemma 3 a la izquierda. Se observa que el modelo Gemma 3 recuerda textos largos a un ritmo mucho menor que el modelo anterior (nótese el eje logarítmico y). Sólo observamos pequeñas diferencias en las tasas de memoria entre los modelos 4B, 12B y 27B, siendo el 1B el que recuerda menos que los otros modelos más grandes. Además, observamos que una mayor proporción del texto se caracterizaba como memoria aproximada, con un aumento relativo de la memoria aproximada en comparación con la memoria completa de unas 24 veces.

También examinamos la frecuencia con la que la generación puede contener información personal. Para identificar posible información personal, utilizamos el servicio de protección de datos sensibles (SDP) de Google Cloud.2 SDP utiliza una amplia gama de reglas de detección para identificar texto que pueda contener información personal.SDP está pensado para tener un alto índice de recuperación y no tiene en cuenta el contexto en el que puede aparecer la información, lo que da lugar a muchos falsos positivos. Además, el SDP ofrece una amplia gama de niveles de gravedad: bajo, medio y alto. Clasificamos un texto como información personal si el SDP lo clasifica en cualquier nivel de gravedad. Observamos que todos los modelos Gemma 3 no contienen información personal en su salida. Esto indica que la tasa de datos personales en la salida clasificada como recuerdos está por debajo de nuestro umbral de detección.

7. Responsabilidad, seguridad

La responsabilidad, la seguridad y la protección son fundamentales en el desarrollo del modelo Gemma. Con el fin de minimizar el impacto en los usuarios de Gemma 3, seguimos integrando procesos de seguridad interna mejorados que se ejecutan a través del flujo de trabajo de desarrollo, alineados con los recientes modelos de IA de Google (Gemini Team, 2024). Esto se centra en la mitigación de la seguridad durante el entrenamiento, así como en la evaluación robusta y transparente del modelo de las nuevas funciones de imagen a texto.

7.1 Gobernanza y evaluación

Nuestro planteamiento para evaluar los beneficios y riesgos de Gemma refleja el esbozado en Gemma 1 (Gemma Team, 2024a) y tiene en cuenta los cambios en los modelos de apoyo. Seguimos creyendo que la apertura de la IA puede extender los beneficios de estas tecnologías al conjunto de la sociedad, pero debe evaluarse en función del riesgo de daño que pueda causar, tanto a nivel individual como institucional (Weidinger et al., 2021). Desde el primer lanzamiento de Gemma, hemos visto que estos modelos impulsan varias aplicaciones socialmente beneficiosas, como nuestro propio ShieldGemma 2, un clasificador de seguridad de imágenes 4B construido utilizando Gemma 3, que proporciona una solución estándar para la seguridad de las imágenes que produce etiquetas de seguridad para las categorías de contenido peligroso, explotación sexual y violencia.

El lanzamiento del modelo Gemma 3 requiere una atención especial a los cambios en las capacidades del modelo y una estrecha vigilancia de los riesgos en evolución de los LLM multimodales existentes (Lin et al., 2024), así como una comprensión de cómo se utiliza el modelo en la naturaleza. Aunque todavía no hemos recibido ningún informe sobre el uso malintencionado de Gemma, seguimos comprometidos con la investigación de dichos informes y la colaboración con el mundo académico y la comunidad de desarrolladores, así como con nuestra propia supervisión para detectar dichos casos.

A pesar de las capacidades mejoradas, creemos que esta versión tendrá un impacto insignificante en el panorama general del riesgo, dados los modelos abiertos más sólidos disponibles.

7.2 Política de seguridad y medidas paliativas durante la formación

Uno de los pilares clave del enfoque de seguridad de Gemma es alinearse con la Política de Seguridad de Google, alineada con el modelo Gemini (Gemini Team, 2023). Están diseñadas para ayudar a evitar que nuestros modelos generen contenido dañino, es decir:

- Abuso y explotación sexual infantil
- Divulgación de información personal identificable que pueda causar daños (por ejemplo, números de la seguridad social).
- Discurso de odio y acoso
- Contenidos peligrosos o malintencionados (incluida la promoción de autolesiones o la instrucción en actividades nocivas)
- pornografía
- Consejos médicos contrarios al consenso científico o médico

Realizamos un amplio filtrado de seguridad de nuestros datos de preentrenamiento para reducir la probabilidad de que los puntos de control de preentrenamiento y ajuste fino produzcan contenidos dañinos. Para los modelos de ajuste fino, también utilizamos SFT y RLHF para alejar a los modelos de comportamientos indeseables.

7.3 Evaluación de las salvaguardias

También sometemos nuestros modelos informáticos a una serie de evaluaciones de garantía de referencia para comprender el daño potencial que podrían causar nuestros modelos. Como promovemos los modelos abiertos, también reconocemos que la irreversibilidad de las liberaciones de peso exige una evaluación rigurosa del riesgo. Nuestros procesos internos de seguridad están diseñados en consecuencia, y para modelos Gemma anteriores también hemos realizado evaluaciones de las capacidades asociadas a riesgos extremos (Phuong et al., 2024; Shevlane et al., 2023). A medida que sigamos desarrollando y compartiendo modelos abiertos, seguiremos esta heurística evaluando a fondo que un modelo más robusto suele proporcionar cobertura suficiente para un modelo menos capaz. Por lo tanto, hemos dado prioridad a un conjunto de evaluaciones simplificadas para Gemma 3, reservando las evaluaciones en profundidad de la capacidad de peligro para situaciones en las que un modelo concreto pueda tener un riesgo potencialmente mayor (como se describe más adelante para la evaluación QBRN). Hemos equilibrado la velocidad de desarrollo con la realización de pruebas de seguridad específicas para garantizar que nuestras evaluaciones estuvieran centradas y fueran eficientes, al tiempo que cumplíamos nuestros compromisos recogidos en el Marco de Seguridad Fronteriza.

Evaluación inicial

La garantía de referencia mide la frecuencia con la que el modelo viola las políticas de seguridad, utilizando un gran número de consultas de usuarios adversarios sintéticos y empleando un evaluador humano para marcar las respuestas en función de si se violan o no las políticas. En general, Gemma 3 tiene un índice muy bajo de violación de estas políticas de seguridad.

Conocimientos químicos, biológicos, radiológicos y nucleares (QBRN)

Debido al mayor rendimiento en las tareas relacionadas con STEM, evaluamos los conocimientos relacionados con los riesgos biológicos, radiológicos y nucleares utilizando preguntas cerradas de opción múltiple basadas en los conocimientos sobre el conjunto de datos interno. Para la evaluación de los conocimientos químicos, evaluamos los riesgos químicos utilizando un enfoque basado en conocimientos de respuesta cerrada desarrollado por Macknight et al. Nuestra evaluación demostró que el modelo Gemma 3 tiene escasos conocimientos en estos ámbitos.

7.4 Nuestro enfoque de modelización abierta responsable

El diseño de aplicaciones seguras y responsables requiere un enfoque a nivel de sistema que se esfuerce por mitigar los riesgos asociados a cada caso de uso y entorno concretos. Seguiremos empleando evaluaciones y mitigaciones de seguridad proporcionales a los riesgos potenciales de nuestros modelos, y solo las compartiremos con la comunidad cuando estemos seguros de que los beneficios superan claramente a los riesgos previsibles.

8. Debate y conclusiones

En este trabajo presentamos Gemma 3, el último miembro de la familia Gemma de modelos lingüísticos de código abierto para texto, imágenes y código. En esta versión, nos centramos en añadir la comprensión de imágenes y contextos largos, al tiempo que mejoramos las capacidades multilingües y las relacionadas con STEM. El tamaño y la arquitectura de nuestro modelo están pensados para ser compatibles con el hardware estándar, y la mayoría de nuestras mejoras arquitectónicas están diseñadas para adaptarse a este hardware manteniendo el rendimiento.