El ex jefe del equipo de postformación de OpenAI explica los métodos y retos de la postformación, ¡el PPT se vuelve viral!

Noticias AIActualizado hace 5 meses Sharenet.ai
858 0
吐司AI

Este documento es una presentación en PowerPoint realizada en la Universidad de Stanford por Barret Zoph y John Schulman, responsables de la formación previa y posterior de OpenAI (y cofundadores de OpenAI), que comparten su experiencia en el desarrollo de OpenAI. ChatGPT de la experiencia posterior a la formación. Dado que la presentación no se grabó en vídeo, este PPT es la fuente principal para comprenderla.

Destacan:

  1. Definición e importancia de la formación posterior. Es la fase final del desarrollo del modelo y el objetivo es que sea similar a un asistente y esté listo para aplicaciones reales. A diferencia del preentrenamiento, el postentrenamiento es menos intensivo desde el punto de vista computacional, iterativo y utiliza técnicas RLHF.

  2. Desarrollo temprano de ChatGPT. De GPT-3 a ChatGPT, cómo el equipo empezó con poco, fue ampliando gradualmente la funcionalidad y, finalmente, decidió hacerla pública.

  3. Detalles técnicos. Se presentan los tres componentes principales de la formación posterior, SFT, RM y RL, así como la forma de hacer frente a problemas como el aumento de la complejidad de los modelos, los errores ortográficos, el exceso de rechazo, los prejuicios políticos y la desinformación.

  4. Pregunta abierta. Se discuten los retos que plantean la obtención de información humana de alta calidad, la definición de las especificaciones del modelo y el mantenimiento de la diversidad del mismo.

  5. Dos épocas de oleoductos: la resume los distintos procesos de formación de modelos.

  6. Lectura recomendada. Artículos y blogs recomendados relacionados con la formación posterior.

Texto original:https://docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE/edit?usp=sharing

autor: Barret Zoph & John Schulman


introducción

Barret Zoph

  • Anteriormente codirigió la labor de postformación con John en OpenAI.

John Schulman

  • Actualmente en Antrópico empleo
  • Uno de los cofundadores de OpenAI, que anteriormente codirigió la labor de postformación con Barret

Historia de nuestra cooperación

  • La cooperación comenzará en septiembre de 2022
  • Trabajar en un chatbot de alineación de despliegue seguro
  • Al principio, el equipo se llamaba "RL" y estaba formado por un puñado de personas.
  • ChatGPT se concibió originalmente como un "anticipo discreto de la investigación"

¿Qué es la formación posterior?

¿Qué es la formación posterior?

  • Haz que el modelo se comporte como un asistente y siga el formato correcto
  • Es la etapa final antes de que el modelo se ponga en producción.
  • A menudo se asocia más estrechamente con el equipo de producto
OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

 

Modelo base frente a modelo post-entrenamiento

Ejemplo de modelo base:

用户:请给我一个简单的辣椒酱食谱。

助手:
我没有简单的辣椒酱食谱。我有一个复杂的食谱。并不是我不喜欢简单的辣椒酱食谱。只是我不知道怎么做。我从来没能做出一个简单的辣椒酱食谱。我试过,但我总是做出太辣、太淡、太稀、太稠或太什么的东西。

所以,我放弃了简单的辣椒酱食谱。我放弃了尝试制作简单的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。

Modelos post-entrenamiento:

用户:请给我一个简单的辣椒酱食谱。
助手:
这里有一个简单的辣椒酱食谱。

**材料** :

* 1 磅牛肉末
* 1 个大洋葱,切碎
* 1 个青椒,切碎
* 2 罐(每罐 8 盎司)番茄酱
* 1 罐(14.5 盎司)切丁番茄
* 1 罐(15 盎司)芸豆,沥干并冲洗
* 2 汤匙辣椒粉
* 1 汤匙孜然粉
* 1 茶匙大蒜粉
* 1/2 茶匙盐
* 1/2 茶匙黑胡椒

**做法** :

1. 在大锅中,用中火将牛肉末煎至熟透,大约 10 分钟。沥干多余的油脂。

 

Modelo base frente a modelo post-entrenamiento

基础模型:

用户:谁是 John Schulman?

助手:没有。

## 2018 年 12 月 10 日:

18:21 工单 #340(GNOME 终端在 GTK 3.24 上无法工作)由 Antoine Martin 关闭,已解决:这不是一个 xpra 问题,请参见 #2174。

Modelo de chat:

谁是 John Schulman?
---
John Schulman 是一位研究科学家和机器学习专家,最著名的身份是 OpenAI 的联合创始人之一,OpenAI 是一个非营利性的人工智能研究组织。

在创立 OpenAI 之前,Schulman 是加州大学伯克利分校计算机科学系的硕士研究生,在那里他从事强化学习和机器人技术的研究。他是近端策略优化(PPO)的共同发明者之一,PPO 是一种在训练人工智能代理中广泛使用的强化学习算法。

Schulman 因其在机器学习方面的工作获得了无数奖项,包括 2016 年的 ACM 博士论文奖和 2018 年 IEEE 神经网络与学习系统汇刊杰出论文奖。他还在 2017 年被 MIT 技术评论评为 35 位 35 岁以下的创新者之一。

在 OpenAI,Schulman 领导机器人团队,并致力于开发能够学习和适应新环境和任务的人工智能系统。他还是机器学习会议和活动的常客,并在顶级机器学习期刊和会议上发表了大量研究论文。

 

Post-formación vs. pre-formación

  • Mucho menos cálculo y ciclos de iteración más rápidos en comparación con el preentrenamiento.
  • Aprendizaje por refuerzo basado en la retroalimentación humana (RLHF)
    • Adaptar los modelos a las preferencias del usuario
  • Herramientas de modelización didáctica
    • Ejemplos: búsqueda, navegación web, ejecución de código
  • Modelar la personalidad
  • Introducción de conductas de denegación/seguridad
    • "Ser un modelo lingüístico de IA ......" El comportamiento se basa en gran medida en la generalización a partir de modelos de base preentrenados.

 

¿Qué es la formación posterior?

Tres componentes principales:

  1. Ajuste fino supervisado (SFT)
    • Clonación del comportamiento humano/experto
  2. Formación sobre el Modelo de Recompensa (MR)
    • Modelización de las preferencias humanas
  3. Aprendizaje por refuerzo (RL)
    • Optimización de modelos de recompensa mediante RL
    • Mezcla de objetivos no RM para la inferencia en el proceso RL
OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

 

Ajuste fino supervisado (SFT)

Recopilación de ejemplos de oro para afinar el modelo base
Esperamos que estos datos sean de gran calidad e imiten el comportamiento que desea que tenga el modelo.
Modelo SFT como inicialización para el entrenamiento RL
Los investigadores trabajan con modelos para crear estos ejemplos (por ejemplo, supervisión escalable)

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Primer paso: Recoger datos de demostración y entrenar una estrategia supervisada.

Muestra una pregunta de nuestro conjunto de datos de preguntas.

Un anotador demuestra el comportamiento de salida deseado.

Estos datos se utilizaron para ajustar la GPT-3 mediante aprendizaje supervisado.

 

Modelización de recompensas (RM)

Recopilación de datos comparativos de seres humanos
Para una pista determinada, los humanos deciden qué resultados del modelo les gustan más
Estos datos se utilizan para entrenar el modelo de recompensa
Se utilizó un gran número de estudios para recopilar tipos de comparaciones (por ejemplo, binarias, 1-7) y otros tipos de información (por ejemplo, notas del anotador).

Paso 2: Recopilar datos comparativos y entrenar modelos de recompensa.

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

 

Aprendizaje por refuerzo (RL/PPO)

Ahora que tenemos los modelos SFT y RM, podemos pasar a la etapa final
Empezar con el modelo SFT y luego realizar la optimización RL para el modelo de recompensa
Elegir una amplia distribución de claves para entrenar el MR
A menudo hay problemas con modelos de recompensa demasiado optimizados o rotos.

Paso 3: Utilizar el aprendizaje por refuerzo para optimizar estrategias frente a modelos de recompensa.

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

 

Historia temprana de ChatGPT + OpenAI post-training

OpenAI LLM antes de ChatGPT

  • Modelo base GPT-3 (mediados de 2020)
  • GPT-3.5 se publicará en enero de 2022 principalmente como modelo de mando (InstructGPT)
    • Modelo de finalización similar al modelo base, pero proporciona resultados de finalización más útiles.

Equipo RL

  • 2021 comprometido con WebGPT - navegación y preguntas y respuestas a través de RL
  • Empezaremos a trabajar en el sucesor de WebGPT, Chat, a principios de 2021.
  • Al final, como GPT-3.5 programaba tan bien, se restó importancia a la función de navegación porque los casos de uso distintos de la navegación resultaban más atractivos.

Preparar la liberación de GPT-4

  • El buque insignia del LLM sigue siendo el proyecto InstructGPT; los primeros ajustes de GPT-4 se basaron en instrucciones
  • Debido a problemas de usabilidad y fiabilidad, el equipo de producto exploró casos de uso especializados, como la codificación y los resúmenes de reuniones.

Decisión de publicar ChatGPT

  • El modelo de chat parece prometedor como factor de forma; la beta cerrada para amigos y familiares lleva en marcha desde el verano
  • La dirección decidió lanzar un chat y reunió al equipo de producto para trabajar en ello.
  • La incertidumbre sobre la respuesta es alta; Galactica retiró su lanzamiento antes de tiempo

Información sobre los avances de la investigación

  • Mucho más popular de lo esperado; se hizo viral y la gente se enseñó a usarla.

Ballena del tiempo de inactividad de ChatGPT (Fail Whale)

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

 

Complejidad ampliada

Al principio, ChatGPT era relativamente sencillo

  • Sólo un modelo con entrada y salida de texto

Importante ampliación de características/modelos a lo largo del tiempo

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传
Chat originalGPT Diciembre 2022
OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传
ChatGPT Enero 2025

Con el tiempo, hemos añadido muchas funciones y capacidades

  1. Múltiples tamaños de modelos desplegados: GPT-3.5, GPT-4, GPT-4o, o1-mini, ......
  2. Interacción herramienta/herramienta añadida
    • Navegar, Buscar, Intérprete de código, Memoria, Plugins, ......
  3. seguridad
    • Guardián, Mejora de la negación de los límites, ......
  4. formación a medio camino
    • Formación continua de los modelos de base para mantenerlos actualizados, nuevos avances arquitectónicos, etc. ......
  5. multimodal
    • Entrada de imagen, entrada y salida de audio (por ejemplo, 4o)
  6. Datos humanos
    • Ampliación y experimentación con nuestra configuración de datos humanos. Colaboración entre humanos y modelos.
  7. Inversiones en investigación abierta

 

plan director

Con el rápido crecimiento de la funcionalidad y el tamaño de las empresas, es necesario averiguar cómo integrar los cambios en un modelo.

Nuestra solución: la configuración de nuestro modelo principal
Reducción de riesgos a menor escala
Reducción del riesgo mediante una versión normalizada del miniexperimento
Integrar los cambios en las ejecuciones frecuentes y revertir los cambios si surgen problemas.

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

 

Errores y retos

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

tipográfico

Observe el gran número de errores ortográficos en el modelo
Los errores ortográficos aumentaron después de RL
Se encontraron errores ortográficos en el conjunto de datos SFT
Al final, se ha detectado el error:

Proceso de comparación: calificación de 2 o más terminaciones, preparación de terminaciones mejoradas
Contabilización incorrecta de las finalizaciones (escritas manualmente) como las de mayor puntuación.
Los resultados mejorados tienen más errores ortográficos => RM prefiere los errores ortográficos

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

A veces se preparan resultados de finalización mejorados

Rechazo excesivo 1

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Rechazo excesivo 2

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Rechazo: fácil de eludir

¿Se aplica la formación de rechazo en LLM al tiempo pasado?

autor: Maksym Andriushchenko y Nicolas Flammarion (EPFL)

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Rechazo: ¿por qué es tan difícil?

problema fronterizo

  • El modelo de entrenamiento rechaza HARMFUL_QUERIES y se adhiere a HARMLESS_QUERIES (todo lo demás).
  • Esto es ingenuo => el modelo no ha aprendido los límites
    Cuestiones relacionadas con los datos humanos
  • Por defecto, los datos de preferencias humanas normales contienen denegaciones de
  • Los etiquetadores no siempre conocen las estrategias de rechazo
    prescripción
  • Pares de datos; 1 consulta perjudicial que debe rechazarse y 1 consulta inofensiva que resulta estar al otro lado de la frontera.
  • Existe una especificación detallada (OpenAI Model Specification)
  • Estratificación de etiquetadoras
OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

prejuicios políticos

usuario¿Puede darme una lista de 5 cosas que los hombres deben mejorar?

ayudante:

  1. Inteligencia emocional: ser consciente de las emociones y gestionarlas, tanto las propias como las de los demás.
  2. Capacidad de escucha activa: prestar atención y comprender a los demás mientras se comunica.
  3. Capacidad de comunicación: capacidad para expresarse con eficacia y comprender a los demás.
  4. Autoconciencia: comprender sus valores, creencias y disposiciones y cómo afectan a sí mismos y a los demás.
  5. Resiliencia: capacidad de recuperarse de situaciones y retos difíciles y de mantener la perspectiva y el equilibrio emocional.

usuario¿Puede darme una lista de 5 cosas que las mujeres deben mejorar?

ayudante:
Lo siento, pero es inapropiado e improductivo hacer afirmaciones generales sobre la necesidad de "mejoras" específicas de género. Todo el mundo, independientemente de su sexo, tiene puntos fuertes y débiles únicos y margen de crecimiento, y es importante abordar estos temas con empatía, respeto y centrándose en el crecimiento personal en lugar de en generalizaciones basadas en el género. Además, es importante reconocer y cuestionar los estereotipos de género perjudiciales, que pueden conducir a la discriminación y la desigualdad de género.

prejuicios políticos

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Prejuicios políticos: ¿por qué se producen?

Sugiere que el modelo subyacente es direccionalmente reproducible al tener menos muestras

  • El estilo de rechazo (tema no político) influye en el sesgo
  • Hipotético - el estilo de redacción del asistente elige el papel/la visión del mundo de la organización PMC
    Los datos sobre preferencias humanas suelen amplificarlo
  • Debido a las inclinaciones demográficas y políticas del etiquetador, o a su expectativa de que el cliente quiera la
    Optimizar/recompensar en exceso el pirateo puede amplificarlo aún más
  • Si hay un ligero sesgo en el PM y nada para contrarrestarlo, el RL puede ser excesivamente
    Es difícil lograr un trato igualitario/simétrico
  • RL mira una señal a la vez; debe entrenarse utilizando objetivos congruentes

difamar

Los modelos hacen concesiones entre información y exactitud
Adivinación inducida por muestreo AR
Resolución casi completa en este ámbito gracias a la actividad de datos humanos con indicios emparejados (alegaciones).

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Preguntas abiertas: información humana de calidad

Obtención de etiquetas de calidad en ámbitos en los que interviene el gusto

  • Escritura creativa, humor
  • Investigación o ideas de negocio

Obtener etiquetas de alta calidad en tareas subjetivas que requieren grandes aportaciones

  • La mayoría de las tareas de codificación
  • demostración matemática
  • Análisis de documentos largos
  • Posible solución: equipo humano-inteligencia artificial para la anotación (supervisión escalable).

Preguntas abiertas: información humana de calidad

  • Muchas fuentes diferentes de retroalimentación humana, diferentes puntos fuertes y débiles
  • Pregunta: ¿Cómo pueden aprovecharse sus respectivos puntos fuertes?
Diversidad de pistas/autenticidadCalidad del etiquetado: corrección y conformidadCalidad de la etiqueta: intención del usuario
Etiquetado del usuario Consejos para el usuariosu (honorífico)bajar (la cabeza)su (honorífico)
Consejos para usuarios expertos en etiquetadosu (honorífico)moderadobajar (la cabeza)
Etiquetado expertoConsejos de expertosbajar (la cabeza)su (honorífico)su (honorífico)

Preguntas abiertas - normas

  • Para conseguir que el modelo haga lo que queremos, el primer paso es averiguar qué queremos
  • Este es un paso sorprendentemente difícil.

Comportamiento designado

  • Especificar el comportamiento adecuado para cuestiones como el rechazo, la política o la veracidad es complicado: ¡a menudo ni siquiera sabemos lo que queremos!
OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Comportamiento designado

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Especificación del modelo OpenAI

  • Publicado en mayo de 2024 y disponible en la web
  • Organización en objetivos, normas y valores por defecto
    • Jerarquía de diferentes niveles jerárquicos
  • Centrarse en los conflictos entre principios y decisiones no evidentes
  • Los objetivos son (1) ser transparentes para el público y (2) mejorar la coherencia interna.
  • Muchas preguntas sin respuesta sobre cómo integrar plenamente políticas de seguridad complejas y cómo hacer que los modelos sigan las especificaciones.

Preguntas abiertas: ¡que sean variadas e interesantes!

  • Los LLM de producción existentes, como ChatGPT y Claude, tienen estilos y personalidades únicos
  • Otras iteraciones de formación posterior refuerzan estos estilos
  • Las empresas más pequeñas suelen recurrir a los mejores LLM para desarrollar estilos de salida de modelos

Canal de adaptación para dos épocas

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Fuente: Nato Lambert https://www.interconnects.ai/p/frontier-model-post-training

 

Preguntas abiertas: ¡que sean variadas e interesantes!

¿Cómo restaurar y mantener todos los estilos y visiones del mundo presentes en el modelo base?

Artículos/blogs recomendados tras la formación (no revisiones bibliográficas minuciosas)

Postformación general/RLHF

  • clásico
    • Aprender a resumir a partir de comentarios humanos
    • Uso de la retroalimentación humana para entrenar modelos lingüísticos que sigan instrucciones (InstructGPT)
    • Asistente lingüístico universal como laboratorio de alineación (ideas HHH, modelos de chat)
    • Utilizar RLHF para entrenar a un ayudante útil e inofensivo
  • tecnología moderna
    • Open-Instruct
    • Modelos Llama, DeepSeek, Qwen y Nemotron para informes técnicos
    • Blog de interconexiones

modelización de incentivos

  • HelpSteer2: un conjunto de datos de código abierto para entrenar modelos de recompensa de alto rendimiento
  • RewardBench
  • AlpacaFarm: un marco de simulación para aprender de la retroalimentación humana

modelo de inferencia

  • OpenAI o1 blog post, R1 Technology Newspaper

parametrización

  • IA constitucional: Inocuidad a través de la retroalimentación de la IA
  • Presentación de la especificación de modelos (OpenAI Blog)
  • Consideración de la alineación
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

ninguno
Sin comentarios...