OpenAI presenta su último modelo de aprendizaje profundo: GPT-4

OpenAI ha creado GPT-4, el último hito en su esfuerzo por expandir el aprendizaje profundo. GPT-4 es un modelo multimodal que acepta entradas de texto e imágenes y emite salidas de texto. Aunque es menos capaz que los humanos en muchos escenarios del mundo real, GPT-4 exhibe un rendimiento a nivel humano en varios puntos de referencia académicos y profesionales.

OpenAI pasó seis meses alineando GPT-4 iterativamente utilizando lecciones de su programa de pruebas contradictorias y de ChatGPT, lo que resultó en sus mejores resultados hasta la fecha en factualidad, capacidad de dirección y rechazo a salirse de los límites. En los últimos dos años, OpenAI reconstruyó toda su pila de aprendizaje profundo y, junto con Azure, codiseñó una supercomputadora desde cero para su carga de trabajo. Hace un año, entrenaron GPT-3.5 como una primera «ejecución de prueba» del sistema, lo que les permitió encontrar y solucionar algunos errores y mejorar sus fundamentos teóricos.

OpenAI ha lanzado la capacidad de entrada de texto de GPT-4 a través de ChatGPT y la API, aunque actualmente existe una lista de espera. Para preparar la capacidad de entrada de imágenes para una mayor disponibilidad, OpenAI está colaborando estrechamente con un solo socio para comenzar. Además, OpenAI ha abierto OpenAI Evals, su marco para la evaluación automatizada del rendimiento del modelo de IA, para permitir que cualquier persona informe las deficiencias en sus modelos y ayudar a guiar mejoras adicionales. A medida que OpenAI continúa enfocándose en un escalamiento confiable, su objetivo es perfeccionar su metodología para ayudarlos a predecir y prepararse para capacidades futuras cada vez con mayor anticipación, algo que consideran crítico para la seguridad.

Capacidades

Si bien en una conversación informal puede ser difícil distinguir entre los dos modelos, la diferencia se hace más evidente cuando se trata de tareas complejas. GPT-4 se muestra más confiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT-3.5.

Para entender las diferencias entre los modelos, OpenAI ha llevado a cabo una serie de pruebas en varios puntos de referencia, incluyendo la simulación de exámenes diseñados originalmente para humanos. Las pruebas se realizaron utilizando las pruebas más recientes disponibles públicamente, así como comprando ediciones de práctica de exámenes para el año 2022-2023. No se realizó ningún entrenamiento específico para estos exámenes. Aunque el modelo solo detectó una minoría de los problemas en los exámenes durante el entrenamiento, se considera que los resultados son representativos. OpenAI ha publicado un informe técnico para obtener más detalles sobre las pruebas realizadas.

OpenAI ha evaluado el rendimiento de GPT-4 en puntos de referencia tradicionales diseñados para modelos de aprendizaje automático, y los resultados han sido destacables. GPT-4 supera significativamente a los modelos de lenguaje grandes existentes, así como a la mayoría de los modelos de última generación (SOTA) que pueden incluir protocolos de capacitación adicionales o elaboración específica de referencia.

Muchos puntos de referencia de ML existentes están escritos en inglés, por lo que para evaluar la capacidad en otros idiomas, OpenAI ha traducido el punto de referencia de MMLU, un conjunto de 14,000 problemas de opción múltiple que abarcan 57 temas, a una variedad de idiomas mediante Azure Translate. En 24 de los 26 idiomas probados, GPT-4 supera el rendimiento en inglés de GPT-3.5 y otros LLM (Chinchilla, PaLM), incluso para idiomas de bajos recursos como letón, galés y swahili.

OpenAI también ha estado utilizando internamente GPT-4 con un gran impacto en funciones como soporte, ventas, moderación de contenido y programación. Además, están usando GPT-4 para ayudar a los humanos a evaluar los resultados de la IA, comenzando la segunda fase en su estrategia de alineación.

Entradas visuales

GPT-4 puede aceptar una indicación de texto e imágenes que, en paralelo a la configuración de solo texto, permite al usuario especificar cualquier tarea de visión o idioma. En concreto, genera salidas de texto (lenguaje natural, código, etc.) dadas las entradas que consisten en texto e imágenes intercaladas. En una variedad de dominios, incluidos documentos con texto y fotografías, diagramas o capturas de pantalla, GPT-4 exhibe capacidades similares a las de las entradas de solo texto. Además, se puede aumentar con técnicas de tiempo de prueba que se desarrollaron para modelos de lenguaje de solo texto, que incluyen sugerencias de pocas tomas y de cadena de pensamientos. Cabe destacar que las entradas de imágenes siguen siendo una vista previa de la investigación y no están disponibles públicamente.

OpenAI ha previsualizado el rendimiento de GPT-4 al evaluarlo en un conjunto limitado de puntos de referencia de visión académica estándar. Aunque estos números no representan completamente el alcance de las capacidades del modelo, ya que constantemente descubren nuevas tareas que puede abordar. OpenAI tiene planes de publicar más análisis y números de evaluación, así como una investigación exhaustiva del efecto de las técnicas de tiempo de prueba en un futuro cercano.

Maniobrabilidad

En cuanto a la maniobrabilidad de ChatGPT, OpenAI ha estado trabajando en cada aspecto del plan descrito en su publicación sobre la definición del comportamiento de las IA, incluida la capacidad de dirección. En lugar de la personalidad clásica de ChatGPT con verbosidad, tono y estilo fijos, los desarrolladores (y pronto los usuarios de ChatGPT) ahora pueden prescribir el estilo y la tarea de su IA describiendo esas instrucciones en el mensaje del «sistema». Los mensajes del sistema permiten a los usuarios de API personalizar significativamente la experiencia de sus usuarios dentro de los límites. OpenAI continuará haciendo mejoras en esta área, en particular saben que los mensajes del sistema son la forma más fácil de «liberar» el modelo actual, es decir, la adherencia a los límites no es perfecta, pero alientan a los usuarios a probarlo y dar su opinión.

Limitaciones

Aunque GPT-4 tiene mayores capacidades que sus predecesores, todavía tiene limitaciones que deben ser consideradas. En particular, el modelo todavía no es completamente confiable y puede cometer errores de razonamiento y «alucinaciones» de hechos. Por lo tanto, es necesario tener precaución al usar los resultados del modelo, especialmente en contextos de alto riesgo, y utilizar protocolos precisos como revisión humana, puesta a tierra con contexto adicional o evitar usos de alto riesgo por completo según las necesidades de un caso de uso específico.

A pesar de las limitaciones, GPT-4 ha reducido significativamente las alucinaciones en comparación con los modelos anteriores, obteniendo un puntaje un 40% más alto que el último modelo GPT-3.5 en las evaluaciones internas de factualidad contradictoria de OpenAI. Además, la compañía ha mejorado en puntos de referencia externos como TruthfulQA, que prueba la capacidad del modelo para separar los hechos de las declaraciones incorrectas.

Sin embargo, el modelo base GPT-4 todavía tiene sesgos en sus resultados y puede cometer errores de razonamiento simples. Además, carece de conocimiento de los eventos que ocurrieron después de que la mayoría de sus datos fueron recolectados y no aprende de su experiencia. A veces también puede fallar en problemas difíciles y puede ser demasiado crédulo al aceptar declaraciones falsas obvias de un usuario.

OpenAI ha trabajado para mejorar estos problemas y su objetivo es hacer que los sistemas de IA sean razonables y reflejen una amplia franja de valores de los usuarios, permitiendo que los sistemas se personalicen dentro de límites amplios y obtener comentarios públicos sobre cuáles deberían ser esos límites.

En resumen, GPT-4 es un avance significativo en los modelos de lenguaje, pero todavía tiene limitaciones que deben ser consideradas cuidadosamente al utilizar los resultados del modelo en contextos de alto riesgo o críticos.

Riesgos y mitigaciones

OpenAI ha estado trabajando en iteraciones de GPT-4 para hacerlo más seguro y alineado desde el comienzo de la capacitación. Se han implementado una serie de esfuerzos para lograr esto, incluyendo la selección y el filtrado de los datos previos a la capacitación, las evaluaciones y la participación de expertos, las mejoras de seguridad del modelo y el monitoreo y la aplicación.

A pesar de los esfuerzos realizados, GPT-4 presenta riesgos similares a los modelos anteriores, como generar consejos dañinos, código con errores o información inexacta. Sin embargo, las capacidades adicionales de GPT-4 conducen a nuevas superficies de riesgo. Para entender mejor el alcance de estos riesgos, OpenAI ha contratado a más de 50 expertos de dominios como riesgos de alineación de IA, ciberseguridad, riesgo biológico, confianza y seguridad, y seguridad internacional para probar el modelo de manera adversaria.

Los hallazgos de estos expertos se incorporaron a las mitigaciones y mejoras del modelo, como la recopilación de datos adicionales para mejorar la capacidad de GPT-4 para rechazar solicitudes sobre cómo sintetizar sustancias químicas peligrosas. OpenAI también ha incorporado una señal de recompensa de seguridad adicional durante el entrenamiento de RLHF para reducir los resultados nocivos al entrenar al modelo para que rechace las solicitudes de dicho contenido. La recompensa es proporcionada por un clasificador de tiro cero GPT-4 que juzga los límites de seguridad y el estilo de finalización en las indicaciones relacionadas con la seguridad.

Para evitar que el modelo rechace solicitudes válidas, OpenAI ha recopilado un conjunto de datos diverso de varias fuentes y aplicado la señal de recompensa de seguridad (con un valor positivo o negativo) en ambas categorías permitidas y no permitidas. Estas medidas han mejorado significativamente muchas de las propiedades de seguridad de GPT-4 en comparación con GPT-3.5. La tendencia del modelo a responder a solicitudes de contenido no permitido se ha reducido en un 82 % en comparación con GPT-3.5, y GPT-4 responde a solicitudes confidenciales de acuerdo con las políticas de OpenAI con un 29 % más de frecuencia.

OpenAI ha implementado intervenciones a nivel de modelo para aumentar la seguridad y la alineación en GPT-4. Sin embargo, aunque estas intervenciones han mejorado la capacidad del modelo para evitar un mal comportamiento, todavía es posible provocarlo, y existen «jailbreaks» para generar contenido que viola las pautas de uso establecidas por OpenAI. A medida que aumenta el «riesgo por token» de los sistemas de IA, será fundamental lograr niveles extremadamente altos de confiabilidad en estas intervenciones. Por ahora, es importante complementar estas limitaciones con técnicas de seguridad en tiempo de implementación, como la supervisión de abusos.

OpenAI reconoce que GPT-4 y sus sucesores tienen el potencial de tener un gran impacto en la sociedad, tanto positivo como negativo. Para abordar este problema, OpenAI ha estado colaborando con investigadores externos para mejorar la comprensión y evaluación de los impactos potenciales y crear evaluaciones de capacidades peligrosas que puedan surgir en sistemas futuros. OpenAI ha anunciado que pronto compartirá más reflexiones sobre los posibles impactos sociales y económicos de GPT-4 y otros sistemas de IA.

Proceso de entrenamiento

GPT-4, que se entrenó utilizando datos disponibles públicamente y datos bajo licencia, incluyendo un corpus de datos a escala web con soluciones correctas e incorrectas a problemas matemáticos, razonamientos débiles y fuertes, afirmaciones autocontradictorias y consistentes, representando una gran variedad de ideologías e ideas. Aunque el modelo base puede responder a preguntas de diversas formas, OpenAI ha utilizado el aprendizaje de refuerzo con retroalimentación humana para ajustar su comportamiento y alinearlo con la intención del usuario dentro de las medidas de seguridad.

Escalado predecible

El proyecto GPT-4 ha tenido un gran enfoque en construir una pila de aprendizaje profundo que escala de manera predecible, con el objetivo de realizar ajustes extensos específicos del modelo en ejecuciones de entrenamiento muy grandes como GPT-4. Para verificar la escalabilidad, OpenAI ha desarrollado infraestructura y optimización que tienen un comportamiento predecible en múltiples escalas. Además, están desarrollando una metodología para predecir métricas más interpretables, como la tasa de aprobación en un subconjunto del conjunto de datos de HumanEval.

Sin embargo, algunas capacidades del modelo aún son difíciles de predecir. Por ejemplo, el Premio de escalamiento inverso fue una competencia para encontrar una métrica que empeora a medida que aumenta el cálculo del modelo, y la negligencia retrospectiva fue uno de los ganadores. OpenAI cree que predecir con precisión las futuras capacidades de aprendizaje automático es importante para la seguridad y está ampliando sus esfuerzos para desarrollar métodos que brinden a la sociedad una mejor orientación sobre qué esperar de los sistemas futuros.

Evaluaciones OpenAI

Simultáneamente, OpenAI ha lanzado su marco de software denominado OpenAI Evals, el cual permite crear y ejecutar puntos de referencia para evaluar modelos, como GPT-4, mientras se inspecciona su rendimiento muestra por muestra. Este marco de software ha sido utilizado por OpenAI para guiar el desarrollo de sus propios modelos, y los usuarios también pueden aplicarlo para realizar un seguimiento del rendimiento en todas las versiones del modelo y evolucionar las integraciones de productos. Por ejemplo, Stripe ha utilizado Evals para complementar sus evaluaciones humanas y medir la precisión de su herramienta de documentación impulsada por GPT.

OpenAI Evals es de código abierto y admite la escritura de nuevas clases para implementar una lógica de evaluación personalizada. A pesar de ello, OpenAI ha incluido plantillas útiles internamente para muchos puntos de referencia, incluyendo una plantilla para «evaluaciones calificadas por modelos», que utiliza GPT-4 para verificar su propio trabajo.

OpenAI espera que Evals se convierta en un vehículo para compartir puntos de referencia de crowdsourcing que representen un conjunto máximo de modos de falla y tareas difíciles. Para promover esto, OpenAI ha creado una evaluación de acertijos lógicos que contiene diez indicaciones en las que falla GPT-4. Además, Evals es compatible con la implementación de puntos de referencia existentes, y OpenAI ha incluido varios cuadernos que implementan puntos de referencia académicos y algunas variaciones de integración de pequeños subconjuntos de CoQA como ejemplo.

OpenAI invita a todos a usar Evals para probar sus modelos y enviar los ejemplos más interesantes. La compañía cree que Evals será una parte integral del proceso para usar y construir sobre sus modelos y agradece las contribuciones directas, las preguntas y los comentarios.

Traducido y extractado de: GPT-4 Technical report. OpenAI (2023). Documento original en:

https://cdn.openai.com/papers/gpt-4.pdf