Los investigadores encuentran que los modelos de lenguaje de última generación son insuficientes en la argumentación básica


Incluso modelos de lenguaje sofisticados como OpenAIs GPT-3 luchan con cuestiones socialmente importantes como la moral, la historia y la ley. Este es el hallazgo clave de un nuevo artículo escrito por investigadores de la Universidad de Columbia de Chicago y la Universidad de California en Berkeley que propone una prueba de 57 ítems para medir la capacidad de razonamiento de los modelos. Los modelos deben tener habilidades para resolver problemas y un conocimiento profundo del mundo para poder realizar bien la prueba. Sin embargo, en experimentos, los coautores encontraron que los modelos que compararon, incluido el GPT-3, a menudo no sabían cuándo estaban equivocados.

El objetivo del nuevo conjunto de pruebas es cerrar la brecha entre el conocimiento que ven los modelos durante la prueba, el entrenamiento y las medidas existentes de éxito en el procesamiento del lenguaje natural. Como todos los modelos de aprendizaje automático, los modelos de lenguaje aprenden patrones de grandes conjuntos de datos, a menudo tomados de Wikipedia, Reddit, libros electrónicos y otras fuentes web. Algunos puntos de referencia introducidos recientemente intentan medir las habilidades lingüísticas de los modelos, pero hasta ahora hay poca evidencia de una correlación entre el rendimiento de los puntos de referencia y la comprensión de un modelo de pensamiento razonado.

Los investigadores afirman que su prueba difiere en que evalúa modelos en materias que las personas aprenden con frecuencia, como matemáticas, historia y ética. Para lograr esto, los estudiantes de posgrado y pregrado recopilaron 15.908 preguntas de fuentes disponibles gratuitamente en línea, incluidos exámenes de práctica para programas de pregrado, cuestionarios para lectores de publicaciones de Oxford University Press y pruebas como el examen final, el examen de licencia médica de EE. UU. Y el examen de práctica profesional. en psicología. Las tareas van desde un nivel básico hasta un "nivel profesional avanzado". Una muestra, que sostienen los coautores, es suficiente para identificar los puntos ciegos de un modelo.

  Preguntas sobre la argumentación de modelos de lenguaje

Arriba: preguntas de muestra del conjunto de pruebas del investigador.

"Medimos la comprensión arbitraria del texto real", escribieron, y señalaron que cada tema contiene al menos 100 ejemplos de prueba. "Dado que los modelos se entrenan previamente en Internet, podemos probar qué tan bien pueden extraer conocimiento útil de corpus masivos".

Además de GPT-3, los investigadores compararon el T5 de Google y la pregunta UnifiedQA del Instituto Allen para AI. Modelo de respuesta contra su equipo de prueba. Los resultados muestran que los avances significativos solo han sido posibles en los últimos meses. Los modelos con hasta 13 mil millones de parámetros alcanzan una precisión del 25% y los modelos con 175 mil millones de parámetros como GPT-3 logran una precisión del 43,9%. (Los parámetros son partes del modelo aprendidas de los datos de entrenamiento históricos). En este caso, sin embargo, GPT-3 no pudo desempeñarse de manera excelente en ninguna asignatura. El rendimiento del conjunto de pruebas fue unilateral, con una precisión de casi el 70% para la mejor asignatura (asuntos exteriores de EE. UU.), Pero un rendimiento "casi aleatorio" para varias otras asignaturas (por ejemplo, química universitaria).

“En general, GPT-3 es malo para problemas de procedimiento muy elevados”, explicaron los investigadores. “Es particularmente malo para modelar el (des) consentimiento humano, como lo demuestra el bajo desempeño en las tareas del derecho profesional y los escenarios morales. [and it] también tiene dificultades para hacer cálculos, por lo que se desempeña mal en matemáticas de primaria y muchos otros temas STEM con problemas de plug-and-chug … especulamos que esto se debe en parte a GPT -3 adquiere conocimiento declarativo más fácilmente que conocimiento procedimental. “

Los resultados sugieren que los modelos actuales ofrecen margen de mejora, pero no está claro si existen técnicas que sean suficientes. Como señalan los investigadores, investigaciones anteriores sugieren que un aumento de 10 veces en el tamaño del modelo debe ir acompañado de un aumento de aproximadamente 5 veces en los datos, lo que podría ser logísticamente insostenible.

"Aparte de los enormes costos involucrados en la creación de modelos de lenguaje de múltiples billones de parámetros, los datos también pueden convertirse en un cuello de botella", continuaron los investigadores. "Se escribe mucho menos sobre las ramas esotéricas del conocimiento que sobre el texto cotidiano".

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *