El campo del procesamiento del lenguaje natural persigue el objetivo equivocado


En una reunión anual típica de la Asociación de Lingüística Computacional (ACL), el programa es un desfile de títulos como "Un autoencodificador variacional estructurado para la inflexión morfológica contextual". El mismo toque técnico impregna los documentos, las charlas de investigación y muchas charlas en salas.

En la conferencia de este año en julio, sin embargo, se sintió un poco diferente, y no fue solo el formato virtual. Las discusiones de los participantes fueron introspectivamente introspectivas sobre los métodos y objetivos centrales del procesamiento del lenguaje natural (PNL). La rama de IA se centró en crear sistemas que analicen o generen el habla humana. Las contribuciones en la nueva pista "Tema" de este año hicieron preguntas como: ¿Son los métodos actuales realmente suficientes para lograr los objetivos finales del campo? ¿Cuáles son estos objetivos de todos modos?

Mis colegas y yo de Elemental Cognition, una compañía de investigación de IA con sede en Connecticut y Nueva York, consideramos que el miedo está justificado. De hecho, creemos que el campo necesita una transformación, no solo en el diseño del sistema, sino en un área menos glamorosa: la evaluación.

El espíritu actual de la PNL surgió de media década de mejora continua bajo el paradigma de evaluación estándar. La capacidad de comprensión de los sistemas generalmente se midió utilizando conjuntos de datos de referencia que constan de miles de preguntas, cada una con pasajes con la respuesta adjunta. Cuando las redes neuronales profundas conquistaron el campo a mediados de la década de 2010, trajeron un salto cuántico en el rendimiento. Las rondas de trabajo posteriores dieron como resultado que el puntaje se acercara cada vez más al 100% (o al menos a la paridad con las personas).

Por lo tanto, los investigadores publicaron nuevos conjuntos de datos con preguntas aún más difíciles, solo para ver que redes neuronales aún más grandes pueden lograr rápidamente resultados impresionantes. Gran parte de la investigación de comprensión de lectura de hoy en día implica la optimización cuidadosa de modelos para obtener algunos puntos porcentuales más para los últimos conjuntos de datos. "Estado del arte" prácticamente se ha convertido en un nombre propio: "¡Hemos vencido a SOTA por 2.4 puntos en SQuAD!" ] cansarse de una cacería tan importante. ¿Qué ha ganado realmente el mundo cuando una red neuronal masiva obtiene SOTA por uno o dos puntos en un punto de referencia? No es como si alguien se encargara de responder estas preguntas por su propio bien. Ganar la tabla de clasificación es un ejercicio académico que puede no mejorar las herramientas reales. De hecho, muchas mejoras obvias no resultan de las habilidades de comprensión general, sino de la capacidad excepcional de los modelos para explotar patrones incorrectos en los datos. ¿Los "avances" recientes realmente ayudan a las personas a resolver problemas?

Tales dudas son más que un enojo abstracto. Si los sistemas realmente dominan la comprensión del habla es de verdadero interés para la sociedad. Por supuesto, la "comprensión" implica una amplia colección de habilidades. Los métodos modernos son bastante adecuados para aplicaciones simples, como recuperar factoides de Wikipedia o evaluar el estado de ánimo en las revisiones de productos. Cuando las personas imaginan computadoras que entienden el lenguaje, imaginan comportamientos mucho más sofisticados: herramientas legales que las personas pueden usar para analizar sus problemas; Asistentes de investigación que sintetizan información de toda la web; Robots o peones que siguen instrucciones detalladas.

Los modelos de hoy están lejos de alcanzar este nivel de comprensión, y no está claro que otro documento de SOTA acerque el campo.

¿Cómo terminó la comunidad de PNL? con tal brecha entre calificaciones en papel y habilidades reales? En un documento de posición de ACL, mis colegas y yo argumentamos que al tratar de encontrar puntos de referencia difíciles, las evaluaciones han perdido de vista los objetivos reales: estas sofisticadas aplicaciones posteriores. Para tomar prestada una línea del documento, los investigadores de la PNL entrenaron para convertirse en velocistas profesionales "mirando alrededor del gimnasio y haciendo todos los ejercicios que parecen difíciles".

Para alinear mejor las calificaciones con los objetivos, es útil pensar en lo que está frenando los sistemas actuales.

Una persona que lee un pasaje creará una representación detallada de entidades, lugares, eventos y sus relaciones, un "modelo mental" del mundo descrito en el texto. El lector puede ingresar los detalles que faltan en el modelo, extrapolar una escena hacia adelante o hacia atrás, o incluso hacer una hipótesis sobre alternativas contrafácticas.

Este tipo de modelado y razonamiento es exactamente lo que los asistentes de investigación automatizados o las figuras del juego tienen que hacer, y carece notablemente en los sistemas actuales. Un investigador de PNL generalmente puede construir un sistema de comprensión de lectura de vanguardia en unos pocos experimentos. Una técnica confiable es examinar el modelo mundial del sistema, que permite que incluso el GPT-3, tan publicitado, vibre a través de briznas de hierba ciclópticas.

Con el fin de equipar a los lectores automáticos con modelos mundiales, como ya se mencionó, se requieren importantes innovaciones en el diseño del sistema en varias presentaciones de temas. Sin embargo, nuestro argumento es más fundamental: independientemente de los sistemas que se implementen cuando necesiten modelos mundiales que sean fieles al original, las evaluaciones deben verificar sistemáticamente si tienen modelos mundiales reales.

Expresado tan claro que esto suena obvio, pero rara vez se lleva a cabo. Grupos de investigación como el Instituto Allen para IA han sugerido otras formas de mejorar las calificaciones, como: Por ejemplo, enfocándose en diferentes estructuras del lenguaje, haciendo preguntas basadas en varios pasos de razonamiento, o incluso agregando muchos puntos de referencia. Otros investigadores, como el grupo Yejin Chois de la Universidad de Washington, se han centrado en probar el sentido común que incorpora aspectos de un modelo mundial. Tales esfuerzos son útiles, pero en general aún se centran en reunir preguntas que los sistemas de hoy encuentran difíciles de responder.

Proponemos un cambio más fundamental: para crear evaluaciones más significativas, los investigadores de la PNL deben especificar primero el modelo mundial de un sistema para que sea útil para aplicaciones posteriores. Llamamos a este informe una "plantilla de comprensión".

Un banco de pruebas particularmente prometedor para este enfoque son las historias de ficción. Las historias originales son ricas en información, no googleable y de importancia central para muchas aplicaciones. Esto los convierte en una prueba ideal de comprensión de lectura. Basándose en la literatura de ciencia cognitiva sobre lectores humanos, nuestro CEO David Ferrucci sugiere una plantilla de cuatro partes para evaluar la capacidad de un sistema de inteligencia artificial para comprender historias.

  • Espacial: ¿Dónde está ubicado todo y cómo está posicionado en la historia?
  • Temporal: ¿Qué eventos ocurren cuando?
  • Causal: ¿Cómo conducen los eventos mecánicamente a otros eventos?
  • Motivación: ¿Por qué los personajes eligen tomar la acción que toman?

Al hacer estas preguntas sistemáticamente sobre todas las entidades y eventos en una historia, los investigadores de PNL pueden evaluar la comprensión del sistema de una manera fundamental y buscar los modelos mundiales que los sistemas realmente necesitan.

Es alentador ver esto. La comunidad de PNL refleja lo que falta en las tecnologías actuales. Esperamos que este pensamiento resulte en inversiones significativas no solo en nuevos algoritmos, sino también en métodos nuevos y más estrictos de comprensión de la máquina de medición. Tal trabajo puede no tener tantos titulares, pero sospechamos que las inversiones en esta área conducirán el campo al menos hasta el próximo modelo gigante.

Jesse Dunietz es investigador en Elemental Cognition [19659028]donde trabaja en el desarrollo de evaluaciones estrictas para los sistemas de comprensión lectora. También es diseñador educativo para el MIT Communication Lab y un periodista científico .

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *