Los investigadores de IA crean herramientas de prueba para encontrar errores en Amazon, Google y Microsoft NLP


Los investigadores de inteligencia artificial han desarrollado una herramienta de prueba de modelo de lenguaje que se ha utilizado para descubrir errores graves en las ofertas de inteligencia artificial en la nube disponibles en el mercado de Amazon, Google y Microsoft. Un artículo sobre la herramienta CheckList fue galardonado ayer con el Premio al Mejor Papel por los organizadores de la conferencia de la Asociación de Lingüística Computacional (ACL). La conferencia ACL, que tuvo lugar en línea esta semana, es una de las reuniones anuales más grandes para investigadores que crean modelos de lenguaje.

Los modelos de PNL a menudo se evalúan hoy en función de su rendimiento en una serie de tareas individuales, p. B. responder preguntas con registros de referencia con tablas de clasificación como GLUE. En cambio, CheckList adopta un enfoque independiente de la tarea donde los usuarios pueden crear pruebas que llenen las celdas en una matriz tipo tabla con funciones (en filas) y tipos de pruebas (en columnas), así como visualizaciones y otros recursos.

El análisis con CheckList descubrió que aproximadamente cada cuarto pronóstico del análisis de sentimientos de Amazon Comprehend cambia cuando se inserta una URL acortada al azar o un identificador de Twitter en el texto, y Google Clouds Natural Language y Amazon Comprehend cometen errores cuando eso Se pueden cambiar los nombres de personas o lugares en el texto. [19659002] "La tasa de falla [sentiment analysis] es cercana al 100% para todos los modelos comerciales si la negación ocurre al final de la oración (por ejemplo," Pensé que el avión era terrible pero no lo era ") o con contenido neutral entre la negación y la palabra sentimental ", dice el periódico.

VB Transform 2020 en línea – 15-17 Julio. Únase a los principales líderes de IA: regístrese en la transmisión en vivo gratuita.

También se encontraron deficiencias cuando se parafrasearon las respuestas a las preguntas de Quora, aunque se excedió la precisión humana en un desafío de referencia del Par de preguntas de Quora. Los desarrolladores de CheckList de Microsoft, la Universidad de Washington y la Universidad de California en Irvine dicen que los resultados sugieren que el uso del enfoque puede mejorar todos los modelos de PNL existentes.

"Si bien los puntos de referencia tradicionales indican que los modelos para estas tareas son tan precisos como las personas, CheckList muestra una serie de errores graves en los que los modelos comerciales y de investigación no abordan fenómenos lingüísticos básicos como la negación, entidades con nombre, referencias, etiquetado de roles semánticos, etc. tratar eficazmente porque se relacionan con cada tarea ", dice el artículo. "Los profesionales de la PNL con CheckList han creado el doble de pruebas y han encontrado casi el triple de errores que los usuarios sin CheckList".

El BERT de Google y la IA de Facebook RoBERTa también fueron calificados con CheckList. Según los autores, BERT mostró un sesgo específico de género en la comprensión de la máquina y, por ejemplo, predijo predominantemente a los hombres como médicos. También se descubrió que BERT siempre hace predicciones positivas sobre personas heterosexuales o asiáticas y predicciones negativas sobre el uso de textos sobre personas ateas, negras, gays o lesbianas. Un análisis a principios de 2020 también reveló un sesgo sistémico en modelos de lenguaje grande.

En los últimos meses, han surgido algunos de los modelos de lenguaje más grandes basados ​​en transformadores, desde Megatron de Nvidia hasta Turing NLG de Microsoft. Grandes modelos de lenguaje han logrado resultados impresionantes para ciertas tareas. Sin embargo, algunos investigadores de PNL argumentan que centrarse en el rendimiento a nivel humano en tareas individuales ignora la forma en que los sistemas de PNL siguen siendo frágiles o menos robustos.

Como parte de una prueba de caso de uso con el equipo de Microsoft CheckList, responsable de análisis de texto, un modelo que actualmente utilizan los clientes y que ha pasado por varias revisiones, ha encontrado previamente errores desconocidos. El equipo de Microsoft ahora está usando CheckList como parte de su flujo de trabajo al evaluar los sistemas NLP. Una colección de personas de la industria y la ciencia que probaron la IA con la herramienta durante un período de dos horas también podría descubrir inexactitudes o errores en los modelos de PNL de última generación. Una versión de código abierto de CheckList está actualmente disponible en GitHub.

Las pruebas de comportamiento a veces se denominan pruebas de caja negra y son comunes en el desarrollo de software, pero no en IA. CheckList puede realizar pruebas en áreas como el análisis del estado de ánimo, la comprensión de la máquina y la detección de doble pregunta. También puede analizar habilidades como robustez, imparcialidad y pruebas lógicas en una serie de tres tipos de tareas.

Los autores tienen claro en su conclusión que las tareas de evaluación comparativa por sí solas no son suficientes para evaluar los modelos de PNL, pero también dicen que CheckList debe abordar los desafíos existentes y los registros de referencia que se utilizan para medir el rendimiento de los modelos de lenguaje, completo, no reemplazar.

“Esta pequeña selección de pruebas muestra las ventajas de las pruebas sistemáticas además de la evaluación estándar. Estas tareas pueden considerarse "resueltas" en función de los resultados de la precisión de referencia. Sin embargo, las pruebas revelan varias áreas de mejora, en particular la incapacidad de demostrar las habilidades básicas que se requieren de facto para la tarea en cuestión ”, dice el documento.

Otro trabajo notable en el ACL es la investigación de Emily Bender, profesora de la Universidad de Washington, y Alexander Koller, profesor de la Universidad de Saarland, que ganó el premio al mejor tema. El documento argumenta que los avances en los modelos de PNL para redes neuronales grandes como GPT-3 o derivados BERT son encomiables, pero que los miembros de los medios y de la ciencia no deberían describir las redes neuronales grandes como comprensibles o comprensibles, y que la claridad y la humildad serán Área de PNL necesaria si se definen ideas como significado o comprensión.

"Si bien los grandes modelos de lenguaje neuronal son componentes importantes de una posible solución integral para la comprensión análoga humana del lenguaje natural, de ninguna manera hay soluciones para este gran desafío", dice el informe.

Finalmente, un sistema del Laboratorio de Investigación del Ejército de EE. UU., La Universidad de Illinois, Urbana-Champaign y la Universidad de Columbia ganó el premio al mejor documento de demostración para su sistema llamado GAIA, que permite consultas de texto desde multimedia como fotos y videos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *