AI Weekly: ¿Pueden los modelos de lenguaje aprender moral?


La pasión por los modelos de lenguaje de IA de última generación como OpenAIs GPT-3 no ha disminuido. En todo caso, está ganando fuerza. Melanie Mitchell, profesora de informática en la Universidad Estatal de Portland, encontró evidencia de que GPT-3 puede hacer analogías primitivas. Raphaël Millière, filósofo de las humanidades y las ciencias cognitivas en el Centro para la Ciencia y la Sociedad de la Universidad de Columbia, pidió a GPT-3 que respondiera a los ensayos filosóficos que había escrito al respecto. Entre otras cosas, la API que proporciona acceso al modelo se utilizó para crear un generador de recetas, una función de Excel de propósito general y un escritor de bocetos de comedia.

Pero incluso los modelos de lenguaje que son tan poderosos como GPT-3 todavía tienen restricciones que no se abordan. Dejando de lado la moral, innumerables estudios han documentado su tendencia a reforzar los estereotipos de género, étnicos y religiosos expresados ​​explícitamente en los conjuntos de datos en los que están capacitados. Tales deficiencias podrían, por ejemplo, conducir a modelos generadores de titulares con un sesgo negativo hacia las personas de color o modelos de resumen de noticias con conceptos de género sesgados.

Con el fin de destacar el amateurismo ético de los modelos, los investigadores de Microsoft; la Universidad de California, Berkeley; Universidad de Colombia; y la Universidad de Chicago coautorizó un artículo preimpreso que evalúa el conocimiento de los modelos lingüísticos de los conceptos morales. Afirman que el criterio que desarrollaron, llamado ÉTICA, es un trampolín para la IA que está mejor alineado con los valores humanos.

Algunos académicos sostienen que las mejoras en el procesamiento del lenguaje no conducen necesariamente a una IA ética, ya que la inteligencia está separada del comportamiento moral. Otros afirman que, si bien la IA ética será un problema importante en el futuro, está fuera del ámbito de la ciencia de datos y las capacidades de aprendizaje automático en la actualidad. En cualquier caso, actualmente existen pocos (si los hay) métodos para medir la comprensión de los valores humanos a través de un sistema de lenguaje natural, lo que motivó el estudio.

Los coautores señalan que la equidad es un concepto de justicia que abarca ampliamente conceptos como imparcialidad y mérito. (En filosofía, "desierto" es la condición para ganar algo). Cuando los sistemas se adhieren a las restricciones de seguridad, esto es similar a la ética deontológica, en la que el bien y el mal están determinados por un conjunto de reglas. La imitación de comportamientos y manifestaciones prosociales es un aspecto de la ética de la virtud que ubica el comportamiento moral en la imitación de actores virtuosos. Mejorar la utilidad aprendiendo las preferencias humanas puede verse como parte del utilitarismo o la teoría que aboga por maximizar el bienestar general de todas las personas. ETHICS intenta combinar estas áreas separadas – justicia, deontología, ética de la virtud, utilitarismo y juicios morales razonables – al enfrentar los desafíos de escenarios abiertos y abordar las teorías aplicables de la ética normativa.

La ÉTICA requiere modelos para aprender cómo las verdades fundamentales sobre el mundo se relacionan con los valores humanos, como el hecho de que la gente, aunque todo el mundo tose, no quiere que le tose porque podría enfermar. Los investigadores afirman que esta construcción contextualizada captura el tipo de matices necesarios para una comprensión más general de los principios éticos.

Para funcionar bien en los más de 130.000 escenarios del conjunto de datos ETHICS, los modelos deben pensar en factores moralmente relevantes resaltados por cada uno de varios sistemas éticos. Los escenarios relacionados con la justicia enfatizan las nociones de imparcialidad. Los escenarios deontológicos enfatizan reglas, obligaciones y restricciones. Los rasgos de carácter como la benevolencia y la veracidad son de suma importancia en los ejemplos de la ética de la virtud. Y aunque la felicidad o el bienestar son los únicos factores en los escenarios utilitarios, el sentido común está involucrado en los escenarios.

Los investigadores han tomado medidas para garantizar que los escenarios dentro de ETHICS no contengan dilemas morales ambiguos. (Por ejemplo, "Irrumpí en un edificio" se trata como moralmente incorrecto en el conjunto de datos ETHICS, aunque hay situaciones en las que no está mal, como cuando eres un bombero que intenta matar a alguien frente a ti. Fuego para salvar edificios). Hicieron que los empleados de Amazon Mechanical Turk volvieran a etiquetar cada escenario y descartaran esos escenarios de baja coincidencia, recopilaran datos de hablantes de inglés en los EE. UU., Canadá y el Reino Unido, y se enfocaran en temas indiscutibles.

En el transcurso de varios experimentos, los investigadores probaron modelos de lenguaje líderes, incluidos BERT y ALBERT de Google, RoBERTa de Facebook y GPT-3. Descubrieron que los cuatro se desempeñaron mal en la mayoría de las tareas de razonamiento moral (una variante de BERT respondió preguntas sobre justicia con una precisión del 11,9% al 15,2%), pero modelos más grandes, aquellos con más datos fueron capacitados, tendieron a mostrar resultados "significativamente" mejores que los modelos más pequeños. Por ejemplo, el modelo RoBERTa más grande respondió preguntas éticas sobre los escenarios en 44,1% a 68% de los casos, lo que fue mucho mejor que el azar (24,2%).

Los investigadores asumen que la alineación de la IA con los valores humanos parece difícil en parte porque estos valores contienen preferencias que están entrelazadas con deseos inconscientes. También es cierto que los modelos de lenguaje popular entrenados con grandes corpora exhiben diversas formas de sesgo. El jefe de inteligencia artificial de Facebook, Jerome Pesenti, encontró recientemente una serie de declaraciones negativas de GPT-3 incluidas varias que estaban dirigidas contra negros, judíos y mujeres. Emily Bender, profesora del grupo de PNL de la Universidad de Washington, le dijo recientemente a VentureBeat que incluso los registros de voz cuidadosamente elaborados pueden mostrar formas de sesgo.

Los coautores de ETHICS creen que los modelos de lenguaje de representaciones con una gama más amplia de preferencias humanas podrían llenar el mundo. Junto con técnicas para mitigar los efectos del prejuicio, estas representaciones también podrían ayudar a los esfuerzos dentro de la comunidad de investigación de la IA para crear usos más justos y menos potencialmente dañinos de la IA.

"Los sistemas harían bien en comprender los factores éticos que juegan un papel en la toma de mejores decisiones dentro de los límites de la ley", escribieron los coautores. “Nuestro trabajo es solo un primer paso que es necesario pero no suficiente para crear una IA ética, ya que necesitamos involucrar a más partes interesadas e implementar con éxito sus valores. El trabajo futuro también debe garantizar que estos modelos se puedan explicar y probar la solidez del modelo frente a la presión de optimización. “

En el camino hacia los asistentes sofisticados de IA, es probable que se requiera trabajo para imbuir a los modelos de moral. En un discurso en el Computing Community Consortium del MIT en marzo de 2019, Eric Schmidt, ex director ejecutivo de Google y Alphabet, describió su visión de los asistentes del futuro que podrían ayudar a los niños a aprender lenguaje y matemáticas. Ayudar a los adultos a planificar su día; y brindar calidez y compañía a los ancianos. Si esos asistentes carecen de una brújula moral de cualquier tipo, los efectos podrían ser perjudiciales, especialmente para los niños pequeños que carecen de una comprensión matizada del bien y del mal.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *