Los investigadores señalan que los modelos de aprendizaje automático aún tienen dificultades para detectar el discurso de odio


Reconocer el discurso de odio es una tarea con la que incluso los modelos modernos de aprendizaje automático luchan. Esto se debe a que el lenguaje dañino se presenta en muchas formas diferentes y los modelos deben aprender a distinguir cada uno de las frases inofensivas. Históricamente, los modelos de detección del discurso del odio se han probado midiendo su rendimiento en datos utilizando métricas como la precisión. Sin embargo, esto hace que sea difícil identificar las debilidades de un modelo y existe el riesgo de que la calidad de un modelo se sobreestime debido a lagunas y sesgos en los registros de odio.

En busca de una mejor solución, investigadores de la Universidad de Oxford, el Instituto Alan Turing, la Universidad de Utrecht y la Universidad de Sheffield desarrollaron HateCheck, un punto de referencia en inglés para modelos de detección de discurso de odio creado mediante la revisión de investigaciones previas y la realización de entrevistas con 16 Organizaciones no gubernamentales (ONG) británicas, alemanas y estadounidenses cuyo trabajo se relaciona con el odio en línea. Las pruebas de HateCheck en modelos de detección de última generación y la herramienta de perspectiva de Jigsaw revelaron «debilidades críticas» en estos modelos, según el equipo, lo que ilustra la utilidad del punto de referencia.

Las pruebas de HateCheck incluyen 29 modos que son difíciles para los modelos que se basan en reglas simplistas, incluido el discurso de odio despectivo, el lenguaje amenazante y el odio expresado con blasfemias. Dieciocho de las pruebas cubren diferentes expresiones de odio (por ejemplo, declaraciones como «Odio a los musulmanes», «Típico de una mujer que es tan estúpida», «Los negros son escoria»), mientras que las once pruebas restantes cubren lo que los investigadores describen el no-odio o el contenido que comparte características lingüísticas con expresiones de odio como contrastantes (por ejemplo, “Adoro absolutamente a las mujeres”, que contrasta con “Odio absolutamente a las mujeres”).

En experimentos, los investigadores analizaron dos modelos DistilBERT que tuvieron un gran rendimiento en los registros públicos de incitación al odio y el modelo de ataque de identidad de Perspective, una API de moderación de contenido lanzada en 2017. La perspectiva la mantienen el equipo de Google Counter Abuse Technology y Jigsaw, la organización que trabaja bajo la empresa matriz de Google, Alphabet, para combatir el ciberacoso y la desinformación, y organizaciones de medios como New York Times y Vox Media.

Los investigadores encontraron que, a partir de diciembre de 2020, todos los modelos parecen hipersensibles a ciertas palabras clave, en su mayoría confusiones y blasfemias, y a menudo clasifican erróneamente los contrastes que no son de odio (como la negación y el contra-discurso) alrededor de frases de odio.

El discurso del odio

Arriba: ejemplos de incitación al odio en HateCheck, así como la precisión de cada modelo probado por los investigadores.

En particular, el modelo de perspectiva lucha con denuncias de odio que citan o se refieren directamente al discurso de odio, y solo clasifica correctamente entre el 15,6% y el 18,4%. El modelo reconoce solo el 66% del discurso de odio con un arco y el 62,9% de los abusos dirigidos contra grupos «desprotegidos» como «artistas» y «capitalistas» (en declaraciones como «los artistas son parásitos de nuestra sociedad «Y» Muerte «todos los capitalistas») y solo el 54% de los «reclamados» arcos como «queer». Además, la API de perspectiva no puede capturar variaciones ortográficas como caracteres faltantes (74,3% de precisión), espacios adicionales entre caracteres (74%) y ortografía con números en lugar de palabras (68,2%).

Los modelos DistilBERT muestran sesgos en sus clasificaciones en relación a ciertos géneros, etnias, razas y grupos sexuales y, según los investigadores, clasifican más contenido que va dirigido a unos grupos que a otros. Uno de los modelos tenía solo un 30,9% de precisión para identificar el discurso de odio contra las mujeres y un 25,4% para identificar el discurso contra las personas con discapacidad. El otro fue el 39,4% exactamente para el discurso de odio contra los inmigrantes y el 46,8% exactamente para el discurso contra los negros.

“Parece que todos los modelos codifican en cierta medida reglas de decisión simples basadas en palabras clave (por ejemplo, ‘los arcos son odiosos’ o ‘los arcos no son odiosos’) en lugar de capturar los fenómenos lingüísticos relevantes (por ejemplo, ‘los arcos pueden no es odioso ser reclamado “) usado ‘). ella [also] parecen no registrar suficientemente las señales lingüísticas que reformulan oraciones de odio en frases claramente no odiosas (por ejemplo, “Ningún musulmán merece la muerte”) ”, escribieron los investigadores en un artículo preimpreso en el que describían su trabajo.

Los investigadores proponen modelos de capacitación o expansión de datos específicos para conjuntos de datos adicionales que contienen ejemplos de discurso de odio que no reconocieron como una técnica para mejorar la precisión. Sin embargo, ejemplos como la campaña desigual de Facebook contra la incitación al odio muestran importantes desafíos tecnológicos. Facebook afirma haber invertido mucho en tecnología para filtrar el contenido de inteligencia artificial y detectar de manera proactiva hasta el 94,7% del discurso de odio que finalmente elimina. Sin embargo, la empresa aún no puede frenar la proliferación de publicaciones problemáticas. Una investigación reciente de NBC encontró que los usuarios negros en Instagram en los EE. UU. Tenían aproximadamente un 50% más de probabilidades de tener sus cuentas deshabilitadas a través de sistemas de moderación automatizados durante el año pasado que aquellos cuya actividad indica que eran blancos.

«Para aplicaciones prácticas como la moderación del contenido, estos son puntos débiles críticos», continuaron los investigadores. “Los modelos que clasifican erróneamente las hojas recuperadas castigan a las mismas comunidades a las que suele dirigirse el discurso de odio. Los modelos que clasifican erróneamente el discurso contrario socavan los esfuerzos positivos para combatir el discurso del odio. Apuntar a modelos que están sesgados puede crear sesgos en las protecciones otorgadas a diferentes grupos. «

VentureBeat

La misión de VentureBeat es ser una plaza de la ciudad digital para que los responsables de la toma de decisiones tecnológicas obtengan conocimientos sobre tecnología y transacciones transformadoras. Nuestro sitio web proporciona información importante sobre tecnologías y estrategias de datos para ayudarlo a administrar su negocio. Te invitamos a convertirte en miembro de nuestra comunidad y acceder a:

  • información actual sobre temas de su interés,
  • nuestros boletines
  • contenido privado de líderes de opinión y acceso con descuento a nuestros valiosos eventos como Transform
  • Funciones de red y más.

conviértete en miembro

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *