Los investigadores cuantifican el sesgo en el contenido de Reddit que a veces se usa para entrenar a la IA


En un artículo publicado en el servidor de preimpresión Arxiv.org, los científicos del Instituto de Ciencias de la Computación de Londres en el King's College utilizaron el lenguaje natural para mostrar evidencia del género omnipresente y los prejuicios religiosos en las comunidades de Reddit. Esto en sí mismo no es sorprendente, pero el problema es que los datos de estas comunidades se utilizan a menudo para entrenar grandes modelos de lenguaje como el GPT-3 de OpenAI. Nuevamente, esto es importante porque, como señala la propia OpenAI, este tipo de sesgo hace que palabras como "travieso" o "chupado" se coloquen cerca de pronombres femeninos y "Islam" cerca de palabras como "terrorismo". .

El enfoque de los científicos utiliza representaciones de palabras llamadas incrustaciones para descubrir y clasificar las distorsiones del lenguaje que podrían permitir a los científicos de datos rastrear la gravedad de la distorsión en diferentes comunidades y tomar medidas para contrarrestar esa distorsión. . Para resaltar ejemplos de contenido potencialmente ofensivo en las subcomunidades de Reddit, el método utiliza un modelo de lenguaje y dos conjuntos de palabras que representan conceptos para comparar y detectar sesgos para identificar las palabras más sesgadas en relación con los conceptos en una comunidad determinada. También clasifica las palabras de menos sesgadas a más sesgadas mediante el uso de una ecuación para proporcionar una lista ordenada y una vista general de la distribución de sesgos en este secreto a voces de que algunos grupos dentro de la red son tóxicos irreparables. En junio, Reddit prohibió alrededor de 2.000 comunidades por violar constantemente sus reglas al permitir que las personas acosaran a otros con discursos de odio. Sin embargo, de acuerdo con las pautas del sitio sobre la libertad de expresión, los administradores de Reddit les prohíben prohibir las comunidades por cualquier contenido que no sea controvertido, como: B. Defensores de la supremacía blanca, que ridiculizan el sesgo liberal percibido y promueven puntos de vista degradantes de las mujeres transgénero, trabajadoras sexuales y feministas.

Para especificar con mayor precisión los prejuicios que encontraron, los investigadores consideraron la negatividad y la positividad (también conocida como "polaridad del estado de ánimo") de las palabras sesgadas. Para facilitar el análisis de los sesgos, combinaron términos relacionados semánticamente bajo títulos amplios como "Relación: Íntimo / Sexual" y "Poder Organizador", que utilizaron para la semántica automática basada en UCAS (Semantic Analysis System) (USAS). y etiquetado de texto modelado. (USAS tiene una estructura escalonada con 21 campos principales de discurso divididos en categorías detalladas como “personas”, “relaciones” o “poder”).

Una de las comunidades investigadas por los investigadores – / r / TheRedPill, supuestamente un foro para la "discusión de la estrategia sexual en una cultura donde hay una creciente falta de identidad positiva para los hombres" – tuvo 45 grupos de palabras sesgadas. (/ r / TheRedPill está siendo "puesto en cuarentena" actualmente por los administradores de Reddit, lo que significa que los usuarios deben pasar por alto una alerta para poder visitar o unirse). Los resultados de opinión mostraron que los dos primeros grupos de mujeres ("Anatomía y Fisiología "," Relaciones sexuales íntimas ")," Y "Evaluación de la apariencia") tenían sentimientos negativos, mientras que la mayoría de los grupos relacionados con los hombres contenían palabras neutrales o con connotaciones positivas. Tal vez como era de esperar, etiquetas como "egoísmo" y "tenacidad"; fuerte / débil ”ni siquiera estaban presentes en etiquetas con sesgo hacia las mujeres.

Otra comunidad, / r / Dating_Advice, mostró una tendencia negativa hacia los hombres, según los investigadores. Los grupos sesgados incluían las palabras "pobre", "irresponsable", "impredecible", "poco confiable", "impulsivo", "patético" y "estúpido", y palabras como "abusivo" y "egoísta" se encuentran entre las más negativas de las Estado animico. Además, la categoría de "juicio de la belleza" se centra a menudo en los hombres que en las mujeres, y el estereotipo físico de las mujeres era "significativamente" menos extendido que en /r/TheRedPill.[19659002weiblDieForscherentschiedensichfürdieGemeinschaft/r/Atheismusdienenntsich"dasgrößteAtheismus-ForumimInternet"umreligiöseVorurteilezubewertenSiestellenfestdassalleerwähntenvoreingenommenenBezeichnungengegenüberdemIslameinedurchschnittlichenegativePolaritäthattenmitAusnahmedergeografischenNamenKategorienwie"VerbrechenRechtundOrdnung""BeurteilungdesAussehens"y"KriegVerteidigungundArmee"aggregiertenWörtermitoffensichtlichnegativenKonnotationenwie"nocivilizado""misógino""terrorista""antisemita""BajoEmpujar""ofensiva"y""ImGegensatzdazuwarkeinesderBezeichnungeninvomChristentumgeprägtenClusternrelevantunddiemeistenWörterinvomChristentumgeprägtenClustern(porejemplo"totalitarioUnitaria""presbiteriano""episcopales""nobautizada""eterno")nofueronrelevantesPositiveConnotations

Los coautores sostienen que su enfoque podría ser utilizado por legisladores, moderadores y científicos de datos para rastrear la gravedad del sesgo en diferentes comunidades y tomar medidas para abordar activamente ese sesgo. "Vemos la principal contribución de nuestro trabajo en la introducción de un enfoque modular y extensible para explorar la distorsión del habla a través de la lente de la incrustación de palabras", escribieron. "Si uno puede hacer esto sin tener que definir estos sesgos a priori, este proceso es más aplicable a los discursos dinámicos e impredecibles que se multiplican en línea".

En la investigación de IA, existe una necesidad real y actual de tales herramientas. Emily Bender, profesora del grupo de PNL de la Universidad de Washington, le dijo recientemente a VentureBeat que incluso los registros de voz cuidadosamente elaborados pueden mostrar formas de sesgo. Un estudio publicado en agosto pasado por investigadores de la Universidad de Washington encontró evidencia de prejuicio racial en los algoritmos de detección del discurso de odio desarrollados por la empresa matriz de Google, Alphabet & # 39; s Jigsaw. Y el jefe de inteligencia artificial de Facebook, Jerome Pesenti, encontró una serie de declaraciones negativas de AI creada para generar tweets similares a humanos dirigidos a negros, judíos y mujeres.

“Los algoritmos son como espejos convexos que rompen los prejuicios humanos. pero hazlo de una manera bastante directa. No permiten ficciones corteses como las que usamos a menudo para apoyar a nuestra sociedad ”, dijo Kathryn Hume, directora de productos de IA de Borealis, en la Cumbre Global de Movethedial en noviembre. “Estos sistemas no permiten ficciones corteses. … En realidad, eres un espejo que nos permite observar directamente lo que podría estar mal en la sociedad para que podamos solucionarlo. Sin embargo, debemos tener cuidado porque si no diseñamos bien estos sistemas, todo lo que necesitan hacer es encriptar los datos y potencialmente reforzar los prejuicios que existen en la sociedad actual. "

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *