Nuevo punto de referencia mide el sesgo de género en los sistemas de traducción de idiomas


Un documento de preimpresión publicado por investigadores de la Universidad de Trento sugiere un punto de referencia, MuST-SHE, para evaluar si los sistemas de traducción de idiomas alimentados con datos de texto están restringidos por el hecho de que las oraciones a veces omiten pistas sobre la identidad de género . Los coautores afirman que estos sistemas pueden y pueden tener un sesgo de género y que las señales más allá del texto (como el audio) proporcionan pistas contextuales que podrían reducir este sesgo.

En la traducción automática, el sesgo de género se debe al menos en parte a las diferencias en la forma en que los idiomas expresan el género femenino y masculino. Aquellos con un sistema de género gramatical, como B. Las lenguas romances se basan en una variedad de instrumentos de difracción y acuerdo de género que se aplican a partes individuales del discurso. Por ejemplo, esto está mal para el inglés, que es un "lenguaje de género natural": refleja la distinción de género solo a través de pronombres, palabras inherentemente específicas de género (por ejemplo, "niño", "niña") y sustantivos marcados ("actores", "Actriz").

Los sistemas de traducción de IA que no comprenden los matices amenazan con mantener la representación insuficiente o falsa de los grupos demográficos. Por esta razón, los investigadores desarrollaron MuST-SHE, un conjunto de pruebas multilingües que se utiliza para descubrir distorsiones específicas de género en la traducción de idiomas.

MuST-SHE es un subconjunto de las conferencias TED, que incluye alrededor de 1,000 grabaciones de audio, transcripciones y traducciones en parejas inglés-francés e inglés-italiano del corpus de código abierto MuST-C, comentado con género cualitativamente diferenciado y equilibrado. Fenómenos. Se divide en dos categorías:

VB Transform 2020 Online – 15.-17. Julio. Únase a los principales líderes de IA: regístrese para la transmisión en vivo gratuita.
  • Categoría 1: Muestras en las que la información requerida para distinguir entre los sexos se puede restaurar a partir de la señal de audio si la coincidencia de género depende solo del género del hablante.
  • Categoría 2: Muestras donde se puede restaurar la información inequívoca del contenido del enunciado, donde las referencias contextuales como palabras específicas de género ("madre"), pronombres ("ella", "su") y nombres propios ("Paul") sobre género informar.

Para cada referencia en el cuerpo, los investigadores crearon un "error" que es idéntico al original, con la excepción de las señales morfológicas, que transmiten una coincidencia específica de género. El resultado fue un nuevo conjunto de referencias que son "incorrectas" en comparación con las correctas en términos de expresión formal de género. La idea es que la diferencia se puede utilizar para medir la capacidad de un sistema de reconocimiento de voz para hacer frente a los fenómenos de género. [19659002] En una serie de experimentos, los investigadores crearon tres sistemas de reconocimiento de voz:

  • End2End, que se entrenó en los conjuntos de datos MuST-C y Librispeech de código abierto y se complementó con la traducción automática de las transcripciones originales en inglés a los idiomas de destino. [19659007] Cascade, que utiliza la misma tecnología central que End2End, pero fue entrenado en 70 millones de pares de idiomas para inglés-italiano y 120 millones para inglés-francés desde el repositorio OPUS, después de lo cual se refinaron los datos de entrenamiento MuST-C.
  • Cascade + Tag, un modelo que es idéntico a Cascade, a excepción de las etiquetas que se han agregado a los datos de entrenamiento e indican el género de un hablante.

Curiosamente, los investigadores descubrieron que inyectar información de género en Cascade no tenía un efecto medible al evaluar MuST-SHE. Los valores de diferencia entre las referencias originales y las "incorrectas" en el conjunto de datos implicaron que los tres sistemas estaban orientados hacia formas masculinas.

Cascade tuvo el peor desempeño en la Categoría 1 porque no pudo acceder a la información de género del hablante necesaria para una traducción correcta. En contraste, End2End usó audio para traducir con precisión el género, pero tuvo un mal desempeño en los datos de la Categoría 2, posiblemente porque fue entrenado en una fracción de los datos utilizados en Cascade y Cascade + Tag.

"Si, como los seres humanos," el aprendizaje automático es lo que se come ", la diferente" nutrición "de la traducción automática y los modelos de traducción de idiomas pueden ayudarlos a desarrollar diferentes habilidades", escribieron los investigadores. "Al" comer "pares de audio-texto, la traducción del idioma tiene una ventaja potencial: la capacidad de derivar el género del hablante a partir de las señales de audio ingresadas".

El documento se publicó después de que Google introdujo las traducciones de género en Google Translate, principalmente para abordar el sesgo de género. Los científicos han propuesto una serie de enfoques para mitigar y medir esto, más recientemente con una clasificación, un desafío y un conjunto de métricas llamado StereoSet.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *