El aprendizaje automático mejora las capacidades de transcripción árabe


Con los avances en el procesamiento del lenguaje y el procesamiento del lenguaje natural, existe la esperanza de que algún día pueda preguntarle a su asistente virtual sobre los mejores ingredientes para ensaladas. Actualmente, es posible solicitar a su dispositivo doméstico que reproduzca música o que lo abra mediante un comando de voz, una función que ya está presente en muchos dispositivos.

Si habla marroquí, argelino, egipcio, sudanés o cualquiera de los otros dialectos del idioma árabe que varían enormemente de una región a otra y algunos de ellos no se entienden, esta es una historia diferente. Si su primer idioma es el árabe, el finlandés, el mongol, el navajo o cualquier otro idioma con un alto nivel de complejidad morfológica, es posible que se sienta excluido.

Estas complejas construcciones fascinaron a Ahmed Ali para encontrar una solución. Es el ingeniero jefe del Grupo de Tecnologías del Lenguaje Árabe en el Instituto de Investigación de Computación de Qatar (QCRI), parte de la Fundación de la Universidad Hamad Bin Khalifa de Qatar y fundador de ArabicSpeech, una «Comunidad que existe para el beneficio de la lingüística árabe y Tecnologías del lenguaje «. . «

Sede de la Fundación Qatar

Ali estaba intrigado por la idea de hablar con automóviles, dispositivos y dispositivos hace muchos años en IBM. “¿Podemos construir una máquina que entienda diferentes dialectos: un pediatra egipcio que automatiza una receta, un maestro sirio que ayuda a los niños a obtener las partes más importantes de sus lecciones o un cocinero marroquí que describe la mejor receta de cuscús?”, Se acuesta. Sin embargo, los algoritmos que impulsan estas máquinas no pueden buscar entre las aproximadamente 30 variantes árabes, y mucho menos comprenderlas. La mayoría de las herramientas de reconocimiento de voz en estos días solo funcionan en inglés y en algunos otros idiomas.

La pandemia de coronavirus ha alimentado una dependencia ya creciente de las tecnologías del lenguaje, con las formas en que las tecnologías de procesamiento del lenguaje natural han ayudado a las personas a cumplir con las pautas de estadía en el hogar y las medidas de distanciamiento físico. Sin embargo, si bien usamos comandos de voz para ayudar en las compras de comercio electrónico y administrar nuestros hogares, el futuro tiene aún más aplicaciones en la tienda.

Millones de personas en todo el mundo utilizan los cursos en línea abiertos masivos (MOOC) para obtener acceso abierto y participación ilimitada. El reconocimiento de voz es una de las funciones principales de MOOC, que permite a los estudiantes buscar el contenido hablado de los cursos dentro de áreas específicas y habilitar traducciones a través de subtítulos. La tecnología del habla permite digitalizar las conferencias para mostrar las palabras habladas como texto en las aulas universitarias.

Ahmed Ali, Universidad Hamad Bin Kahlifa

Según un artículo reciente de la revista Speech Technology, se prevé que el mercado de voz y reconocimiento de voz alcance los 26.800 millones de dólares en 2025, ya que millones de consumidores y empresas de todo el mundo confían en los robots de voz, no solo para interactuar con sus dispositivos o automóviles, sino también también para mejorar el servicio al cliente, impulsar la innovación en el cuidado de la salud y mejorar la accesibilidad y la inclusión de personas con discapacidades auditivas, del habla o motoras.

En una encuesta de 2019, Capgemini predijo que para 2022, más de dos de cada tres consumidores elegirían asistentes de voz en lugar de visitas a tiendas o sucursales bancarias; una proporción que podría aumentar con razón, dada la vida y el comercio domésticos y físicamente distantes que la epidemia ha impuesto al mundo durante más de un año y medio.

Sin embargo, estos dispositivos no pueden distribuirse en grandes partes del mundo. Para estos 30 tipos de árabe y millones de personas, esta es una gran oportunidad perdida.

Árabe para máquinas

Los robots de voz de habla inglesa o francesa están lejos de ser perfectos. Sin embargo, enseñar árabe a las máquinas es particularmente difícil por varias razones. Estos son tres desafíos generalmente reconocidos:

  1. Falta de signos diacríticos. Los dialectos árabes son vernáculos como se hablan en primer lugar. La mayor parte del texto disponible no está diacritizado, es decir, no hay acentos como el agudo (´) o el grabado (`), que indican los valores sonoros de las letras. Por lo tanto, es difícil determinar hacia dónde van las vocales.
  2. Falta de recursos. Hay una falta de fechas etiquetadas para los diversos dialectos árabes. En general, carecen de reglas ortográficas estandarizadas que dicten cómo se escribe un idioma, incluidas las normas o la ortografía, los guiones, los saltos de palabras y el énfasis. Estos recursos son fundamentales para la formación de modelos informáticos, y el hecho de que sean muy pocos ha obstaculizado el desarrollo del reconocimiento de voz en árabe.
  3. Complejidad morfológica. Los hablantes de árabe cambian mucho de código. Por ejemplo, en las áreas colonizadas por los franceses – África del Norte, Marruecos, Argelia y Túnez – los dialectos contienen muchos préstamos franceses. Como resultado, hay una gran cantidad de las llamadas palabras fuera del vocabulario que las tecnologías de reconocimiento de voz no pueden comprender porque estas palabras no son árabes.

«Pero el campo se mueve a la velocidad del rayo», dice Ali. Es un esfuerzo conjunto de muchos investigadores para avanzar aún más rápido. El Laboratorio de Tecnología del Idioma Árabe de Ali está liderando el proyecto ArabicSpeech para reunir las traducciones del árabe con los dialectos nativos de cada región. Por ejemplo, los dialectos árabes se pueden dividir en cuatro dialectos regionales: norteafricano, egipcio, golfo y levantino. Sin embargo, dado que los dialectos no se adhieren a ningún límite, esto puede graduarse tan finamente como un dialecto por ciudad; Por ejemplo, un hablante nativo de egipcio puede distinguir entre su dialecto alejandrino y su conciudadano de Asuán (a 1000 kilómetros de distancia en el mapa).

Construyendo un futuro experto en tecnología para todos

En este punto, las máquinas son tan precisas como los transcriptores humanos, gracias en gran parte a los avances en las redes neuronales profundas, una rama del aprendizaje automático en la inteligencia artificial que se basa en algoritmos derivados del funcionamiento biológico y funcional del cerebro humano. Sin embargo, hasta hace poco, el reconocimiento de voz estaba un poco pirateado. Históricamente, la tecnología se ha basado en varios módulos para el modelado acústico, la construcción de diccionarios de pronunciación y el modelado de idiomas. todos los módulos que deben formarse por separado. Más recientemente, los investigadores han entrenado modelos que convierten características acústicas directamente en transcripciones textuales, optimizando potencialmente todas las partes para la tarea final.

A pesar de estos avances, Ali todavía no puede dar comandos de voz en su árabe nativo a la mayoría de los dispositivos. “Es 2021 y todavía no puedo hablar mi dialecto con muchas máquinas”, dice. «Quiero decir, ahora tengo un dispositivo que puede entender mi inglés, pero el reconocimiento automático del idioma árabe con múltiples dialectos aún no ha tenido lugar».

Hacer esto posible está en el centro del trabajo de Ali, que culminó con el primer transformador para el reconocimiento del idioma árabe y sus dialectos; uno que ha logrado un rendimiento sin precedentes. La tecnología conocida como QCRI Advanced Transcription System es utilizada actualmente por las emisoras Al-Jazeera, DW y BBC para transcribir contenido en línea.

Hay varias razones por las que Ali y su equipo están desarrollando con éxito estos motores de voz. En primer lugar, dice: “Es necesario proporcionar recursos para todos los dialectos. Necesitamos construir los recursos para luego entrenar el modelo ”. Los avances en el procesamiento computacional significan que el aprendizaje automático computacionalmente intensivo ahora se lleva a cabo en una unidad de procesamiento de gráficos que puede procesar y mostrar gráficos complejos rápidamente. Ali dice: «Tenemos una gran arquitectura, buenos módulos y tenemos datos que representan la realidad».

Investigadores de QCRI y Kanari AI desarrollaron recientemente modelos que pueden lograr la paridad humana en las transmisiones de noticias árabes. El sistema demuestra los efectos de subtitular los informes diarios de Aljazeera. Si bien la tasa de error humano (HER) en inglés es de alrededor del 5.6%, la investigación encontró que debido a la complejidad morfológica del idioma y la falta de reglas ortográficas estándar en el dialecto árabe, el HER árabe es significativamente más alto y puede alcanzar el 10%. Gracias a los avances recientes en el aprendizaje profundo y la arquitectura de extremo a extremo, el motor de reconocimiento de voz árabe logra superar a los hablantes nativos en mensajes de transmisión.

Si bien el reconocimiento de voz parece funcionar bien en árabe estándar moderno, los investigadores de QCRI y Kanari AI están ocupados probando los límites del procesamiento dialectal y obteniendo excelentes resultados. Como nadie habla árabe estándar moderno en casa, tenemos que prestar atención al dialecto para que nuestros asistentes de idiomas nos entiendan.

Este contenido fue escrito por el Qatar Computing Research Institute de la Universidad Hamad Bin Khalifa, miembro de la Qatar Foundation. No fue escrito por el personal editorial de MIT Technology Review.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.