Facebook afirma que wav2vec 2.0 supera el reconocimiento de voz con 10 minutos de datos etiquetados


En un artículo publicado en el servidor de preimpresión Arxiv.org, los investigadores de Facebook describen wav2vec 2.0, un marco mejorado para el reconocimiento de voz autocontrolado. Afirman que muestra por primera vez que aprender representaciones del lenguaje, seguido de un ajuste fino del lenguaje transcrito, puede superar los mejores métodos semi-supervisados, mientras que es conceptualmente más simple y logra resultados de vanguardia en solo 10 minutos. Datos etiquetados y pre-entrenamiento de 53,000 horas de datos en blanco.

Los modelos de IA se benefician de grandes cantidades de datos etiquetados, de esta manera aprenden a derivar patrones y hacer predicciones. Sin embargo, como coautores de la nota en papel, los datos etiquetados son generalmente más difíciles de obtener que los datos no etiquetados. Los sistemas actuales de reconocimiento de voz requieren miles de horas de lenguaje transcrito para lograr un rendimiento aceptable que no está disponible para la mayoría de los casi 7,000 idiomas que se hablan en todo el mundo. El wav2vec original de Facebook y otros sistemas intentan solucionar esto con autocontrol, que genera automáticamente etiquetas a partir de los datos. Sin embargo, el rendimiento es pobre en comparación con los métodos semi-monitoreados que combinan una pequeña cantidad de datos etiquetados con una gran cantidad de datos sin etiquetar durante el ejercicio.

Wav2vec 2.0 supuestamente cierra la brecha con un módulo codificador que requiere audio de datos sin procesar y emite representaciones de voz que se alimentan a un transformador que garantiza que las representaciones capturen información sobre toda la secuencia de audio. La arquitectura de la red de transformadores desarrollada por los investigadores de Google en 2017 originalmente tenía la intención de mejorar la traducción automática. Para este propósito, se utilizan funciones de atención en lugar de una red neuronal recurrente para predecir lo que viene después en una secuencia. Esta propiedad permite a wav2vec 2.0 crear representaciones contextuales sobre presentaciones de voz continuas y grabar dependencias estadísticas sobre secuencias de audio de extremo a extremo.

  Facebook AI wav2vec 2.0

Arriba: Un diagrama que ilustra wav2vec 2.0

Para entrenar wav2vec 2.0 por adelantado, los investigadores enmascararon partes de las presentaciones de discurso (aproximadamente el 49% de todos los pasos de tiempo con uno lapso promedio de 299 milisegundos) e instruyó al sistema para que los prediga correctamente. Para optimizar el reconocimiento de voz, agregaron una proyección a través de wav2vec 2.0 que representa el vocabulario en forma de tokens para caracteres y límites de palabras (por ejemplo, espacios de palabras de inglés escrito) antes de que se llevara a cabo un enmascaramiento adicional durante la capacitación. [19659008] VB Transform 2020 en línea – 15-17 Julio. Únase a los principales líderes de IA: regístrese para la transmisión en vivo gratuita.

Los coautores entrenaron wav2vec 2.0 en 128 tarjetas gráficas Nvidia V100 por hasta 5.2 días en varias fuentes de datos sin etiquetar y etiquetados para evaluar el rendimiento del sistema. El ajuste se realizó en ocho a 24 tarjetas gráficas.

Según el equipo, el modelo wav2vec 2.0 entrenado más grande, que se ajustó a solo 10 minutos de datos etiquetados (48 grabaciones con una duración promedio de 12.5 segundos), logró una tasa de error de palabra de 5.7 en el Abierto Fuente del cuerpo de Librispeech. (Aquí, "tasa de error de palabras" se refiere a la cantidad de errores divididos por la cantidad total de palabras). Para un subconjunto de 100 horas de Librispeech, el mismo modelo mantuvo una tasa de error de palabras de 2.3 a 45% menor que la técnica anterior capacitada con 100 veces menos datos etiquetados, y 1.9 cuando se optimizan más datos, un resultado que compite con los mejores métodos semi-monitoreados basados ​​en arquitecturas más sofisticadas.

"[This] demuestra que este reconocimiento de voz con recursos extremadamente bajos es posible a través del aprendizaje autocontrolado en datos no etiquetados", escribieron los investigadores. “Hemos demostrado que los modelos de reconocimiento de voz se pueden crear con cantidades muy pequeñas de datos anotados con muy buena precisión. Esperamos que nuestro trabajo haga que la tecnología de reconocimiento de voz esté más disponible para muchos otros idiomas y dialectos. [

Facebook utilizó el wav2vec original para proporcionar una mejor representación de los datos de audio para el reconocimiento de palabras clave y la detección de eventos acústicos, y para mejorar sus sistemas que identifican de manera proactiva las publicaciones en violación de los lineamientos de la comunidad. Es probable que wav2vec 2.0 se aplique a las mismas tareas. La compañía también planea hacer que los modelos y el código estén disponibles como una extensión de su kit de herramientas de modelado Fairseq.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *