MLCommons presenta un registro de voz público de 86.000 horas para investigadores de inteligencia artificial – TechCrunch


Si desea construir un sistema de aprendizaje automático, necesita datos para hacerlo, pero esos datos no siempre son fáciles de conseguir. MLCommons tiene como objetivo unir a empresas y organizaciones dispares para crear grandes bases de datos públicas para la capacitación en IA, de modo que los investigadores de todo el mundo puedan colaborar en niveles más altos, avanzando así en el campo emergente como un todo. Su primer intento con el conjunto de datos People’s Speech es muchas veces más grande que el de cualquier otra persona y también apunta a ser más diverso.

MLCommons es una nueva organización sin fines de lucro afiliada a MLPerf que ha reunido contribuciones de docenas de empresas e instituciones académicas para crear puntos de referencia estándar de la industria para el rendimiento del aprendizaje automático. La empresa tuvo éxito, pero al hacerlo, el equipo se encontró con una falta de registros abiertos para que todos los usaran.

Si desea hacer una comparación de manzana a manzana de un modelo de Google con un modelo de Amazon o un modelo de UC Berkeley, todos deberían usar los mismos datos de prueba. Con Computer Vision, ImageNet es uno de los conjuntos de datos más utilizados y citados por todos los artículos y expertos influyentes. Sin embargo, no existe tal conjunto de datos para la precisión de voz a texto.

“Los puntos de referencia hacen que la gente hable sobre el progreso de una manera sensata y mensurable. Y resulta que si el objetivo es hacer avanzar la industria, necesitamos conjuntos de datos que podamos usar, pero muchos de ellos son difíciles de usar o no están actualizados debido a problemas de licencia ”, dijo el cofundador y fundador de MLCommons. Director gerente David Kanter.

Claro, las grandes empresas tienen enormes conjuntos de registros de voz propios, pero son propietarios y posiblemente la ley prohíbe que otros los utilicen. Y hay registros públicos, pero con solo unos pocos miles de horas su utilidad es limitada: para ser competitivo hoy se necesita mucho más.

“La creación de macrodatos es excelente porque podemos realizar evaluaciones comparativas, pero también avanza la aguja para todos. No podemos competir con lo que está disponible internamente, pero podemos hacer una gran contribución para cerrar esta brecha ”, dijo Kanter. MLCommons es la organización que crearon para crear y procesar los datos y conexiones necesarios.

El conjunto de datos People’s Speech se compiló a partir de una variedad de fuentes, con aproximadamente 65.000 horas de audiolibros en inglés y el texto coincidió con el audio. Luego, hay alrededor de 15.000 horas de Internet con diferentes acústicas, altavoces y estilos de habla (por ejemplo, conversación en lugar de narración). Se obtuvieron 1.500 horas de audio en inglés de Wikipedia, y luego se mezclaron 5,000 horas de habla sintética con texto generado por GPT-2 («Un poco de la serpiente se come su propia cola», bromeó Kanter). En total hay 59 idiomas representados de alguna manera, aunque como puedes ver es mayoritariamente inglés.

Si bien la diversidad es el objetivo (no se puede crear un asistente virtual en portugués a partir de datos en inglés), también es importante basar lo que se necesita para los propósitos actuales. ¿Son suficientes 10,000 horas para crear un modelo de texto de voz decente? ¿O la disponibilidad de 20.000 hace que el desarrollo sea mucho más fácil, rápido o eficaz? ¿Qué pasa si quieres ser excelente en inglés americano pero también quieres ser decente con acentos indios e ingleses? Cuanto de aquellos ¿Necesitas?

El consenso general con los registros es simplemente «cuanto más grande, mejor», y Google y Apple están trabajando en más de unos pocos miles de horas. De ahí las 86.000 horas en esta primera iteración del conjunto de datos. Y definitivamente es el primero de muchos, con versiones posteriores destinadas a expandirse a más idiomas y acentos.

«Una vez que hayamos verificado que podemos ofrecer valor, simplemente publicaremos y seremos honestos sobre en qué condición se encuentra», dijo Peter Mattson, otro cofundador de MLCommons y actualmente director del Grupo de métricas de aprendizaje automático de Google. “También necesitamos aprender a cuantificar la idea de diversidad. La industria quiere eso; Necesitamos más conocimientos técnicos en la creación de conjuntos de datos: existe un enorme retorno de la inversión para cualquiera que apoye a una organización de este tipo. «

La organización también espera impulsar el intercambio y la innovación en el campo con MLCube, un nuevo estándar para mover modelos que elimina las conjeturas y el trabajo de este proceso. Si bien el aprendizaje automático es una de las áreas más activas de investigación y desarrollo en tecnología, no es tan fácil tomar su modelo de IA y dárselo a otra persona para que lo pruebe, lo ejecute o lo cambie.

Su idea con MLCube es un contenedor para modelos que describe y estandariza algunas cosas como dependencias, formato de entrada y salida, hosting, etc. La IA puede ser compleja desde cero, pero ella y las herramientas para construirla y probarla aún están en su infancia.

El conjunto de datos debería estar disponible ahora o en breve en el sitio web de MLCommons bajo la licencia CC-BY y debería permitir el uso comercial. También se publican algunos modelos de referencia entrenados en el set.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *