SqueezeBERT promete PNL móvil más rápido mientras mantiene la precisión BERT


El ex CEO de DeepScale, Forrest Landola, dejó Tesla para centrarse en la investigación de la PNL, le dijo a VentureBeat en una entrevista telefónica. Tesla se hizo cargo del inicio de visión por computadora DeepScale en otoño de 2019 por una cantidad no revelada. Iandola dijo que dejó Tesla porque quería investigar problemas relacionados con la conducción autónoma y lidiar con el tipo de descubrimiento accidental que acompaña a formas más amplias de investigación de IA.

En los círculos de investigación, Iandola es quizás mejor conocido por su trabajo en visión artificial y es el autor principal de un artículo de 2017 sobre SqueezeNet, un modelo que logró una precisión de clasificación de imagen similar a la de AlexNet con 50 veces menos parámetros.

En su primera investigación de PNL desde que dejó Tesla, trabajó con un equipo que incluía al cofundador de DeepScale y profesor de UC Berkeley, Kurt Keutzer, y al ingeniero de aprendizaje automático de Tesla Albert Shaw. El lunes, publicaron un artículo sobre SqueezeBERT, una arquitectura de red neural móvil de PNL que dijeron que es 4.3 veces más rápido que BERT en un teléfono inteligente Pixel 3 y logra una precisión similar a MobileBERT en tareas de referencia GLUE. Una diferencia clave entre MobileBERT y SqueezeBERT, dijo Iandola VentureBeat en una entrevista, es el uso de giros agrupados para aumentar la velocidad y la eficiencia, una técnica que se introdujo por primera vez en 2012.

"[W] El tamaño de realmente no cambió las capas o cuántas de ellas hay, pero estamos agrupando turnos. No es realmente económico en el sentido de que solo se eliminan parámetros aleatorios, pero los bloques de parámetros faltan deliberadamente al comienzo de la sesión de entrenamiento, y es por eso que la aceleración llegó en nuestro caso ”, dijo.

VB Transform 2020 en línea – 15.-17. Julio. Únase a los principales líderes de IA: regístrese para la transmisión en vivo gratuita.

SqueezeBERT también se basa en técnicas derivadas de SqueezeNAS, un modelo de búsqueda de arquitectura neuronal (NAS) que fue desarrollado el año pasado por antiguos empleados de DeepScale, incluidos Shaw e Iandola.

Iandola dijo que eligió la investigación de PNL debido a los avances que las redes basadas en transformadores han hecho posible en los últimos años. También está interesado en las aplicaciones de PNL para dispositivos móviles y aplicaciones periféricas que pueden ejecutarse localmente sin que los datos salgan del dispositivo.

2013, donde AlexNet acababa de suceder y la gente dice: “Bien, ¿qué queremos hacer con esta nueva tecnología nuevamente? Y siento que las redes de auto atención son una especie de gran interrupción para la PNL y la gente está comenzando a diseñar algoritmos de PNL desde cero ”, dijo.

Desde el lanzamiento de código abierto de BERT en 2017, los modelos de transformadores y las variaciones de BERT como RoBERTa de Facebook, ERNIE de Baidu y XLNet de Google han logrado los últimos resultados en modelos de idiomas. Un grupo de expertos con los que VentureBeat habló el año pasado describió los avances en PNL como una tendencia importante en el aprendizaje automático en 2019.

SqueezeBERT es el último estudio sobre la convergencia de la visión por computadora y la PNL. La semana pasada, los investigadores de Facebook y UC Berkeley, incluido Keutzer, presentaron Visual Transformers para encontrar relaciones entre conceptos visuales. El mes pasado, Facebook publicó AI Research DETR, el primer sistema de reconocimiento de objetos construido utilizando la arquitectura de red neuronal de Transformer que estuvo a la vanguardia de los avances de la PNL.

Un posible próximo paso para SqueezeBERT es intentar reducir el muestreo para cortar oraciones. Los modelos de visión por computadora como EfficientNet o AlexNet reducen la altura y el ancho de las imágenes para mejorar la velocidad.

"La idea de tratar una oración como una imagen que puede escanear hacia arriba o hacia abajo es algo popular en la PNL en mi opinión, tenemos que ver", dijo Iandola.

Dijo que el código SqueezeBERT se lanzará para su revisión este verano.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *