Facebook describe la IA que puede entender videos


Asista a Transform 2021 para conocer los temas clave en IA y datos empresariales. Aprende más.


Siguiendo un sistema de visión por computadora que ha logrado una precisión de vanguardia con una supervisión mínima, Facebook anunció hoy un proyecto llamado «Learn from Video» que automáticamente hará que las representaciones de audio, texto y visuales de los videos de Facebook disponibles públicamente estén destinadas a ser aprendió. Al aprender de videos que cubren casi todos los países y cientos de idiomas, Facebook no solo ayudará a mejorar sus sistemas centrales de inteligencia artificial, sino que también permitirá experiencias completamente nuevas, según Facebook. Aprender de los videos, que comenzó en 2020, ya ha dado como resultado recomendaciones mejoradas sobre los roles de Instagram, según Facebook.

El aprendizaje continuo del mundo es uno de los sellos distintivos de la inteligencia humana. Así como las personas aprenden rápidamente a reconocer lugares, cosas y otras personas, los sistemas de inteligencia artificial podrían ser más inteligentes y útiles si pueden imitar la forma en que las personas aprenden. A diferencia de los conjuntos de datos etiquetados que se utilizan para entrenar muchos algoritmos en la actualidad, Facebook, Google y otros buscan técnicas de autocontrol que requieran poca o ninguna anotación.

Por ejemplo, Facebook dice que usa Transformaciones de datos generalizadas (GDT), un sistema autocontrolado que aprende las relaciones entre el sonido y la imagen, para sugerir clips de Instagram Reel relevantes para videos vistos recientemente mientras filtra los casi duplicados. Compuesto por una serie de modelos entrenados en docenas de GPU en un conjunto de datos de millones de roles y videos de Instagram, GDT puede determinar que una imagen de una audiencia aplaudiendo es probable que coincida con los aplausos, o que es probable que un video de un avión lo haga. despega con un fuerte rugido. Además, el sistema puede mostrar recomendaciones basadas en videos que suenan o se ven iguales usando audio como señal.

Cuando se le preguntó qué usuarios de Facebook e Instagram han sometido su contenido a sistemas de capacitación como GDT, y si esos usuarios han sido informados de que el contenido se usará de esta manera, un portavoz de Facebook le dijo a VentureBeat que la compañía dijo que el titular de la cuenta informó en sus datos. política de que Facebook «utiliza la información que necesitamos para apoyar la investigación y la innovación». Mientras entrena otros sistemas de visión por computadora como SEER, un modelo de IA autocontrolado que Facebook detalló la semana pasada, OneZero descubre que la compañía ha excluido deliberadamente imágenes de usuarios de la Unión Europea, probablemente debido a GDPR.

Facebook aprendiendo de videos

Arriba: la IA de Facebook identifica y agrupa videos y roles similares de Instagram.

Crédito de la foto: Facebook

Aprender del video también incluye el trabajo de Facebook en wav2vec 2.0, un marco de aprendizaje automático mejorado para el reconocimiento de voz autocontrolado. La compañía afirma que Wave2vec 2.0, cuando se aplica a millones de horas de video sin etiquetar y 100 horas de datos etiquetados, redujo la tasa relativa de error de palabras en un 20% en comparación con las líneas de base monitoreadas solamente. Como siguiente paso, Facebook está trabajando para escalar wav2vec 2.0 con millones de lecciones de idiomas adicionales de 25 idiomas para reducir el etiquetado, mejorar el rendimiento de los modelos con recursos bajos y medios y mejorar otras tareas de idioma y audio.

Para facilitar la búsqueda entre videos, Facebook usa un sistema llamado modelo AVT (Audio Visual Textual) que agrega y compara información de audio y visual de videos, así como títulos, subtítulos y descripciones. Con un comando como «muéstrame cada vez que la abuela canta», el modelo AVT puede encontrar su ubicación y resaltar las marcas de tiempo más cercanas en el video. Facebook dice que está trabajando para aplicar el modelo a millones de videos antes de probarlo en su plataforma. El reconocimiento de voz también se agrega como una de las entradas al modelo AVT para que el sistema pueda responder a frases como «muéstrame el programa de noticias que habló sobre Yosemite».

TimeSformer

El proyecto «Learning from Videos» también produjo TimeSformer, un marco desarrollado por Facebook para la comprensión de videos que se basa exclusivamente en la arquitectura Transformer. Los transformadores utilizan un mecanismo de atención entrenable que especifica las dependencias entre los elementos de cada secuencia de entrada, por ejemplo, los aminoácidos dentro de una proteína. Esto les permite lograr resultados de vanguardia en áreas de aprendizaje automático, incluido el procesamiento del lenguaje natural, la traducción automática neuronal, la generación y resumen de documentos y la generación de imágenes y música.

TimeSformer de Facebook

Facebook afirma que TimeSformer, abreviatura de Time-Space Transformer, tiene los mejores números reportados en una serie de puntos de referencia de detección de acciones. La formación lleva aproximadamente un tercio del tiempo en comparación con modelos comparables. Y requiere menos de una décima parte del esfuerzo computacional de la inferencia y puede aprender de clips de video de hasta 102 segundos, mucho más que la mayoría de los modelos de análisis de video de IA. El investigador de inteligencia artificial de Facebook Lorenzo Torresani le dijo a VentureBeat que TimeSformer se puede entrenar en 14 horas con 32 GPU.

“Debido a que TimeSformer permite específicamente el análisis de videos mucho más largos, también existe la posibilidad de aplicaciones futuras interesantes, como la recuperación de la memoria episódica, la capacidad de identificar objetos específicos de interés vistos por un agente en el pasado, y la clasificación de varios niveles. Actividades en tiempo real, como ver una receta cuando alguien cocina con gafas AR ”, dijo Torresani. «Estos son solo algunos ejemplos de cómo usaremos esta tecnología en el futuro».

Los sistemas de afirmaciones de Facebook como TimeSformer, GDT, wav2vec 2.0 y AVT impulsarán la investigación para enseñar a las máquinas a comprender las acciones de formato largo en los videos. Este es un paso importante para las aplicaciones de IA que están orientadas al entendimiento humano. La compañía también cree que sentarán las bases para aplicaciones que puedan comprender lo que está sucediendo en los videos a un nivel más granular.

TimeSformer de Facebook

«[All] Estos modelos serán de aplicación general, pero la mayoría se encuentra actualmente en investigación. Si se utilizan en la producción en el futuro, creemos que pueden hacer cosas como subtitular conversaciones, discursos y videos instructivos. Comprender las menciones de productos en videos; y búsqueda y clasificación de archivos ”, dijo a VentureBeat Geoffrey Zweig, director de Facebook AI. “Apenas estamos comenzando a arañar la superficie del aprendizaje auto-supervisado. Hay mucho por hacer para construir sobre los modelos que usamos, y queremos hacerlo rápidamente y escalar para tener una amplia aplicabilidad. «

Facebook decidió no responder directamente a la pregunta de VentureBeat sobre cómo reducir los sesgos en el aprendizaje de modelos de video, sino decir: “En general, tenemos un equipo multidisciplinario y multifuncional que es más responsable de estudiar y desarrollar Dedicado a la inteligencia artificial y la equidad algorítmica. esforzarse por trabajar hacia los enfoques correctos. Nos tomamos este problema en serio y contamos con procesos para asegurarnos de que pensamos detenidamente sobre los datos que usamos para entrenar nuestros modelos. «

La investigación ha demostrado que los modelos de clasificación de imágenes de IA de última generación entrenados en ImageNet, un conjunto de datos popular (pero problemático) creado con fotos de Internet, aprenden automáticamente los prejuicios similares a los humanos sobre raza, género, peso y más. Innumerables estudios han demostrado que el reconocimiento facial es propenso a distorsionarse. Incluso se ha demostrado que el prejuicio puede infiltrarse en las herramientas de inteligencia artificial utilizadas para crear arte, lo que podría contribuir a percepciones erróneas sobre los aspectos sociales, culturales y políticos del pasado y obstaculizar la conciencia de eventos históricos importantes.

El científico jefe de inteligencia artificial de Facebook, Yann LeCun, admitió recientemente a Fortune que los sistemas de visión por computadora completamente autocontrolados pueden abordar los prejuicios, incluidos los estereotipos raciales y de género, inherentes a los datos. En reconocimiento al problema, Facebook formó nuevos equipos hace un año para buscar prejuicios racistas en los algoritmos que también controlan la red social de Instagram. Sin embargo, un informe explosivo en MIT Tech Review de esta semana encontró que al menos algunos de los esfuerzos internos de mitigación de sesgos de Facebook se estaban llevando a cabo para proteger el crecimiento o en previsión de la regulación. El informe también afirma que el trabajo de un departamento, AI responsable, se ha vuelto esencialmente irrelevante para abordar los problemas más amplios de desinformación, extremismo y polarización política.

VentureBeat

La misión de VentureBeat es ser una plaza de la ciudad digital para que los responsables de la toma de decisiones tecnológicas obtengan conocimientos sobre la tecnología y las transacciones transformadoras. Nuestro sitio web proporciona información importante sobre tecnologías y estrategias de datos para ayudarlo a administrar su negocio. Te invitamos a convertirte en miembro de nuestra comunidad y acceder a:

  • información actual sobre los temas de su interés
  • nuestros boletines
  • contenido privado de líderes de opinión y acceso con descuento a nuestros valiosos eventos, como Transformar 2021: Aprende más
  • Funciones de red y más

conviértete en miembro

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *