Imagen de Google se enfrenta a Make-A-Video de Meta a medida que aumentan los modelos de IA de texto a video


Descubra cómo su empresa puede crear aplicaciones para automatizar tareas e impulsar eficiencias adicionales con herramientas de código bajo/sin código el 9 de noviembre en la Cumbre virtual de código bajo/sin código. Registrarse aquí.


Es la temporada de la inteligencia artificial generativa (IA). La semana pasada, Meta anunció Make-A-Video, un sistema de inteligencia artificial que permite a los usuarios convertir mensajes de texto en clips de video cortos, únicos y de alta calidad. Ahora Google no se queda atrás. La tendencia de texto a video muestra todos los signos de estar lista para explotar, tal como lo hizo el texto a imagen el año pasado con DALL-E, MidJourney y Stable Diffusion.

Anunciado ayer, Imagen Video de Google es un modelo de IA generativo de texto a video capaz de producir videos de alta definición a partir de un mensaje de texto. El modelo de entrega de video condicionado por texto puede generar video con una resolución de hasta 1280 × 768 a 24 cuadros por segundo.

Imagen Video de Google ofrece alta fidelidad

En su artículo recientemente publicado «Imagen Video: Generación de video de alta definición con modelos de entrega», Google afirma que Imagen Video es capaz de generar video con alta fidelidad y tiene un alto grado de controlabilidad y conciencia mundial. Las capacidades del modelo generativo incluyen la creación de varios videos de texto y animaciones en diferentes estilos artísticos, comprensión 3D, representación de texto y animación. El modelo se encuentra actualmente en fase de investigación, pero su llegada se produce apenas cinco meses después de que Imagen mostrara el rápido desarrollo de los modelos basados ​​en síntesis.

Imagen Video consta de un codificador de texto (congelado T5-XXL), un modelo de transmisión de video básico y modelos de transmisión de superresolución espacial y temporal intercalados. Para crear una arquitectura de este tipo, Google afirma haber transferido los resultados de trabajos anteriores sobre la generación de imágenes basadas en transmisión al parámetro de generación de video. El equipo de investigación también inculcó la destilación progresiva en los modelos de video con una guía sin clasificador para un muestreo rápido y de alta calidad.

Evento

Cumbre Low-Code/No-Code

Únase a los principales líderes de hoy en Low-Code/No-Code Summit virtualmente el 9 de noviembre. Regístrese para obtener su pase gratis hoy.

registrarse aquí

Cascada de siete modelos de entrega de subvideo

El marco de generación de video es una cascada de siete modelos de entrega de subvideo que realizan generación de video condicional de texto, superresolución espacial y superresolución temporal. Con toda la cascada, Imagen Video genera video de alta definición de 1280 × 768 a 24 fps para 128 cuadros, o alrededor de 126 millones de píxeles. Usando la destilación progresiva, Imagen Video puede generar video de alta calidad utilizando solo ocho etapas de transmisión por submodelo. Esto acelera el tiempo de generación de video en un factor de aproximadamente 18 veces.

Comparación de resoluciones progresivamente crecientes generadas por la arquitectura espacial en 200.000 pasos de entrenamiento.

Las muchas capacidades estilísticas notables del modelo también incluyen la generación de videos basados ​​en el trabajo de pintores de renombre como Vincent van Gogh, renderizar objetos giratorios en 3D mientras se preserva su estructura y renderizar texto en varios estilos de animación.

Google dice que Imagen Video fue entrenado en el conjunto de datos de texto de imagen LAION-400M disponible públicamente, junto con 14 millones de pares de video-texto y 60 millones de pares de imagen-texto. Los conjuntos de datos de entrenamiento le permitieron generalizar una variedad de estéticas. Además, uno de los beneficios de los modelos en cascada descubiertos por el equipo de desarrollo de Google fue que cada modelo de difusión se podía entrenar de forma independiente, lo que permitía entrenar los siete modelos en paralelo.

Un dilema de datos de Google

Dado que los modelos generativos también pueden usarse de manera indebida para generar contenido falso, odioso, explícito o dañino, Google dice que ha tomado varias medidas para minimizar estas preocupaciones. A través de pruebas internas, la compañía dijo que pudo hacer cumplir el filtrado de las indicaciones de texto de entrada y el filtrado del contenido de video de salida, pero advirtió que aún quedan varios desafíos importantes de seguridad y ética por resolver.

Imagen Video y su codificador de texto congelado T5-XXL fueron entrenados en «datos problemáticos». Si bien las pruebas internas muestran que se puede filtrar mucho contenido explícito y violento, Google dice que todavía hay prejuicios y estereotipos sociales que pueden ser difíciles de detectar y filtrar. Esta es una de las principales razones por las que Google ha decidido no publicar el modelo o su código fuente hasta que se disipen las preocupaciones.

¿IA generativa en Google y más allá?

De acuerdo a Dumitru Erhan, científico investigador de Google Brain, se están realizando esfuerzos para reforzar la investigación detrás de Phenaki, otro sistema de síntesis de video de Google, que puede convertir mensajes de texto detallados en videos de más de dos minutos; cuyo principal inconveniente es la menor calidad de vídeo.

El equipo que trabaja en Phenaki dijo que el modelo puede aprovechar los grandes conjuntos de datos de texto e imagen para generar videos, donde el usuario también puede narrar y cambiar dinámicamente las escenas.

Una tendencia de IA generativa que comenzó con texto a imagen y comenzó a hacer la transición de texto a video, también parece estar cambiando lentamente a texto 3D, con modelos como CLIP-Forge, un modelo de generación de texto a forma capaz de generar objetos 3D utilizando el aprendizaje de tiro cero.

«DreamFusion», la IA de texto a 3D de Google, lanzada la semana pasada, es otro gran ejemplo de IA generativa que avanza hacia un enfoque de síntesis 3D más agresivo. DreamFusion usa Imagen para optimizar una escena 3D.

La misión de VentureBeat es ser una plaza pública digital para que los tomadores de decisiones técnicas aprendan sobre la tecnología empresarial transformadora y realicen transacciones. Descubre nuestras sesiones informativas.





Source link

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *