El motor de texto a imagen de OpenAI, DALL-E, es un poderoso generador de ideas visuales


Érase una vez en Silicon Valley, ingenieros de varias empresas de electrónica juguetearon con sus bancos y crearon nuevos inventos. Este retoque se hizo al menos en parte para mostrárselo al ingeniero en el banco de al lado para que ambos pudieran apreciar el ingenio e inspirar a otros. Parte de ese trabajo finalmente se convirtió en productos, pero gran parte no lo hizo. Esa ineficiencia, que persistió hasta fines de la década de 1980, ha sido reemplazada en gran medida (primero por los mostradores de frijoles y luego por el personal de marketing) y el desarrollo del producto se ha desplazado en cambio a las necesidades percibidas del cliente.

Los mensajes de OpenAI de la semana pasada a través de DALL-E, una red neuronal avanzada para inteligencia artificial que genera imágenes a partir de mensajes de texto, son un recordatorio de aquellos tiempos anteriores. El equipo de OpenAI reconoció en su publicación de blog que no hay una aplicación definida en la que estaban pensando y que la tecnología puede tener implicaciones sociales desconocidas y desafíos éticos. Sin embargo, al igual que estos inventos anteriores, el equipo de ingenieros sabe que DALL-E es una maravilla.

OpenAI eligió el nombre DALL-E como la punta del sombrero del artista Salvador Dalí y WALL-E de Pixar. Produce imágenes pastiche que reflejan tanto el surrealismo de Dalí, que combina el sueño y la fantasía con el mundo racional cotidiano, como la inspiración de las pinturas de la NASA de los años 50 y 60 y las de Disneyland Tomorrowland de Disney Imagineers.

Arriba: Los estilos respectivos de Salvador Dalí y Pixar Animation Studios WALL-E.

Que DALL-E sea una síntesis de surrealismo y animación no debería sorprender, como se hizo antes. Dalí y Walt Disney trabajaron en un corto de animación de 1946, aunque tardó más de 50 años en publicarse. Llamada Destino, la película fusionó los estilos de dos mentes legendarias e ingeniosas.

Arriba: Destino, la colaboración entre Dalí y Walt Disney.

DALL-E es una versión de 12 mil millones de parámetros de la red GPT-3 de 175 mil millones de parámetros para el procesamiento del lenguaje natural. GPT-3 «aprende» basándose en patrones que descubre en datos tomados de Internet, desde publicaciones de Reddit hasta Wikipedia, fan fiction y otras fuentes. Basado en este aprendizaje, GPT-3 es capaz de realizar muchas tareas diferentes sin entrenamiento adicional, para crear y generar narrativas convincentes. Codigo de computadora, traducir entre idiomas y realizar cálculos matemáticos, incluida la finalización automática de imágenes, entre otras cosas.

Con DALL-E, OpenAI ha refinado GPT-3 para enfocarse y extender la manipulación de conceptos visuales a través del lenguaje. Está capacitado para generar imágenes a partir de descripciones de texto utilizando un conjunto de datos de pares de texto e imagen. Tanto GPT-3 como DALL-E son «transformadores», una red neuronal que es fácil de paralelizar y se puede escalar y entrenar para grandes cantidades de datos. DALL-E no es la primera red de texto a imagen, ya que esta síntesis ha sido un área de investigación activa desde 2016.

El blog de OpenAI, que anuncia DALL-E, afirma que brinda acceso a un subconjunto de las capacidades de un motor de renderizado 3D, software que utiliza las capacidades de las tarjetas gráficas para generar imágenes que se muestran o en pantallas impresas en una página, en lenguaje natural. . Los arquitectos los utilizan para visualizar edificios. Los arqueólogos pueden recrear estructuras antiguas. Los anunciantes y diseñadores gráficos los utilizan para obtener resultados más llamativos. También se utilizan en videojuegos, arte digital, educación y medicina para brindar experiencias más inmersivas. La compañía continúa afirmando que, a diferencia de un motor de renderizado 3D cuyas entradas deben ser claras y detalladas, DALL-E a menudo puede «completar los espacios en blanco» cuando el mensaje implica que la imagen es un detalle específico que no necesita contener explícitamente .

Por ejemplo, DALL-E puede combinar diferentes ideas para sintetizar objetos, algunos de los cuales es poco probable que existan en el mundo real, como este ejemplo incongruente en el que se juntan un caracol y un arpa.

Arriba: DALL-E interpreta el mensaje “Un caracol de un arpa. Un caracol con textura de arpa. «

“Llenar los huecos” es particularmente interesante ya que sugiere nuevas capacidades: fenómenos inesperados que surgen de sistemas complejos. La conciencia humana es el ejemplo emergente clásico, una propiedad del cerebro que resulta de comunicar información en todas las regiones. De esta manera, DALL-E es el siguiente paso en la misión de OpenAI de desarrollar inteligencia artificial general que beneficie a la humanidad.

¿Cómo podría DALL-E beneficiar a la humanidad?

El blog de la compañía menciona específicamente el diseño como un posible caso de uso. Por ejemplo, un mensaje que dice “Un sillón con forma de aguacate. Un sillón que imita un aguacate ”, dan como resultado las siguientes imágenes:

El mensaje «Un maniquí de mujer con una chaqueta de cuero negra y una falda plisada dorada» da lo siguiente.

Y el mensaje: “Un dormitorio tipo loft con una cama blanca junto a una mesita de noche. Hay un acuario al lado de la cama «da como resultado lo siguiente:

En cada uno de los ejemplos anteriores, DALL-E muestra creatividad y produce imágenes conceptuales útiles para el producto, la moda y el diseño de interiores. Solo he mostrado un subconjunto de las imágenes tomadas para cada una de las indicaciones, pero coinciden mejor con los requisitos. Y muestran claramente que DALL-E puede apoyar la lluvia de ideas creativa o mejorar a los diseñadores humanos, ya sea con ideas para empezar o algún día con la creación de imágenes conceptuales finales. El tiempo dirá si esto reemplaza a las personas que realizan estas tareas o es simplemente otra herramienta para aumentar la eficiencia y la creatividad.

Una ayuda psicologica

En respuesta a otra demostración de DALL-E (a continuación) que pedía «una ilustración de un rábano daikon bebé con un tutú paseando a un perro» en el aviso, una entrada reciente en el boletín comienza «Lo bueno»: «Un daikon bebé rábano en un tutú que pasea a un perro. La frase me hace sonreír. La idea me hace sonreír. Y las ilustraciones generadas por un nuevo modelo de inteligencia artificial son posiblemente las únicas cosas que sostienen mi cordura por sí solo. «

El redactor del boletín puede estar interesado en algo importante. La relación entre la creación de arte y la salud mental positiva es bien conocida. Engendró el campo de la arteterapia, y la visualización ha sido durante mucho tiempo un pilar de la psicoterapia. El profesor de arteterapia Girija Kaimal señala: «Cualquier cosa que involucre a su mente creativa, la capacidad de hacer conexiones entre cosas no relacionadas e imaginar nuevas formas de comunicación, es bueno para usted». Esto se aplica a cualquier expresión creativa visual: dibujo, pintura, fotografía, collages, escritura de poesía, etc. Esto puede extenderse a la interacción con DALL-E, ya sea para crear algo nuevo o simplemente para una sonrisa, o quizás lo más importante para una perspectiva terapéutica, para expresar un sentimiento en palabras visualice inmediatamente.

Video sintético a pedido

Dado que DALL-E ya proporciona algunas de las funciones del motor de renderizado 3D a través de la entrada de lenguaje natural, el sistema puede crear guiones gráficos rápidamente. Es concebible que se puedan crear videos completamente sintéticos basados ​​en una secuencia de instrucciones de texto. En el mejor de los casos, esto puede resultar en una creación de animaciones más eficiente.

El desarrollo de DALL-E se remonta a la época en que los ingenieros desarrollaban un producto sin una clara señal de marketing. Ilya Sutskever, científico jefe de OpenAI, habla sobre la fusión del lenguaje y la visión y cree que la capacidad de procesar texto e imágenes juntos debería hacer que los modelos de IA sean más inteligentes. Si puede exponer los modelos a los datos de la misma manera que los humanos los absorben, los modelos deberían aprender los conceptos de manera que sean más similares a los humanos y más útiles para un mayor número de personas. DALL-E es un importante paso adelante en esta dirección.

Gary Grossman es vicepresidente senior de práctica tecnológica en Edelman y líder global del centro de excelencia de inteligencia artificial de Edelman.

VentureBeat

La misión de VentureBeat es ser una plaza de la ciudad digital para que los responsables de la toma de decisiones tecnológicas obtengan conocimientos sobre tecnología y transacciones transformadoras. Nuestro sitio web proporciona información importante sobre tecnologías y estrategias de datos para ayudarlo a administrar su negocio. Te invitamos a convertirte en miembro de nuestra comunidad y acceder a:

  • información actual sobre los temas de su interés
  • nuestros boletines
  • contenido privado de líderes de opinión y acceso con descuento a nuestros valiosos eventos como Transform
  • Funciones de red y más

conviértete en miembro



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *