Este sillón de aguacate podría ser el futuro de la IA


A pesar de todo el estilo del GPT-3, su salida puede sentirse desconectada de la realidad, como si no supiera de qué está hablando. Eso es porque no lo es. Al justificar el texto en imágenes, los investigadores de OpenAI y otros lugares están tratando de brindar a los modelos de lenguaje una mejor comprensión de los conceptos cotidianos que las personas usan para comprender las cosas.

DALL · E y CLIP vienen de diferentes direcciones con este problema. A primera vista, CLIP (preentrenamiento de imagen y lenguaje de contraste) es otro sistema de reconocimiento de imágenes. Aparte del hecho de que ha aprendido a reconocer imágenes no a partir de ejemplos etiquetados en conjuntos de datos seleccionados, como lo hacen la mayoría de los modelos existentes, sino a partir de imágenes y sus etiquetas de Internet. Aprende lo que hay en una imagen a partir de una descripción y no de una etiqueta de una palabra como «gato» o «plátano».

CLIP se entrena prediciendo qué etiqueta de una selección aleatoria de 32,768 es la correcta para una imagen en particular. Para averiguarlo, CLIP aprende a asociar una variedad de objetos con sus nombres y las palabras que los describen. De esta forma, puede identificar objetos en imágenes fuera de su conjunto de entrenamiento. La mayoría de los sistemas de visión están entrenados para identificar ciertos tipos de objetos, p. Ej. B. Rostros en videos de vigilancia o edificios en imágenes de satélite. Al igual que GPT-3, CLIP puede generalizar tareas sin formación adicional. Además, es menos probable que otros modelos de reconocimiento de imágenes de vanguardia sean engañados por ejemplos contradictorios que se han alterado sutilmente de formas que normalmente confunden los algoritmos, aunque los humanos no noten la diferencia.

En lugar de reconocer imágenes, DALL · E (que considero un juego de palabras de WALL · E / Dali) las dibuja. Este modelo es una versión más pequeña de GPT-3, que también se entrenó para pares texto-imagen de Internet. Con una breve leyenda en lenguaje natural, como «una pintura de un capibara sentado en un campo al amanecer» o «una vista transversal de una nuez», DALL · E genera muchas imágenes que la acompañan: docenas de capibaras de todas las formas y tamaños sobre un fondo naranja y amarillo; Fila tras fila de nueces (aunque no todas en sección transversal).

Ponte surrealista

Los resultados son notables, aunque todavía mixtos. El título “Una ventana de vidrio con la imagen de una fresa azul” da muchos resultados correctos, pero también algunos con ventanas azules y fresas rojas. Otros no contienen nada que se parezca a una ventana o una fresa. Los resultados presentados en una publicación de blog por el equipo de OpenAI no fueron seleccionados a mano, sino que fueron calificados por CLIP, que seleccionó las 32 imágenes DALL · E para cada etiqueta que, en su opinión, se ajusta mejor a la descripción.

«Text-to-Image es un desafío de investigación que ha existido por un tiempo», dice Mark Riedl, que trabaja en PNL y creatividad informática en el Instituto de Tecnología de Georgia en Atlanta. «Pero este es un impresionante conjunto de ejemplos».

Imágenes dibujadas por DALL · E para el título «Un rábano daikon bebé con tutú paseando a un perro»

Para probar la capacidad de DALL · E para trabajar con conceptos novedosos, los investigadores agregaron títulos que describen objetos que creían que no se habrían visto antes, como: Por ejemplo, «un sillón de aguacate» y «una ilustración de un rábano daikon bebé en un tutú, el perro». En ambos casos, la IA generó imágenes que combinaban de manera plausible estos conceptos.

Los sillones en particular parecen sillas y aguacates. “Lo que más me sorprendió es que el modelo puede unir dos conceptos no relacionados de una manera que da como resultado algún tipo de función”, dice Aditya Ramesh, quien trabajó en DALL · E. Es probable que esto se deba a que un aguacate cortado a la mitad se parece un poco a una silla de respaldo alto, con el hueso como almohada. Para otros subtítulos, como B. «Un caracol hecho con arpa», los resultados son menos buenos porque las imágenes combinan caracoles y arpas de una manera extraña.

DALL · E es un sistema que Riedl imaginó para someterlo a la prueba Lovelace 2.0, un experimento mental que desarrolló en 2014. La prueba está destinada a reemplazar la prueba de Turing como punto de referencia para medir la inteligencia artificial. Se cree que un rasgo de la inteligencia es la capacidad de mezclar conceptos de forma creativa. Riedl sugiere que pedirle a una computadora que haga un dibujo de un hombre con un pingüino es una mejor prueba de inteligencia que pedirle a un chatbot que engañe a una persona porque es más abierta y menos propensa a hacer trampa. es.

“La verdadera prueba es ver hasta dónde se puede sacar a la IA de su zona de confort”, dice Riedl.

Imágenes dibujadas por DALL · E para el título «Caracol de arpa»

“La capacidad del modelo para generar imágenes sintéticas a partir de texto bastante extraño me parece muy interesante”, dice Ani Kembhavi del Instituto Allen de Inteligencia Artificial (AI2), quien también ha desarrollado un sistema que genera imágenes a partir de texto. «Los resultados parecen coincidir con la semántica que queríamos, lo que me parece bastante impresionante». Jaemin Cho, un colega de Kembhavi, también está impresionado: «Los generadores de texto a imagen existentes no mostraban este nivel de control al dibujar múltiples objetos o las habilidades de razonamiento espacial de DALL · E», dice.

Sin embargo, DALL · E ya está mostrando signos de tensión. Si incluye demasiados objetos en una etiqueta, será más fácil hacer un seguimiento de qué dibujar. Reformular una etiqueta con palabras que significan lo mismo a veces produce resultados diferentes. También hay evidencia de que DALL · E está imitando imágenes que encontró en línea en lugar de generar imágenes nuevas.

«Sospecho un poco del ejemplo de Daikon, que sugiere estilísticamente que puede haber aprendido arte de memoria en Internet», dice Riedl. Señala que una búsqueda rápida revela muchas imágenes de cómics de Daikons antropomorfizados. «GPT-3, en el que se basa DALL · E, es conocido por ser memorizado», dice.

Aún así, la mayoría de los investigadores de IA están de acuerdo en que anclar el lenguaje en la comprensión visual es una excelente manera de hacer que las IA sean más inteligentes.

“El futuro consistirá en estos sistemas”, dice Sutskever. Y ambos modelos son un paso hacia este sistema ”.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *