OpenAI enseña su modelo de lenguaje para clasificar y generar imágenes


En un artículo adoptado en la próxima conferencia de la Conferencia Internacional de Aprendizaje Automático (ICML) de 2020, los investigadores de OpenAI muestran que ciertos modelos de lenguaje AI entrenados en secuencias de píxeles pueden producir imágenes coherentes. Dicen que este es un paso pequeño pero significativo para comprender y cerrar la brecha entre la visión por computadora y la comprensión del lenguaje.

El aprendizaje auto supervisado o el aprendizaje sin datos identificados por humanos ha sido un desafío de larga data en el aprendizaje automático. Recientemente, modelos como BERT de Google, RoBERTa de Facebook y GPT-3 de OpenAI han tenido un buen desempeño en una serie de tareas de idiomas, pero la misma clase prometedora no ha tenido éxito en la generación o clasificación de imágenes.

Afortunadamente, los modelos de transformadores como GTP-3 son independientes del dominio, lo que significa que pueden aplicarse a secuencias de cualquier forma. OpenAI usó esto para entrenar una versión más pequeña de su modelo de lenguaje GPT-2 en datos de imagen. Los resultados muestran que el modelo comprende características tales como la apariencia de los objetos y las categorías, incluso sin un conocimiento codificado a mano. Las características del modelo logran un rendimiento de vanguardia con una gama de corpus de clasificación y una precisión casi desatendida.

  OpenAI iGPT

Arriba: Imágenes generadas por los modelos OpenAI iGPT.

Crédito de imagen: OpenAI

OpenAI entrenó tres versiones de modelos de generación de imágenes GPT-2: iGPT-S (con 76 millones de parámetros), iGPT-M (455 millones de parámetros) e iGPT-L (1.4 mil millones de parámetros) – en el popular corpus ImageNet y un modelo aún más grande llamado iGPT-XL (6,8 mil millones de parámetros) en una mezcla de ImageNet e imágenes de Internet. Luego redujeron las resoluciones de imagen y crearon su propia paleta de colores de 9 bits para representar píxeles, lo que resultó en una longitud de secuencia de entrada que es tres veces más corta que el espectro RGB estándar sin comprometer la precisión.

VB Transform 2020 en línea – 15.-17. Julio. Únase a los principales líderes de IA: regístrese para la transmisión en vivo gratuita.

Según OpenAI, los resultados muestran que la calidad de las características de la imagen aumentó bruscamente con la profundidad antes de disminuir ligeramente. Los investigadores creen que esto puede deberse al hecho de que los modelos basados ​​en transformadores funcionan en dos fases. En la primera fase, el modelo recopila información de su contexto circundante para crear características de imagen contextualizadas, y en la segunda fase, las características contextualizadas se utilizan para predecir los siguientes píxeles en las imágenes.

OpenAI también descubrió que tanto el aumento de la escala de los modelos como el entrenamiento para más iteraciones dieron como resultado una mejor calidad de imagen. Cuando las características se evaluaron utilizando los puntos de referencia CIFAR-10, CIFAR-100 y STL-10, excedieron las de todos los algoritmos de transmisión monitoreados y no supervisados.

  OpenAI iGPT

Arriba: El rendimiento de referencia de iGPT.

Crédito de la imagen: OpenAI

Sin embargo, OpenAI señala que su enfoque tiene limitaciones. Los modelos iGPT solo registran imágenes de baja resolución y tienen distorsiones que son el resultado de los datos en los que fueron entrenados, por ejemplo, el desarrollo de asociaciones de género y roles (es decir, "científico masculino"). También necesitan mucho tiempo y tiempo de computación para entrenar, alrededor de 2,500 días para iGPT-L en una tarjeta gráfica Nvidia V100. Por esta razón, según los investigadores, el trabajo sirve. “Los considerables costos de recursos para la capacitación de estos modelos y la mayor precisión de los métodos [existing] excluyen estas representaciones de aplicaciones reales prácticas en el campo de visión. [and] esperan que los desarrolladores presten cada vez más atención a los datos que ingresan en sus sistemas y que comprendan mejor cómo se relaciona con la distorsión en modelos entrenados ", escribieron. "[However, our] Los resultados sugieren que, debido a su simplicidad y generalidad, un transformador de secuencia con suficiente poder de cómputo podría ser una forma efectiva de aprender excelentes funciones en muchas áreas".

OpenAI ha afirmado durante mucho tiempo que las computadoras de alto rendimiento están asociadas con un aprendizaje mejorado y otras técnicas pueden hacer avances en la IA que cambian de paradigma. Según lo informado por MIT Technology Review a principios de este año, un equipo dentro de OpenAI llamado Foresight está experimentando para ver hasta qué punto pueden aumentar las habilidades de inteligencia artificial al entrenar algoritmos con cantidades crecientes de datos y potencia informática. Según el mismo informe, OpenAI está desarrollando un sistema que está capacitado en imágenes, texto y otros datos. Se utilizan amplios recursos informáticos, que en opinión de la gerencia son el camino más prometedor hacia la inteligencia general artificial (AGI) o IA, con el que cada tarea se puede aprender de forma humana.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *