Una tecnología radicalmente nueva permite que la IA aprenda prácticamente sin datos


El aprendizaje automático generalmente requiere toneladas de ejemplos. Para que un modelo de IA reconozca un caballo, debes mostrarle miles de imágenes de caballos. Esto hace que la tecnología sea computacionalmente intensiva y muy diferente del aprendizaje humano. Un niño a menudo solo necesita ver algunos ejemplos, o incluso uno, antes de poder verlo de por vida.

De hecho, los niños a veces no alguna Ejemplos para identificar algo. Cuando se les muestran fotos de un caballo y un rinoceronte y la afirmación de que un unicornio es algo intermedio, pueden reconocer a la criatura mítica en un libro de imágenes cuando la ven por primera vez.

Rhinoceros, un cruce entre un rinoceronte y un unicornio
Hmm … ok, no exactamente.

MS TECH / PIXABAY

En un nuevo artículo de la Universidad de Waterloo, Ontario, ahora se sugiere que los modelos de IA también deberían poder hacer esto, un proceso que los investigadores denominan aprendizaje de “menos de un disparo” o “LO-shot”. En otras palabras, un modelo de IA debería poder ver con precisión Más Objetos como el número de muestras sobre las que se entrenó. Esto podría ser un gran problema para un campo que se ha vuelto cada vez más caro e inaccesible a medida que los conjuntos de datos utilizados siguen aumentando.

Cómo funciona «menos de un» disparo de aprendizaje

Los investigadores demostraron por primera vez esta idea al experimentar con el popular conjunto de datos de visión por computadora MNIST. MNIST, que contiene 60.000 imágenes de entrenamiento con dígitos escritos a mano del 0 al 9, se usa ampliamente para probar nuevas ideas en el campo.

En un artículo anterior, los investigadores del MIT habían introducido una técnica para «destilar» enormes conjuntos de datos en pequeños y, como prueba de concepto, habían comprimido MNIST en solo 10 imágenes. Las imágenes no se seleccionaron del conjunto de datos original, sino que se desarrollaron y optimizaron cuidadosamente para contener una cantidad de información apropiada para el conjunto de información. Como resultado, si un modelo de IA se entrena solo en las 10 imágenes, podría lograr casi la misma precisión que un modelo entrenado en todas las imágenes del MNIST.

Dígitos escritos a mano entre 0 y 9 del registro MNIST.
Imágenes de muestra del conjunto de datos MNIST.

WIKIMEDIA

Diez imágenes que parecen absurdas pero que son las versiones destiladas del conjunto de datos del MNIST.
Las 10 imágenes «destiladas» por MNIST que pueden entrenar un modelo de IA para lograr un 94% de precisión en el reconocimiento de dígitos escritos a mano.

TONGZHOU WANG ET AL.

Los investigadores de Waterloo querían impulsar aún más el proceso de destilación. Si es posible reducir 60.000 imágenes a 10, ¿por qué no cinco? Se dieron cuenta de que el truco consistía en crear imágenes que mezclaran varios dígitos y luego introducirlos en un modelo de IA con letras híbridas o «suaves». (Piense en un caballo y un rinoceronte con rasgos parciales de unicornio).

«Cuando piensas en el número 3, también parece el número 8, pero no el número 7», dice Ilia Sucholutsky, estudiante de doctorado en Waterloo y autora principal del artículo. “Las etiquetas blandas intentan capturar estas funciones compartidas. En lugar de decirle a la máquina, «Esta imagen es el número 3», decimos, «Esta imagen es 60% el número 3, 30% el número 8 y 10% el número 0».

Los límites del aprendizaje LO-Shot

Después de que los investigadores utilizaron con éxito etiquetas blandas para lograr el aprendizaje LO-shot en MNIST, se preguntaron hasta dónde podría llegar esta idea. ¿Existe un límite en la cantidad de categorías que puede enseñarle a identificar un modelo de IA a partir de una pequeña cantidad de ejemplos?

Sorprendentemente, la respuesta parece ser no. Con etiquetas flexibles cuidadosamente diseñadas, incluso dos ejemplos podrían codificar teóricamente cualquier número de categorías. «Con dos puntos se pueden separar mil clases o 10,000 clases o un millón de clases», dice Sucholutsky.

Manzanas y naranjas en una tabla por peso y color.
Dibuja manzanas (puntos verdes y rojos) y naranjas (puntos naranjas) por peso y color.

ADAPTADO DE LA CUBIERTA DE DESLIZAMIENTO «MACHINE LEARNING 101» DE JASON MAYES

Los investigadores lo demuestran en su último trabajo mediante una investigación puramente matemática. Juegan con el concepto con uno de los algoritmos de aprendizaje automático más simples conocido como k-next vecinos (kNN) que clasifica los objetos mediante un enfoque gráfico.

Para entender cómo funciona kNN, tome la tarea de clasificar frutas como ejemplo. Si desea entrenar un modelo kNN para comprender la diferencia entre manzanas y naranjas, lo primero que debe hacer es seleccionar las funciones que desea usar para representar cada fruta. Quizás elijas el color y el peso, así que dale a los kNN un punto de datos para cada manzana y naranja con el color de la fruta como el valor xy el peso como el valor y. El algoritmo kNN luego traza todos los puntos de datos en un gráfico 2D y traza una línea de límite en el medio entre las manzanas y las naranjas. En este punto, el gráfico está claramente dividido en dos clases, y el algoritmo ahora puede decidir si los nuevos puntos de datos representan uno u otro en función del lado de la línea en el que se encuentran.

Para estudiar el aprendizaje de LO-shot utilizando el algoritmo kNN, los investigadores crearon una serie de pequeños conjuntos de datos sintéticos y desarrollaron cuidadosamente sus etiquetas blandas. Luego, hicieron que kNN dibujara las líneas de límite que vio y descubrieron que dividió con éxito el gráfico en más clases que puntos de datos. Los investigadores también tenían un gran control sobre dónde caían las líneas fronterizas. Con la ayuda de varias optimizaciones de las etiquetas suaves, pudieron conseguir que el algoritmo kNN dibujara patrones precisos en forma de flores.

Varios diagramas que muestran las líneas de contorno registradas por un algoritmo kNN.  Cada diagrama tiene cada vez más líneas de límites, todas ellas codificadas en pequeños conjuntos de datos.
Usando ejemplos resaltados, los investigadores entrenaron un algoritmo kNN para codificar líneas de límites cada vez más complejas y dividieron el diagrama en muchas más clases que puntos de datos. Cada una de las áreas coloreadas en las gráficas representa una clase diferente, mientras que los gráficos circulares junto a cada gráfica muestran la distribución de etiquetas suaves para cada punto de datos.

ILIA SUCHOLUTSKY ET AL.

Por supuesto, estas investigaciones teóricas tienen algunas limitaciones. Si bien la idea del aprendizaje LO-Shot debería trasladarse a algoritmos más complejos, la tarea de desarrollar los ejemplos con letras suaves se vuelve mucho más difícil. El algoritmo kNN es interpretable y visual, y permite a los humanos diseñar las etiquetas. Las redes neuronales son complicadas e impenetrables, lo que significa que puede que no lo sea. La destilación de datos que se utiliza para diseñar ejemplos de redes neuronales blandas también tiene un gran inconveniente: debe comenzar con un gran conjunto de datos para reducirlo a algo más eficiente.

Sucholutsky dice que ahora está trabajando en otras formas de construir estos pequeños conjuntos de datos sintéticos, ya sea que eso signifique diseñarlos a mano o usar un algoritmo diferente. Sin embargo, a pesar de estos desafíos de investigación adicionales, el documento proporciona las bases teóricas para el aprendizaje de disparos LO. «La conclusión depende del tipo de conjuntos de datos que tenga. Probablemente pueda obtener ganancias masivas en eficiencia», dice.

Esto es lo que más le interesa a Tongzhou Wang, un estudiante graduado del MIT que dirigió la investigación anterior sobre la destilación de datos. «El documento se basa en un objetivo realmente novedoso e importante: aprender modelos poderosos a partir de pequeñas cantidades de datos», dice sobre la contribución de Sucholutsky.

Ryan Khurana, investigador del Instituto de Ética de IA en Montreal, confirma este sentimiento: «Lo más importante es que aprender en menos de un disparo reduciría radicalmente los requisitos de datos para crear un modelo funcional». Esto podría ser lo que la IA podría hacer por las empresas y las industrias. más accesibles que se han visto obstaculizados por los requisitos de datos del campo. Esto también podría mejorar la protección de datos, ya que tendría que extraerse menos información de las personas para formar modelos útiles.

Sucholutsky insiste en que la investigación es temprana, pero está emocionado. Cada vez que presenta su trabajo a otros investigadores, su primera reacción es que la idea es imposible, dice. Cuando de repente se dan cuenta de que este no es el caso, se abre un mundo completamente nuevo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *