Los investigadores del MIT advierten que el aprendizaje profundo está llegando a límites informáticos
Nos estamos acercando a los límites informáticos del aprendizaje profundo. Este es el resultado de estudios de investigadores del Instituto de Tecnología de Massachusetts, Underwood International College y la Universidad de Brasilia, quienes encontraron en un estudio reciente que los avances en el aprendizaje profundo "dependen en gran medida del aumento de la potencia informática". Afirman que el progreso continuo requerirá métodos de aprendizaje profundo "dramáticamente" computacionalmente más eficientes, ya sea cambiando las técnicas existentes o por métodos nuevos, aún no descubiertos.
“Mostramos que el aprendizaje profundo no es computacionalmente intensivo, sino por diseño. La misma flexibilidad que lo hace excelente para modelar diferentes fenómenos y modelos expertos que cumplen en exceso también lo hace dramáticamente más intensivo en cómputo ", escribieron los coautores. "Sin embargo, encontramos que la carga informática real de los modelos de aprendizaje profundo escala más rápido que los límites inferiores teóricos (conocidos), lo que indica que podrían ser posibles mejoras significativas".
El aprendizaje profundo es la subárea de los algoritmos de aprendizaje automático, que están inspirados en la estructura y función del cerebro. Estos algoritmos, llamados redes neuronales artificiales, consisten en funciones (neuronas) que están dispuestas en capas que transmiten señales a otras neuronas. Las señales, que son el producto de los datos de entrada que se introducen en la red, se mueven de capa a capa y "sintonizan" la red lentamente, ajustando así la fuerza sináptica (pesos) de cada conexión. La red finalmente aprende a hacer predicciones extrayendo características del conjunto de datos e identificando tendencias entre muestras.
Los investigadores analizaron 1,058 artículos del servidor de preimpresión Arxiv.org y otras fuentes de referencia para determinar la relación entre el rendimiento de aprendizaje profundo y el cálculo comprender, en áreas particulares como la clasificación de imágenes, reconocimiento de objetos, responder preguntas, reconocimiento de entidades nombradas y traducción automática. Realizaron dos análisis separados de los requisitos computacionales que reflejan los dos tipos de información disponibles:
- cómputo por pase de red o el número de operaciones de punto flotante requeridas para un solo pase (es decir, ajuste de peso) en un modelo de aprendizaje profundo dado.
- Carga de hardware o la potencia de cálculo del hardware utilizado para entrenar el modelo, calculado como el número de procesadores multiplicado por la velocidad de cálculo y el tiempo. (Los investigadores reconocen que aunque esta es una medida inexacta del cálculo, se informó con mayor frecuencia en el trabajo que analizaron que en otros puntos de referencia).
Los coautores informan de todos los puntos de referencia con la excepción de "estadísticamente altamente significativo" La traducción automática de gradientes y "poder explicativo fuerte" del inglés al alemán, en la cual el poder de cómputo utilizado apenas varía. En particular, el reconocimiento de objetos, el reconocimiento de entidades con nombre y la traducción automática mostraron un fuerte aumento en la carga de hardware con una mejora relativamente pequeña en los resultados, con una potencia informática que explica el 43% de la variación en la precisión de la clasificación de imágenes en el popular benchmark ImageNet de código abierto.
Los investigadores estiman que tres años de mejora algorítmica corresponde a un aumento de diez veces en el poder de cómputo. "Tomados en conjunto, nuestros resultados dejan en claro que el progreso en los modelos de capacitación en muchas áreas de aprendizaje profundo depende de un fuerte aumento en la potencia informática utilizada", escriben. "Otra posibilidad es que una mejora algorítmica en sí misma requiera un aumento complementario en la potencia informática".
En el curso de su investigación, los investigadores también extrapolaron las proyecciones para comprender el poder de cómputo requerido para lograr varios puntos de referencia teóricos junto con los costos económicos y ambientales asociados. Incluso después de los cálculos más optimistas, reducir la tasa de error de clasificación de imagen en ImageNet 10 5 requeriría un mayor esfuerzo informático.

Arriba: Las proyecciones extrapoladas de los investigadores.
Un informe sincronizado estimó que el modelo Grover de la Universidad de Washington para detectar mensajes falsos costaba $ 25,000 para entrenar en aproximadamente dos semanas. Según los informes, OpenAI ha recaudado la friolera de $ 12 millones para entrenar su modelo de lenguaje GPT-3, y Google ha gastado un estimado de $ 6,912 para entrenar BERT, un modelo de transformador bidireccional que es de vanguardia para 11 tareas de procesamiento ha redefinido el lenguaje natural.
En junio del año pasado, investigadores de la Universidad de Massachusetts en Amherst concluyeron que la cantidad de energía requerida para entrenar y buscar un modelo en particular incluía la emisión de aproximadamente 626,000 libras de dióxido de carbono. Esto es casi cinco veces las emisiones de por vida de un automóvil estadounidense promedio.
"No asumimos que los requisitos informáticos de los objetivos … los costos de hardware, medioambientales y monetarios serían prohibitivos", escribieron los investigadores. "Para hacer esto económicamente, se requiere hardware más eficiente, algoritmos más eficientes u otras mejoras, por lo que el impacto neto es una gran victoria".
Los investigadores encuentran que existe un precedente histórico para mejoras profundas de aprendizaje a nivel algorítmico. Apuntan a la aparición de aceleradores de hardware, como las unidades de procesador tensor de Google, los arreglos de compuerta programables en campo (FPGA) y los circuitos integrados específicos de la aplicación (ASIC), así como los intentos de reducir la complejidad computacional a través de las técnicas de compresión y aceleración de la red. También citan la búsqueda de arquitecturas neuronales y metaaprendizaje, en las que la optimización se utiliza para encontrar arquitecturas que funcionen bien para una clase de problemas como formas de métodos de mejora computacionalmente eficientes.
Un estudio de OpenAI sugiere que se requiere un esfuerzo computacional. El entrenamiento de un modelo de IA para el mismo rendimiento al clasificar imágenes en ImageNet se ha reducido en un factor de 2 cada 16 meses desde 2012. La arquitectura de transformadores de Google superó a un modelo de vanguardia anterior, seq2seq, que también fue desarrollado por Google, con 61 veces menos esfuerzo informático tres años después de la introducción de seq2seq. Y AlphaZero de DeepMind, un sistema que aprendió desde cero a dominar el ajedrez, el shogi y el go, tomó ocho veces menos tiempo de computación para igualar un año después con una versión mejorada de su predecesor, AlphaGoZero.
"La explosión de la potencia informática para los modelos de aprendizaje profundo ha puesto fin al" invierno de la IA "y ha establecido nuevos estándares para el rendimiento de la computadora en una variedad de tareas. Sin embargo, el enorme apetito de Deep Learning por la potencia informática limita la medida en que se puede mejorar el rendimiento en su forma actual, particularmente en un momento en que la mejora en el rendimiento del hardware se está ralentizando ", escriben los investigadores. "Los efectos probables de estos límites computacionales obligan … el aprendizaje automático a técnicas que son computacionalmente más eficientes que el aprendizaje profundo".