La fábrica de muestras de Intel acelera la capacitación de aprendizaje mejorada en una sola PC


En un artículo preimpreso publicado esta semana en Arxiv.org, los investigadores de Intel Sample Factory describen un sistema que logra un alto rendimiento en experimentos para mejorar el aprendizaje: más de 10 5 Fotograma ambiente por segundo. A diferencia de los servidores distribuidos y las configuraciones de hardware que estos experimentos suelen requerir, Sample Factory está optimizado para configuraciones de una sola máquina para que los investigadores puedan lograr lo que los coautores llaman resultados "sin precedentes" en la capacitación de IA para videojuegos, robótica y otras áreas .

La formación de agentes de software de IA en simulación es la piedra angular de la investigación contemporánea sobre el aprendizaje mejorado. A pesar de la mejora en la eficiencia de muestreo de los métodos líderes, la mayoría sigue notoriamente hambrienta de datos e informática. El rendimiento ha aumentado en gran parte debido al mayor alcance de los experimentos. Los experimentos de miles de millones de dólares con entornos complejos se han convertido en algo bastante común, y los esfuerzos más progresivos han dado como resultado agentes que realizan billones de acciones en una sola sesión.

Sample Factory tiene como objetivo ser eficiente con un algoritmo llamado optimización de guía proximal asincrónica, que paraleliza agresivamente el entrenamiento y la agresión del agente y logra un rendimiento de hasta 130,000 FPS (que indica fotogramas ambientales por segundo aquí) en una PC estándar con una GPU Minimiza el tiempo de inactividad para todos los cálculos al asignar cada carga de trabajo a uno de los tres tipos de componentes: trabajador de implementación, trabajador de políticas y alumno. Estos componentes se comunican entre sí a través de un protocolo de cola rápida y una memoria de hardware compartida. La cola forma la base para una ejecución continua y asíncrona, y el siguiente paso de cálculo puede iniciarse inmediatamente siempre que haya algo en la cola que deba procesarse.

 Intel Sample Factory

VB Transform 2020 Online – 15-17 de julio. Únase a los principales líderes de IA: regístrese para la transmisión en vivo gratuita.

Para decirlo claramente, Sample Factory no permite experimentos que anteriormente no se podían llevar a cabo. Sin embargo, esto los acelera, haciéndolos más prácticos que antes para configuraciones de PC individuales. Incluso en entornos con múltiples agentes y una gran cantidad de agentes, Sample Factory puede generar y consumir más de 1 GB de datos por segundo a toda velocidad. Una actualización típica de un modelo toma menos de 1 milisegundo.

En experimentos en dos PC, una con una CPU de 10 núcleos y una GPU GTX 1080 Ti y una segunda con una CPU de clase de servidor de 36 núcleos y una sola RTX 2080 Ti, los investigadores evaluaron el rendimiento de Sample De fábrica en tres simuladores: Atari, VizDoom (un juego similar a la fatalidad para la investigación de IA) y DeepMind Lab (un entorno similar a Quake III). Informan que en la mayoría de los escenarios de entrenamiento después de 700 a 2,000 entornos, el sistema superó los métodos básicos y logró al menos 10,000 cuadros por segundo.

En una prueba, los investigadores utilizaron Sample Factory para capacitar a un agente para resolver un conjunto de 30 entornos a la vez. En otro caso, entrenaron a ocho agentes en escenarios de "Duelo" y "Combate a muerte" en VizDoom. Luego, los agentes derrotaron a los bots del juego en el nivel de dificultad más alto en el 100% de los juegos. Y en un tercer caso, tenían ocho agentes que luchaban entre sí para obtener 18 años de experiencia simulada. Esto permitió a estos agentes derrotar a 78 de los 100 bots con script.

  Fábrica de muestras

Arriba: Fábrica de muestras ejecutándose en tiempo real en el entorno VizDoom.

"Queremos democratizar profundamente [reinforcement learning] y hacer posible capacitar a poblaciones enteras de agentes en miles de millones de transiciones ambientales con hardware estándar generalmente disponible", escribieron los coautores. "Creemos que esta es un área importante de investigación porque puede beneficiar a cualquier proyecto que utilice modelos libres [reinforcement learning]. Con nuestra arquitectura de sistema, los investigadores pueden repetir sus ideas más rápido, acelerando el progreso en esta área. “

Sample Factory y los modelos de muestra están disponibles en GitHub.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *