Facebook lanza una herramienta de desarrollo de IA basada en NetHack

Los investigadores de Facebook creen que el juego Atari NetHack está bien diseñado para entrenar, probar y evaluar modelos de IA. Con este fin, han lanzado hoy el entorno de aprendizaje NetHack, una herramienta de investigación para evaluar la solidez y la generalización de las herramientas de aprendizaje de refuerzo.

 

Los juegos han sido un punto de referencia para la IA durante décadas. Pero las cosas realmente se pusieron en marcha en 2013, el año en que la filial de Google DeepMind demostró un sistema de inteligencia artificial que podía jugar Pong, Breakout, Space Invaders, Seaquest, Beamrider, Enduro y Q * bert en un nivel sobrehumano. Según personas como el cofundador de DeepMind, Demis Hassabis, los avances no solo mejoran el diseño del juego. Por el contrario, proporcionan información sobre el desarrollo de sistemas que algún día podrían diagnosticar enfermedades, predecir estructuras complejas de proteínas y tomografías computarizadas de segmento.

 

NetHack, publicado por primera vez en 1987, es más sofisticado de lo esperado. Desafía a los jugadores con más de 50 niveles de mazmorras a encontrar un amuleto mágico en el que tengan que usar cientos de artículos y luchar contra monstruos mientras luchan por intensas interacciones entre los dos. Los niveles en NetHack se generan de forma procesal y cada juego es diferente. Los investigadores de Facebook encuentran que los límites de generalización de la IA actual se prueban utilizando la última tecnología.

 

 

Otra ventaja de la arquitectura liviana de NetHack es que un mundo de arte ASCII por turnos y un motor de juego, principalmente escrito en C, captan su complejidad Se representan los píxeles, lo cual es importante para que los modelos puedan aprender rápidamente sin desperdiciar recursos computacionales para simular dinámicas o presentar observaciones.

De hecho, la capacitación de modelos avanzados de aprendizaje automático en la nube sigue siendo prohibitiva Yo querido. Según un informe reciente de Synced, el grover de la Universidad de Washington, que está diseñado para generar y detectar noticias falsas, costó $ 25,000 para entrenar en dos semanas. OpenAI recaudó $ 256 por hora para entrenar su modelo de lenguaje GPT-2, y Google gastó un estimado de $ 6,912 en capacitación de BERT, un modelo de transformador bidireccional que era de vanguardia para once tareas de procesamiento de lenguaje natural. redefinido

Por el contrario, una sola tarjeta gráfica de gama alta A es suficiente para entrenar a los agentes NetHack controlados por IA con el marco TorchBeast, que admite una mayor escala agregando tarjetas o máquinas gráficas adicionales, cientos de millones de pasos por día. Los agentes pueden experimentar miles de millones de pasos en el entorno de manera oportuna, mientras desafían los límites de las técnicas actuales de IA.

 Entorno de aprendizaje de Facebook NetHack

“NetHack es un desafío que está al límite de los métodos actuales, sin los costos informáticos de otros entornos de simulación desafiantes. Los agentes de Standard Deep [reinforcement learning] que actualmente trabajan en NetHack solo están investigando una fracción del juego completo de NetHack ”, dijeron investigadores de Facebook en un artículo publicado esta semana. «Para avanzar en este nuevo entorno desafiante, los agentes [reinforcement learning] tienen que ir más allá del aprendizaje con Tabula Rasa».

 

El entorno de aprendizaje NetHack consta de tres componentes: una interfaz de Python para NetHack usando el popular OpenAI Gym- API, un conjunto de tareas de referencia y un agente de referencia. También incluye siete tareas de referencia para medir el progreso del agente, que incluyen:

 

  • Escaleras: descender a niveles inferiores de la mazmorra
  • Conjunto: Cuida a tu mascota (mantenla viva y tómala más profundo con la mazmorra)
  • Alimentos: Encuentra fuentes de alimentos no tóxicos y cómelos para evitar morir de hambre.
  • Oro: recolecta oro en todo el calabozo explorador:
  • Observa la mayor cantidad de mazmorras posible.
  • Puntuación: Alcanza puntuaciones altas en el juego (por ejemplo, mata monstruos, desmonta, recoge oro)
  • Oráculo: alcanza un hito importante, el Oráculo (aparece de 4 a 9 niveles en la mazmorra).

Los coautores señalan que NetHack contiene una gran cantidad de recursos externos que esperan se utilicen para mejorar el rendimiento del agente. Por ejemplo, hay repositorios con datos repetidos de jugadores humanos de los que un modelo puede aprender directamente, así como recursos como el manual oficial de NetHack, el wiki de NetHack y videos en línea y debates en foros.

 

«Creemos que el aprendizaje de NetHack El entorno estimulará más investigaciones sobre estrategias de exploración robustas en [reinforcement learning]planificará con horizontes a largo plazo y transferirá conocimiento general de los recursos fuera de la simulación», continuaron los investigadores. “[It] ofrece… a los agentes mucha experiencia de la que pueden aprender, para que nosotros, como investigadores, podamos pasar más tiempo probando nuevas ideas en lugar de esperar los resultados. Además, creemos que esto democratiza el acceso de los investigadores con laboratorios más limitados sin comprometer la dificultad y la riqueza del medio ambiente. »

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *