La competencia BASALT Minecraft tiene como objetivo avanzar en el aprendizaje por refuerzo


El 12 de julio, asista a la Cumbre de tecnología de automatización AI / ML en Transform 2021, con los principales proveedores de tecnología de datos e inteligencia artificial. Regístrese hoy.


El aprendizaje por refuerzo profundo, una rama del aprendizaje automático que combina el aprendizaje por refuerzo y el aprendizaje profundo, utiliza lo que se conoce como función de recompensa y aprende a maximizar la recompensa general esperada. Esto funciona muy bien y permite a los sistemas descubrir cómo resolver el Cubo de Rubik, vencer a los campeones mundiales de ajedrez y mucho más. Pero los algoritmos existentes tienen un problema: implícitamente requieren acceso a una especificación perfecta. En realidad, las tareas no están empaquetadas con recompensas; esas recompensas provienen de diseñadores de recompensas humanos imperfectos. Y puede resultar difícil traducir las preferencias conceptuales en funciones de recompensa que los entornos puedan calcular.

Para resolver este problema, investigadores de DeepMind y la Universidad de California, Berkeley, lanzaron una competencia llamada BASALT, en la que el objetivo de un sistema de inteligencia artificial debe comunicarse a través de demostraciones, preferencias o alguna otra forma de retroalimentación humana. Basado en Minecraft, los sistemas en BASALT tienen que aprender los detalles de ciertas tareas a partir de la retroalimentación humana y elegir entre una variedad de acciones.

BASALTO

Investigaciones recientes han sugerido algoritmos que permiten a los diseñadores comunicar de forma iterativa detalles sobre las tareas. En lugar de recompensas, aprovechan los nuevos tipos de retroalimentación, como demostraciones, preferencias, correcciones y más, y evocan retroalimentación dando los primeros pasos en planes tentativos y viendo a la gente intervenir, o haciendo preguntas a los diseñadores.

Pero no existen puntos de referencia para evaluar algoritmos que aprenden de la retroalimentación humana. Un estudio típico toma un punto de referencia existente para el aprendizaje por refuerzo profundo, elimina las recompensas, entrena un sistema con su mecanismo de retroalimentación y evalúa el rendimiento de acuerdo con la función de recompensa ya existente. Esto es problemático. Por ejemplo, en el juego Atari de Breakout, que a menudo se usa como punto de referencia, un sistema debe devolver la pelota con la paleta o perderla. Un buen desempeño en Breakout no significa necesariamente que el algoritmo haya dominado la mecánica del juego. Es posible que haya aprendido una heurística más simple como «no mueras».

Minecraft BASALTO

En el mundo real, los sistemas no están dirigidos a una tarea obvia antes que nadie. Por esta razón, BASALT ofrece una variedad de tareas y descripciones de tareas, así como información sobre el inventario del jugador, pero no recompensas. Por ejemplo, una misión llamada MakeWaterfall tiene elementos del juego que incluyen un cubo de agua, un pico de piedra, una pala de piedra y un adoquín, junto con la descripción: «Después de desovar en una zona montañosa, el agente debe construir una hermosa cascada y luego reposicionarse. alrededor de una pintoresca imagen de la misma Hacer cascada. La imagen de la cascada se puede capturar apuntando la cámara y luego lanzando una bola de nieve cuando pueda ver la cascada en un buen ángulo «.

BASALT permite a los diseñadores utilizar cualquier mecanismo de retroalimentación para crear sistemas que hagan el trabajo. El punto de referencia registra las trayectorias de dos sistemas diferentes en un entorno particular y le pide a un ser humano que decida cuál de los agentes hizo mejor el trabajo.

Trabajo futuro

Los investigadores dicen que BASALT ofrece una serie de ventajas sobre los puntos de referencia existentes, incluidos objetivos razonables, grandes cantidades de datos y evaluaciones sólidas. En particular, argumentan que Minecraft se adapta bien a la tarea, ya que hay miles de horas de juego en YouTube que los competidores podrían usar para entrenar un sistema. Además, las características de Minecraft son fáciles de entender, dicen los investigadores, con herramientas que funcionan de manera similar a las herramientas del mundo real y tienen objetivos simples como construir un refugio y obtener suficiente comida para evitar pasar hambre.

BASALT también está diseñado para que se pueda utilizar con un presupuesto limitado. El código viene con un sistema base que se puede entrenar en una sola GPU en cuestión de horas, dijo Rohin Shah, investigador de DeepMind y gerente de proyectos de BASALT.

“Esperamos que BASALT sea utilizado por todos los que quieran aprender de la retroalimentación humana, ya sea que estén trabajando en el aprendizaje por imitación, aprendiendo de las comparaciones o con algún otro método. Mitiga muchos de los problemas con los puntos de referencia estándar utilizados en el campo. Hay muchas fallas obvias en la línea de base actual que esperamos que la comunidad de investigación resuelva pronto ”, escribió Shah en una publicación de blog. “Prevemos agentes en desarrollo que puedan recibir instrucciones para realizar cualquier tarea de Minecraft en lenguaje natural en servidores públicos multijugador, o para deducir en qué proyecto principal están trabajando los jugadores humanos y ayudar con esos proyectos mientras cumplen las normas y prácticas seguidas. «Servidor.»

El código de evaluación de BASALT estará disponible como beta en breve. El equipo ahora está aceptando registros y planea anunciar a los ganadores de la competencia en la Conferencia de aprendizaje automático NeurIPS 2021 en diciembre.

VentureBeat

La misión de VentureBeat es ser un mercado digital para que los responsables de la toma de decisiones tecnológicas obtengan conocimientos sobre tecnologías y transacciones transformadoras. Nuestro sitio web proporciona información esencial sobre tecnologías y estrategias de datos para ayudarlo a administrar su organización. Lo invitamos a convertirse en miembro de nuestra comunidad para obtener acceso:

  • información actualizada sobre los temas de su interés
  • nuestros boletines
  • contenido protegido de líderes de opinión y acceso con descuento a nuestros valiosos eventos, como Transformar 2021: Aprende más
  • Funciones de red y más

conviértete en miembro

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *