El sistema de inteligencia artificial de DeepMind se abre paso a través de ciudades simuladas que nunca antes había visto


DeepMind dice que ha desarrollado un sistema que puede usar conocimientos previos para resolver tareas mientras busca nuevos conocimientos y planea usar ese conocimiento cuando se enfrenta a nuevas tareas. En un documento adoptado en la conferencia 2020 Computer Vision and Pattern Recognition (CVPR), los investigadores de la compañía describen un módulo de planificación de IA que procesa y, en su opinión, recuerdos episódicos (recuerdos de eventos cotidianos que pueden expresarse explícitamente) rendir mejor La próxima línea de base en términos de planificación y exploración es de dos a tres veces.

Un desafío importante en la IA es desarrollar un modelo que pueda penetrar en entornos desconocidos e ir a trabajar de inmediato. Por ejemplo, el robot doméstico Paragon usaría el conocimiento general de los hogares para encontrar suministros de limpieza y obtener información que espera sea útil, como: B. la posición de las canastas en las habitaciones que pasa. Luego podría usar el conocimiento recién adquirido (es decir, obstaculizar ubicaciones) para planificar soluciones para tareas futuras (por ejemplo, lavado) que resuelvan las tareas más rápido.

Desafortunadamente, incluso los modelos de memoria episódica de última generación pueden explorar, pero no planificar, posiblemente porque carecen de mecanismos para planificar con recuerdos. DeepMind afirma haber solucionado esto con un módulo novedoso, la Episodic Planning Network (EPN), que alienta a los agentes de IA a explorar y planificar de manera efectiva en entornos desconocidos.

EPN utiliza la auto atención, un método para calcular las relaciones entre cualquier número de elementos que no adopten ninguna estructura particular entre ellos. La EPN comienza con recuerdos episódicos que reflejan la experiencia previa en un escenario, y cada memoria contiene representaciones de la observación actual, la acción previa y la observación previa.

VB Transform 2020 en línea – 15.-17. Julio. Únase a los principales líderes de IA: regístrese para la transmisión en vivo gratuita.
  Navegación DeepMind AI

Arriba: DeepMinds Agent navega por entornos de ciudad virtual.

En un experimento que recuerda a la ciudad de Nueva York. Los investigadores de DeepMind navegaron la IA que Facebook proporcionó como una solución de código abierto hace dos años, y capacitaron a agentes de software basados ​​en EPN en One-Shot StreetLearn, una simulación de vecindarios del conjunto de datos StreetLearn Google puede escanear con imágenes reales a pie de calle. En One-Shot StreetLearn, usted define tareas seleccionando una ubicación y orientación hacia la cual el agente debe navegar desde su ubicación actual.

Proporcione solo una imagen que muestre la ubicación actual, una imagen que represente el destino y la capacidad de moverse hacia la izquierda, derecha o hacia adelante, los agentes basados ​​en EPN lograron con éxito 28.7 objetivos, según los coautores por episodio (más de 100 episodios consecutivos en promedio) en lugares que no conocían. También coincidieron con el número mínimo de pasos para completar nuevas tareas después de solo 15 a 20 tareas, y se generalizaron bien a vecindarios más grandes con una mayor cantidad de intersecciones, en comparación con el 77% de éxito con nueve intersecciones cinco sobre las tareas originales

"En los experimentos actuales, el agente podría tener éxito al planificar los estados observados", escribieron los investigadores. "Sin embargo, no hay nada que impida que las EPN planeen más allá de los estados de fe una capacidad crítica potencial para operar en entornos dinámicos y parcialmente observados … El trabajo futuro podría acercarse [problems] con tareas más amplias … y pruebas Hasta qué punto las EPN son efectivas para resolver clases más amplias de tareas. “

EPN se basa en el trabajo de navegación de la ciudad y el soñador existentes de DeepMind, quienes internalizan un modelo mundial y planean con anticipación para elegir acciones imaginando sus tareas a largo plazo. Más recientemente, el laboratorio Agent57 ha detallado, un sistema que usa memoria episódica para aprender una serie de pautas para la exploración y explotación. (Agent57 es uno de los primeros sistemas en superar a las personas en los 57 juegos de Atari en el registro del entorno de aprendizaje arcade).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *