Facebook desarrolla un algoritmo de IA que aprende a jugar póker sobre la marcha



Los investigadores de Facebook desarrollaron un marco general de IA llamado Recursive Belief-based Learning (ReBeL), que creen que está haciendo por encima del promedio en el póquer heads-up sin límite Texas Hold'em mientras lo hace Poker AI usa menos conocimiento de dominio que antes. Afirman que ReBeL es un paso hacia el desarrollo de técnicas universales para las interacciones de múltiples agentes; en otras palabras, algoritmos generales que se pueden usar en configuraciones extensivas de múltiples agentes. Las aplicaciones potenciales van desde subastas, negociaciones y ciberseguridad hasta autos y camiones autónomos.

La combinación de aprendizaje mejorado con la búsqueda de entrenamiento en modelos de IA y tiempo de prueba ha llevado a una serie de avances. En el aprendizaje por refuerzo los agentes aprenden a alcanzar objetivos maximizando las recompensas, mientras que en buscar el proceso de navegación es desde un principio hasta un estado objetivo. Por ejemplo, AlphaMero de DeepMind utilizó un mayor aprendizaje y búsqueda para lograr un rendimiento avanzado en juegos de ajedrez, shogi y go. Sin embargo, el enfoque combinatorio sufre una degradación del rendimiento cuando se aplica a juegos de información incompletos como el póker (o incluso piedra-papel-tijera) porque hace una serie de suposiciones que no se aplican en estos escenarios. El valor de una acción particular depende de la probabilidad de ser seleccionado y, más generalmente, de la estrategia general del juego.

Los investigadores de Facebook sugieren que ReBeL ofrece una solución. ReBeL se basa en el trabajo que amplía el término "estado del juego" para incluir las creencias de los agentes sobre en qué podrían estar, según el conocimiento general y las pautas de otros agentes. ReBeL entrena dos modelos de IA: una red de valor y una red política – para los estados a través del aprendizaje de refuerzo de auto-juego. Utiliza ambos modelos para auto-búsqueda. El resultado es un algoritmo simple y flexible que los investigadores creen que es capaz de derrotar a los mejores jugadores humanos en juegos grandes con información incompleta de dos jugadores.


En un alto nivel, ReBeL trabaja con estados religiosos públicos en lugar de estados mundiales (es decir, el estado de un juego). Los Estados de creencias públicas (PBS) generalizan el término "valor estatal" a los juegos con información incompleta, como el póker. Un PBS es una distribución de probabilidad bien conocida sobre una secuencia finita de posibles acciones y estados, que también se conoce como historia . (Las distribuciones de probabilidad son funciones especializadas que indican la probabilidad de que ocurran varios resultados posibles). En los juegos con información perfecta, los PBS se pueden resumir en historias que efectivamente destilan en juegos de suma cero para dos jugadores en estados mundiales. Un PBS en el póker es la serie de decisiones que un jugador podría tomar y sus resultados en una mano, bote y fichas en particular.

  http://www.flickr.com/photos/seo/

ReBeL genera un "subjuego" al comienzo de cada juego que es idéntico al juego original, a menos que esté enraizado en un PBS inicial, y el algoritmo lo gana ejecutando iteraciones de un algoritmo de "búsqueda de equilibrio" y entrenándolo La red de valores se usa para aproximar los valores en cada iteración. A través del aprendizaje mejorado, los valores se descubren y se agregan como ejemplos de capacitación para la red de creación de valor, y las pautas en el subjuego se agregan opcionalmente como ejemplos para la red de políticas. El proceso se repite, con el PBS para nueva raíz del subjuego hasta la precisión e alcanzó un cierto umbral.


En experimentos, los investigadores compararon ReBeL con juegos de póquer Texas Hold'em sin límite, Liar & # 39; s Dice y Turn Endgame Hold & # 39; em, una variante de sin límite hold & # 39; em donde ambos jugadores revisan o desafían las dos primeras de cuatro rondas de apuestas. El equipo utilizó hasta 128 PC, cada una con ocho tarjetas gráficas, para generar datos de juego simulados, y aleatorizó los tamaños de apuesta y pila (de 5,000 a 25,000 fichas) durante el entrenamiento. ReBeL fue entrenado para todo el juego y tenía $ 20,000 para apostar contra su oponente en el hold'em de final de juego.

Los investigadores informan que ReBeL jugó contra Dong Kim, uno de los mejores jugadores de póquer mano a mano del mundo, jugó más de 7,500 manos más rápido que dos segundos por mano y nunca tomó más de cinco segundos para tomar una decisión. En general, dijeron que habían logrado 165 (con una desviación estándar de 69) milésimas de una ciega grande (apuesta forzada) por juego contra humanos en comparación con Libratus, el sistema de juego de póker anterior de Facebook, que alcanzó un máximo de 147 milésimas.

Por miedo a permitir el fraude, el equipo de Facebook decidió no publicar la base de código ReBeL para el póker. En cambio, proporcionaron su implementación para Liar & # 39; s Dice como una solución de código abierto, que en su opinión también es más fácil de entender y más fácil de personalizar. "Creemos que esto hace que el juego sea más adecuado como área de investigación", escribieron en un documento preliminar. "Si bien ya existen algoritmos de IA que pueden lograr un rendimiento sobrehumano en el póker, estos algoritmos generalmente asumen que los participantes tienen un cierto número de fichas o usan ciertos tamaños de apuesta. El reentrenamiento de los algoritmos para tener en cuenta cualquier pila de chips o tamaños de aplicación inesperados requiere más cálculos que los posibles en tiempo real. Sin embargo, ReBeL puede calcular una guía para cualquier tamaño de lote y cualquier tamaño de aplicación en segundos. "


Deja una respuesta

Tu dirección de correo electrónico no será publicada.