AlphaZero

AlphaZero es una versión generalista de AlphaGo Zero , un software de go (juego de estrategia abstracto chino) que ha sido adaptado para jugar al ajedrez y al shogi (ajedrez japonés). AlphaZero fue creado por Demis Hassabis de DeepMind , empresa perteneciente al grupo Google .

Histórico

La 5 de diciembre de 2017, DeepMind publicó un artículo en la plataforma de prepublicación arXiv sobre AlphaZero, un programa que utiliza el enfoque generalizado de AlphaGo Zero . El estilo de juego de AlphaZero se desvía de las rutinas de juego regulares y requiere menos cálculo por movimiento en comparación con su competencia.

Según Deepmind, AlphaZero alcanzó en 24 horas un nivel de juego superior a los humanos en ajedrez, shogi e ir ganando a los campeones del mundo los programas Stockfish (ajedrez), Elmo  (in) (shogi) y la versión 'AlphaGo Zero habiendo tenido tres días de entrenamiento.

El mismo mes, AlphaZero supera a la versión AlphaGo Zero (con 3 días de aprendizaje) 60 juegos a 40. Con 8 horas de práctica y 21 millones de juegos jugados contra él mismo, supera a la versión AlphaGo del partido contra Lee. Sedol en el ranking Elo .

Stockfish, el software campeón mundial de ajedrez, es derrotado después de 4 horas de aprendizaje y 44 millones de partidas jugadas. Sin embargo, a Stockfish se le prohibió usar sus bibliotecas de aperturas y terminaciones.

El programa de Elmo shogi está devastado después de dos horas de práctica y 24 millones de juegos.

AlphaZero ahora tiene una red neuronal continuamente actualizada y tiene reglas codificadas para establecer la investigación de hiperparámetros . Además, no ha sido programado para aprovechar las simetrías propias del juego de Go (posibilidades de reflejos y rotaciones), inexistentes en el juego de ajedrez, y puede tener en cuenta la posibilidad de empate (inexistente en el juego) .juego de go pero presente en el ajedrez).

En noviembre de 2019, DeepMind anuncia la realización de MuZero, un programa análogo que también aprende las reglas del juego (es decir, prueba los movimientos, y recibe como única información su legalidad, y el resultado (intermedio o final) de estos "movimientos" ); este programa puede jugar al ajedrez o ir tan bien como videojuegos como el de Atari, con rendimientos comparables o superiores a los de AlphaGo.

Bibliografía

Referencias

  1. (en) David Silver et al "  Mastering Ajedrez y Shogi por Self-Play con un refuerzo general Algoritmo de Aprendizaje  ",5 de diciembre de 2017.
  2. (in) "  Todo el conocimiento del ajedrez humano aprendido y superado por las horas AlphaZero de Deepmind en el horno  " en The Telegraph .co.uk
  3. Thierry Noisette, "  Una inteligencia artificial vence a la mejor IA en el ajedrez, go y shogi  " , en L'Obs (consultado el 24 de septiembre de 2020 )
  4. Grégory Rozières, "  Campeón de ajedrez de IA de Google, el juego de go y shogi sin entrenamiento especial  " , en Le HuffPost ,6 de diciembre de 2018(consultado el 24 de septiembre de 2020 )
  5. El programa AlphaZero de Google supera a Stockfish a toda velocidad
  6. Marc Zaffagni, "  AlphaZero: Google DeepMind's AI Becomes Unbeatable at Chess  " , en Futura Tech (consultado el 11 de diciembre de 2018 )
  7. DeepMind presenta MuZero .

Artículos relacionados

enlaces externos

Ejemplos de juegos de go Ejemplos de juegos de ajedrez Ejemplos de piezas de shogi