AlphaZero es una versión generalista de AlphaGo Zero , un software de go (juego de estrategia abstracto chino) que ha sido adaptado para jugar al ajedrez y al shogi (ajedrez japonés). AlphaZero fue creado por Demis Hassabis de DeepMind , empresa perteneciente al grupo Google .
La 5 de diciembre de 2017, DeepMind publicó un artículo en la plataforma de prepublicación arXiv sobre AlphaZero, un programa que utiliza el enfoque generalizado de AlphaGo Zero . El estilo de juego de AlphaZero se desvía de las rutinas de juego regulares y requiere menos cálculo por movimiento en comparación con su competencia.
Según Deepmind, AlphaZero alcanzó en 24 horas un nivel de juego superior a los humanos en ajedrez, shogi e ir ganando a los campeones del mundo los programas Stockfish (ajedrez), Elmo (in) (shogi) y la versión 'AlphaGo Zero habiendo tenido tres días de entrenamiento.
El mismo mes, AlphaZero supera a la versión AlphaGo Zero (con 3 días de aprendizaje) 60 juegos a 40. Con 8 horas de práctica y 21 millones de juegos jugados contra él mismo, supera a la versión AlphaGo del partido contra Lee. Sedol en el ranking Elo .
Stockfish, el software campeón mundial de ajedrez, es derrotado después de 4 horas de aprendizaje y 44 millones de partidas jugadas. Sin embargo, a Stockfish se le prohibió usar sus bibliotecas de aperturas y terminaciones.
El programa de Elmo shogi está devastado después de dos horas de práctica y 24 millones de juegos.
AlphaZero ahora tiene una red neuronal continuamente actualizada y tiene reglas codificadas para establecer la investigación de hiperparámetros . Además, no ha sido programado para aprovechar las simetrías propias del juego de Go (posibilidades de reflejos y rotaciones), inexistentes en el juego de ajedrez, y puede tener en cuenta la posibilidad de empate (inexistente en el juego) .juego de go pero presente en el ajedrez).
En noviembre de 2019, DeepMind anuncia la realización de MuZero, un programa análogo que también aprende las reglas del juego (es decir, prueba los movimientos, y recibe como única información su legalidad, y el resultado (intermedio o final) de estos "movimientos" ); este programa puede jugar al ajedrez o ir tan bien como videojuegos como el de Atari, con rendimientos comparables o superiores a los de AlphaGo.