C’est un fait : les échecs ne sont pas un jeu facile. Mais pour l’intelligence artificielle (IA) de Google, cela n’aura pris que 4 heures à maîtriser. L’IA a ensuite battu l’un des meilleurs programmes d’échecs au monde.
Dans une nouvelle étude, les chercheurs de Google détaillent comment la dernière évolution de leur IA, Alpha Zero, a réussi à développer des « performances surhumaines » aux échecs, ne prenant que quatre heures pour apprendre toutes les subtilités du jeu, avant d’oblitérer l’un des meilleurs programmes d’échecs au monde, Stockfish. Stockfish a été conçu par des équipes de développeurs expérimentés, en collaboration avec les meilleurs joueurs d’échecs, et ce sur une longue période.
En d’autres termes, toute les connaissances de l’humanité concernant le jeu d’échecs, ont été absorbées et même dépassées par une IA, et ce en quelques heures seulement.
En effet, après avoir été programmée avec uniquement les règles du jeu d’échecs (mais sans stratégies !), c’est seulement en quatre heures que l’IA AlphaZero a su maîtriser le jeu à un point tel, qu’il lui a été possible de surpasser l’un des meilleurs programmes de jeu d’échecs jamais conçu (Stockfish).
Dans une série de 100 parties contre Stockfish, AlphaZero a remporté 25 parties en jouant en blanc (avec l’avantage de commencer en premier) et a remporté 3 parties en jouant en noir. Toutes les parties restantes se sont soldées par des matchs nuls, Stockfish n’enregistrant aucun gain et AlphaZero, aucune perte.
« Cela va sans doute révolutionner le jeu, mais pensez à comment cela pourrait être appliqué en dehors des échecs. Cet algorithme dirigerait des villes, des continents, des univers », a déclaré le chercheur en jeu d’échecs, David Kramaley, directeur de Chessable.
Développé par DeepMind de Google, l’IA AlphaZero est une version plus générique d’AlphaGo Zero, qui était spécialisée dans le jeu du Go. DeepMind a alors affiné cette IA durant des années, la faisant jouer (et gagner) contre des séries de champions humains, qui ont tous fléchis devant l’IA.
Cette série de victoires a abouti à un succès surprenant en octobre dernier, lorsqu’une version complètement autonome de l’IA, qui apprend uniquement en jouant avec elle-même (et jamais face à des êtres humains), a battu toutes les performances des précédentes IA.
En revanche, les prédécesseurs d’AlphaGo Zero apprennent en partie à jouer au jeu en observant les mouvements effectués par des joueurs humains. Cela visait principalement à aider l’IA dans sa stratégie d’apprentissage, mais il semble que cela ait pu être un handicap, puisque l’apprentissage entièrement autonome d’AlphaGo Zero s’est avéré plus dévastateur lors de compétitions individuelles. « C’est comme une civilisation étrangère qui invente ses propres mathématiques », a déclaré le scientifique Nick Hynes du MIT. « Ce que nous voyons ici est un modèle exempt de préjugés et de présomptions humaines. L’IA peut apprendre tout ce qu’elle détermine comme optimal, ce qui peut être plus nuancé que nos propres conceptions du même sujet », a-t-il ajouté.
Mais dans ce domaine, les choses évoluent si rapidement que l’accomplissement du mois d’octobre a pu être surpassé. Dans la nouvelle étude, l’équipe explique comment la toute dernière IA AlphaZero prend confiance en soi, un processus appelé renforcement par l’apprentissage et l’applique avec une tendance bien plus généralisée, ce qui lui offre une plus large focalisation sur la résolution des problèmes.
Cela signifie qu’AlphaZero ne joue pas seulement aux échecs. L’IA peut en effet également jouer au Shogi (aussi connu sous le nom d’échecs japonais) ainsi qu’au Go. Il ne lui aura fallu que respectivement 2 et 8 heures pour maîtriser ces deux jeux supplémentaires.
Pour l’instant, les scientifiques de DeepMind et de Google ne commentent pas publiquement la nouvelle recherche, qui n’a pas encore été évaluée par des pairs. Mais à partir des données déjà disponibles, nous pouvons sans autre affirmer que l’ascension vertigineuse de cet algorithme au sommet de l’intelligence artificielle est loin d’être terminée.