Passer au contenu

Comment l’IA de DeepMind est devenue imbattable aux échecs en seulement quatre heures

AlphaZero, la nouvelle version du programme champion de Go, est devenu imbattable aux échecs et au shogi à une vitesse ahurissante. Ce qui prouve que ses méthodes d’apprentissage peuvent être généralisées.

On savait que la machine était plus forte que l’homme aux échecs depuis l’échec de Kasparov face à Deep Blue en 1997. La société DeepMind, qui appartient à Alphabet, vient pourtant de réaliser une performance encore jamais vue dans ce domaine, de surcroît déjà largement balisé par les chercheurs. Elle présente aujourd’hui la dernière version de son intelligence artificielle, AlphaZero, dans un article scientifique qui vient d’être soumis pour publication sur le site arXiv.

Le réseau neuronal a appris à jouer aux échecs, mais aussi au shogi -une sorte de jeu d’échecs japonais avec un degré de complexité plus élevé- et enfin au Go. Il s’est d’abord entraîné contre lui-même. Il a alors surpassé le niveau de la star des programmes informatiques d’échecs Stockfish en seulement quatre heures. A battu aussi le maître artificiel de shogi Elmo en moins de deux heures. Et, enfin, a devancé AlphaGo Lee – l’IA qui avait battu Lee Sedol – au bout de huit heures. Il a ensuite été confronté directement à ces logiciels champions lors d’un tournoi extrêmement rapide en 100 parties. Il n’a pas gagné à chaque fois, concédant quelques défaites et matchs nuls, mais en est ressorti largement victorieux. En tout, il lui aura fallu 24 heures pour devenir le meilleur à ces trois jeux distincts.

Apprendre à partir de rien

Rappelons que la précédente mouture, AlphaGo Zero, avait prouvé au mois d’octobre dernier sa capacité à mettre KO toutes les intelligences artificielles championnes de Go en seulement 40 jours. AlphaZero repose sur un algorithme légèrement différent. « C’est une version plus générique », indique l’équipe de DeepMind dans son article. Elle n’a donc pas été conçue spécifiquement pour gagner au Go mais à n’importe quel jeu combinatoire. Avec toujours une configuration informatique très particulière puisque la société dispose d’une énorme capacité de calcul avec seulement 4 TPUs, des processeurs conçus pour les programmes d’apprentissage automatique. Comme pour AlphaGo Zero.

La méthode reste également la même. « Il s’agit de recourir à de l’apprentissage par renforcement non supervisé, c’est-à-dire à partir de rien », nous fait observer Tristan Cazeneuve, professeur à l’Université Paris Dauphine et expert en intelligence artificielle. Au lieu de se nourrir de millions de parties jouées par des humains pour en tirer des enseignements et imiter les coups les plus brillants, l’idée est de progresser « tabula rasa », c’est-à-dire uniquement en expérimentant et en jouant contre soi-même. Avec les règles des jeux pour seul postulat de départ. 

« Ce que DeepMind vient de prouver cette-fois, c’est sa capacité à généraliser son algorithme qu’il peut désormais envisager de réutiliser dans d’autres domaines », souligne encore Tristan Cazenave. Ce qui renforce l’espoir d’utiliser un jour un logiciel tiré de ces expérimentations dans l’énergie, les transports ou encore la bio-informatique.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Amélie Charnay