L’apprentissage automatique est en train de changer la façon de concevoir les systèmes d’intelligence artificielle. Il permet d’entraîner des modèles d’IA à partir d’ensembles de données et d’exemples, suite à quoi ces derniers s’améliorent eux-mêmes sans intervention externe. Des chercheurs de la société DeepMind, au Royaume-Uni, ont récemment conçu une IA capable d’entraîner, de façon partiellement autonome, des personnages virtuels à jouer au football à partir de zéro, en n’utilisant que des modèles et des exemples.
Au départ, les acteurs virtuels humanoïdes ne pouvaient effectuer que des mouvements maladroits et aléatoires, mais ils ont rapidement appris à utiliser leur corps et à courir, ainsi qu’à envoyer le ballon dans les buts adverses.
Pour permettre cela, les chercheurs de DeepMind (appartenant à Google) ont utilisé une série de méthodes d’IA pour développer les compétences de deux équipes de deux joueurs. Bien entendu, le modèle de jeu a été simplifié pour ce premier modèle. Par exemple, aucun arbitrage n’a eu lieu, et le ballon ne pouvait pas quitter le terrain (murs invisibles).
Un apprentissage automatique basé sur les vrais joueurs
Avant l’entraînement, les joueurs virtuels se tortillaient sur le terrain en faisant des mouvements ondulatoires et non dirigés. Une IA a appris aux joueurs à se lever et à courir en imitant les données de capture de mouvement recueillies auprès de vrais footballeurs.
Les joueurs numériques ont amélioré leurs capacités sur des tâches d’entraînement spécifiques — comme dribler pour suivre une cible ou shooter un ballon vers une cible — grâce à l’apprentissage par renforcement, qui fonctionne en récompensant les actions souhaitées. Ils ont ensuite été entraînés dans une série de matchs de 45 secondes. Les joueurs étaient récompensés lorsqu’ils marquaient des buts. Après 24 heures d’entraînement, les joueurs ont appris à courir rapidement, à garder la possession du ballon et à se relever après avoir été renversés.
Cependant, comme beaucoup de jeunes footballeurs, les joueurs entraînés couraient toujours après le ballon sans vraiment réfléchir. Ils avaient également tendance à dribler et à tirer pour eux-mêmes, plutôt que de travailler en équipe en se faisant des passes. Après un entraînement plus poussé — jusqu’à 10 jours —, les joueurs ont appris à réfléchir à leurs actions futures et à travailler en équipe. Par exemple, ils ont appris l’avantage de passer le ballon à l’endroit où se trouve un coéquipier.
Dans l’ensemble, il a fallu trois jours à l’ordinateur pour apprendre les règles et les mécanismes de base du football. Mais il y a des lacunes : les matchs n’utilisent que deux joueurs par équipe au lieu des 11 habituels, et ils n’utilisent pas toutes les règles standard. Les fautes n’existent pas et le terrain est entouré de murs invisibles.
« Bien qu’impressionnante, cette approche est loin d’être entièrement automatisée », déclare Sebastian Risi, de l’université informatique de Copenhague (Danemark), ajoutant qu’elle a nécessité un régime d’entraînement soigneusement conçu et des démonstrations de capture de mouvements. Toutefois, Risi estime qu’il s’agit d’un « défi ouvert et passionnant : comment pouvons-nous apprendre des tâches complexes comme le football de bout en bout grâce à des approches plus ouvertes qui découvriraient d’elles-mêmes les tremplins nécessaires ».
Vidéo résumant le projet :