DeepMind AI a appris à des personnages virtuels à jouer au football à partir de zéro

deepmind ai appris personnages virtuels jouer football a partir zero
| Ali Eslami (YouTube)
⇧ [VIDÉO]   Vous pourriez aussi aimer ce contenu partenaire

L’apprentissage automatique est en train de changer la façon de concevoir les systèmes d’intelligence artificielle. Il permet d’entraîner des modèles d’IA à partir d’ensembles de données et d’exemples, suite à quoi ces derniers s’améliorent eux-mêmes sans intervention externe. Des chercheurs de la société DeepMind, au Royaume-Uni, ont récemment conçu une IA capable d’entraîner, de façon partiellement autonome, des personnages virtuels à jouer au football à partir de zéro, en n’utilisant que des modèles et des exemples.

Au départ, les acteurs virtuels humanoïdes ne pouvaient effectuer que des mouvements maladroits et aléatoires, mais ils ont rapidement appris à utiliser leur corps et à courir, ainsi qu’à envoyer le ballon dans les buts adverses.

Pour permettre cela, les chercheurs de DeepMind (appartenant à Google) ont utilisé une série de méthodes d’IA pour développer les compétences de deux équipes de deux joueurs. Bien entendu, le modèle de jeu a été simplifié pour ce premier modèle. Par exemple, aucun arbitrage n’a eu lieu, et le ballon ne pouvait pas quitter le terrain (murs invisibles).

Un apprentissage automatique basé sur les vrais joueurs

Avant l’entraînement, les joueurs virtuels se tortillaient sur le terrain en faisant des mouvements ondulatoires et non dirigés. Une IA a appris aux joueurs à se lever et à courir en imitant les données de capture de mouvement recueillies auprès de vrais footballeurs.

Les joueurs numériques ont amélioré leurs capacités sur des tâches d’entraînement spécifiques — comme dribler pour suivre une cible ou shooter un ballon vers une cible — grâce à l’apprentissage par renforcement, qui fonctionne en récompensant les actions souhaitées. Ils ont ensuite été entraînés dans une série de matchs de 45 secondes. Les joueurs étaient récompensés lorsqu’ils marquaient des buts. Après 24 heures d’entraînement, les joueurs ont appris à courir rapidement, à garder la possession du ballon et à se relever après avoir été renversés.

Cependant, comme beaucoup de jeunes footballeurs, les joueurs entraînés couraient toujours après le ballon sans vraiment réfléchir. Ils avaient également tendance à dribler et à tirer pour eux-mêmes, plutôt que de travailler en équipe en se faisant des passes. Après un entraînement plus poussé — jusqu’à 10 jours —, les joueurs ont appris à réfléchir à leurs actions futures et à travailler en équipe. Par exemple, ils ont appris l’avantage de passer le ballon à l’endroit où se trouve un coéquipier.

infrastructure apprentissage deepmind joueurs foot virtuels
Infrastructure d’entraînement utilisée par les chercheurs. (A) Un orchestrateur central programme les rencontres agent-agent, agent-évaluateur à réaliser par les acteurs. Il reçoit les résultats des matchs simulés et met à jour sa matrice de gain, qui informe ensuite le processus d’optimisation. (B) Un grand nombre d’acteurs simulent des matchs à la réception du programme de simulation de matchs et se connectent aux serveurs d’inférence correspondants. (C) Les serveurs d’inférence reçoivent des demandes d’inférence simultanément d’un grand nombre d’acteurs et effectuent le calcul d’inférence pour chaque modèle, par lots. En fonction de la demande d’inférence, le serveur d’inférence peut envoyer des trajectoires d’expérience aux apprenants correspondants pour l’apprentissage. (D) Un ensemble d’apprenants accueille et met à jour en permanence les paramètres du réseau pour la population d’agents. © Siqi Liu et al.

Dans l’ensemble, il a fallu trois jours à l’ordinateur pour apprendre les règles et les mécanismes de base du football. Mais il y a des lacunes : les matchs n’utilisent que deux joueurs par équipe au lieu des 11 habituels, et ils n’utilisent pas toutes les règles standard. Les fautes n’existent pas et le terrain est entouré de murs invisibles.

« Bien qu’impressionnante, cette approche est loin d’être entièrement automatisée », déclare Sebastian Risi, de l’université informatique de Copenhague (Danemark), ajoutant qu’elle a nécessité un régime d’entraînement soigneusement conçu et des démonstrations de capture de mouvements. Toutefois, Risi estime qu’il s’agit d’un « défi ouvert et passionnant : comment pouvons-nous apprendre des tâches complexes comme le football de bout en bout grâce à des approches plus ouvertes qui découvriraient d’elles-mêmes les tremplins nécessaires ».

Vidéo résumant le projet :

Source : arXiv

Laisser un commentaire
Cliquez pour accéder à d'autres articles sur ce sujet.