Des neuroscientifiques identifient un second système d’apprentissage cérébral, susceptible d’expliquer la persistance des habitudes, y compris les plus tenaces. Si le système classique repose sur la prédiction de la récompense, ce nouveau mécanisme actualiserait la fréquence des actions, consolidant les habitudes qu’elles soient bénéfiques… ou non.
Les êtres humains comme les animaux orientent leurs choix à travers un apprentissage par essais et erreurs. Deux dynamiques s’y entremêlent : la quête de récompense et la tendance à répéter des actions passées. La première, fondée sur la valeur, mobilise les neurones dopaminergiques qui traitent ce que l’on nomme « l’erreur de prédiction de la récompense » (Reward Prediction Error, RPE). Ce signal permet d’indiquer à l’individu si l’action entreprise est avantageuse.
En parallèle, une seconde dynamique, davantage fondée sur le mouvement, favoriserait la répétition des comportements. L’hypothèse repose notamment sur l’observation des personnes atteintes de la maladie de Parkinson : elles rencontrent des difficultés à exécuter certains comportements automatisés, comme la marche, mais parviennent parfois à accomplir des gestes plus complexes et adaptatifs, tels que le patinage artistique, ce qui semble paradoxal.
Une équipe du Sainsbury Wellcome Centre (SWC), affiliée à l’University College de Londres, avance qu’une seconde voie dopaminergique pourrait expliquer ce phénomène. Baptisé « erreur de prédiction d’action » (Action Prediction Error, APE), ce signal constituerait un système d’apprentissage parallèle à la RPE, orientant les choix non en fonction de leur valeur, mais de leur fréquence.
Prenons un exemple : vous testez un nouveau restaurant. Si le plat vous plaît, vous y retournerez et commanderez le même plat, sans trop y réfléchir. Cette stratégie devient peu à peu votre mode de fonctionnement par défaut. C’est précisément ce comportement répétitif que le signal APE viendrait consolider.
« Nous pensons avoir identifié un mécanisme fondamental à l’origine des habitudes », explique dans un communiqué Marcus Stephenson-Jones, chef de groupe au SWC et auteur principal de l’étude. « Une fois qu’une action est préférée, le cerveau peut court-circuiter l’évaluation fondée sur la valeur pour s’en remettre à une politique par défaut, ancrée dans les comportements passés », ajoute-t-il.
Il est important de souligner que toutes les habitudes ne sont pas bénéfiques. Certaines, comme les comportements compulsifs ou les addictions, peuvent devenir néfastes. La mise en lumière de ce double système d’apprentissage pourrait, selon les auteurs, ouvrir de nouvelles pistes thérapeutiques, tant pour les troubles du comportement que pour les maladies neurodégénératives telles que la maladie de Parkinson.
Un double système d’apprentissage à l’œuvre
Les précédents travaux avaient identifié trois zones du mésencéphale où les neurones dopaminergiques interviennent dans l’apprentissage : l’aire tegmentale ventrale, la substance noire compacte et la substance noire latérale. La plupart participent au traitement de la récompense ; certains seraient impliqués dans la coordination du mouvement. Comment ces fonctions se répartissent et s’articulent restait jusqu’ici mal compris.
Il apparaît désormais que les neurones RPE projettent leurs signaux vers l’ensemble du striatum, à l’exception de sa « queue », une région postérieure. À l’inverse, les neurones impliqués dans les signaux moteurs couvrent tout le striatum, sauf le noyau accumbens, connu pour son rôle dans la récompense. Cette répartition anatomique semble confirmer une spécialisation fonctionnelle : le noyau accumbens traiterait exclusivement la valeur des récompenses, tandis que la queue du striatum interviendrait dans la répétition motrice.
Pour tester cette hypothèse, les chercheurs ont mené une série d’expériences sur des souris. Le striatum de certaines d’entre elles a été endommagé, d’autres servant de groupe témoin. Les rongeurs ont ensuite été entraînés à exécuter des tâches de discrimination auditive. Grâce à un capteur de dopamine génétiquement codé, les scientifiques ont pu observer la dynamique de libération du neurotransmetteur.
Les résultats révèlent un signal dopaminergique typique dans la queue du striatum, associé non pas à la récompense, mais à l’action répétée. Durant les premières étapes, les souris des deux groupes apprennent à la même vitesse. Mais à partir de 60 à 70 % de réussite – seuil où elles commencent à développer une préférence – les souris témoins progressent plus vite, jusqu’à atteindre un niveau dit « expert ». Les souris dont le striatum a été lésé continuent d’apprendre, mais sans cette accélération, ni préférence. « Les souris lésées n’utilisent que le signal RPE. Les autres disposent des deux : RPE et APE, ce qui leur permet d’ancrer plus solidement leurs choix », résume Marcus Stephenson-Jones.
Pour conforter cette analyse, les chercheurs ont désactivé la queue du striatum chez des souris ayant déjà atteint un haut niveau de performance. Leur efficacité a alors brutalement chuté. Cela suggère que cette région, via le signal APE, serait indispensable au maintien des associations stabilisées par la répétition.
Ce double système d’apprentissage pourrait expliquer pourquoi il est si ardu de se libérer de certaines habitudes, notamment lorsqu’elles ont été répétées pendant des années. Selon les auteurs, la substitution progressive par une autre action – répétée elle aussi – pourrait être la clé. Remplacer systématiquement la cigarette par un chewing-gum à la nicotine, par exemple, mobiliserait le système APE pour établir une nouvelle habitude qui supplante l’ancienne.
« Maintenant que l’on sait que ce second système existe, nous disposons d’un cadre scientifique pour concevoir de nouvelles approches thérapeutiques ciblant les habitudes néfastes », souligne Marcus Stephenson-Jones. « Jusqu’ici, la majorité des recherches sur les addictions ou les compulsions se concentraient sur le noyau accumbens. Nos travaux réorientent l’attention vers d’autres régions du cerveau, comme la queue du striatum, qui pourraient s’avérer décisives », conclut-il.
Un système par défaut libérant plus de ressources
L’un des apports majeurs de ce nouveau système serait de permettre un stockage plus économique de l’information. En évitant une comparaison constante entre plusieurs options, le cerveau pourrait consacrer ses ressources cognitives à des décisions plus complexes.
« Ce système par défaut permettrait de dégager de la bande passante cognitive, utile pour d’autres processus décisionnels fondés sur la valeur », avance Marcus Stephenson-Jones. Un exemple concret : après avoir appris à conduire, l’automobiliste peut se concentrer sur une conversation sans avoir à penser à chaque geste technique. L’équipe prévoit désormais d’étudier plus en détail la manière dont les systèmes APE et RPE interagissent, et comment chacun contribue à différents types d’apprentissage.