OpenAI n’a jamais revendiqué que ChatGPT est un système parfait, mais depuis son apparition, il s’est rapidement hissé au rang des meilleurs chatbots. Cependant, une étude récente menée par des chercheurs des universités de Stanford et de Californie à Berkeley, révèle que son modèle de langage, GPT-4, semble connaître un déclin de ses performances.
Ces résultats donnent du poids aux témoignages d’utilisateurs qui se sont récemment plaints de la dégradation de l’efficacité de cet outil. Depuis quelques semaines, les mécontentements à ce sujet se multiplient. Par ailleurs, selon une source, le nombre de visites sur le site web de ChatGPT aurait connu une baisse significative en juin, la première depuis son existence. Des rapports indiquent une diminution de 5,7% des visiteurs uniques, tandis que le temps passé sur le site a également chuté de 8,5%.
Une détérioration des performances
Une série d’expériences rigoureuses menées par les scientifiques a mis en évidence une baisse notable de la performance de ChatGPT entre mars et juin. Par exemple, en mars, GPT-4 parvenait à reconnaître un nombre premier avec une précision de 97,6 %, alors que ce taux a chuté à 2,4 % en juin. De manière surprenante, son prédécesseur, GPT-3.5, a démontré une amélioration, passant de 7,4 % à 86,8 %.
Les chercheurs ont également demandé à l’IA de résoudre un problème mathématique simple, et là encore, GPT-4 a montré un déclin notable, avec un taux de précision passant de 52 % en mars à 10 % en juin. GPT-3.5 n’a pas été épargné, avec une précision passant de 22 % à 2 %. Néanmoins, les deux modèles ont montré une certaine amélioration en matière de raisonnement visuel, bien que les taux de succès globaux dans ce domaine restent modérés.
De leur côté, les utilisateurs ont aussi expérimenté cette baisse de performance. De nombreuses voix se sont élevées sur le forum des développeurs d’OpenAI pour exprimer un certain mécontentement. Des fautes d’orthographe et de grammaire inattendues, une perte de contexte récurrente… Les griefs sont nombreux et posent des questions légitimes sur la fiabilité future de ChatGPT.
Suite à leurs observations, les chercheurs sont restés muets quant aux causes potentielles de cette détérioration des performances. Ils mettent cependant en doute les « améliorations » annoncées pour ces modèles.
« Nous n’avons pas rendu GPT-4 plus bête »…
Face aux inquiétudes grandissantes, Peter Welinder, vice-président des produits chez OpenAI, a pris la parole, non pas par le biais d’un communiqué officiel, mais via un tweet : « Non, nous n’avons pas rendu GPT-4 plus bête ». Ce démenti catégorique va à l’encontre des affirmations des utilisateurs insatisfaits. Welinder soutient que chaque nouvelle version de ChatGPT est conçue pour être plus performante que la précédente. Il suggère également que les défauts sont devenus plus apparents en raison de l’utilisation plus intense du chatbot. Il convient aussi de noter que GPT-4 est toujours en phase de développement, un fait qui pourrait expliquer certaines des incohérences observées.
No, we haven't made GPT-4 dumber. Quite the opposite: we make each new version smarter than the previous one.
Current hypothesis: When you use it more heavily, you start noticing issues you didn't see before.
— Peter Welinder (@npew) July 13, 2023
La situation est tendue. D’un côté, les utilisateurs expriment leur mécontentement, et de l’autre, OpenAI reste déterminée à défendre l’intégrité de ses produits. Tous les yeux sont maintenant tournés vers l’entreprise, dans l’attente d’une réponse plus formelle ou, idéalement, d’une amélioration notable de son produit phare. Avec l’arrivée de Bard de Google et peut-être bientôt du chatbot d’Apple, la menace des concurrents pourrait devenir plus sérieuse d’ici quelques mois.