D’après une étude, ChatGPT serait bel et bien devenu plus « stupide

OpenAI n’a jamais revendiqué que ChatGPT est un système parfait, mais depuis son apparition, il s’est rapidement hissé au rang des meilleurs chatbots. Cependant, une étude récente menée par des chercheurs des universités de Stanford et de Californie à Berkeley, révèle que son modèle de langage, GPT-4, semble connaître un déclin de ses performances.

Ces résultats donnent du poids aux témoignages d’utilisateurs qui se sont récemment plaints de la dégradation de l’efficacité de cet outil. Depuis quelques semaines, les mécontentements à ce sujet se multiplient. Par ailleurs, selon une source, le nombre de visites sur le site web de ChatGPT aurait connu une baisse significative en juin, la première depuis son existence. Des rapports indiquent une diminution de 5,7% des visiteurs uniques, tandis que le temps passé sur le site a également chuté de 8,5%.

Une détérioration des performances

Une série d’expériences rigoureuses menées par les scientifiques a mis en évidence une baisse notable de la performance de ChatGPT entre mars et juin. Par exemple, en mars, GPT-4 parvenait à reconnaître un nombre premier avec une précision de 97,6 %, alors que ce taux a chuté à 2,4 % en juin. De manière surprenante, son prédécesseur, GPT-3.5, a démontré une amélioration, passant de 7,4 % à 86,8 %.

Les chercheurs ont également demandé à l’IA de résoudre un problème mathématique simple, et là encore, GPT-4 a montré un déclin notable, avec un taux de précision passant de 52 % en mars à 10 % en juin. GPT-3.5 n’a pas été épargné, avec une précision passant de 22 % à 2 %. Néanmoins, les deux modèles ont montré une certaine amélioration en matière de raisonnement visuel, bien que les taux de succès globaux dans ce domaine restent modérés.

De leur côté, les utilisateurs ont aussi expérimenté cette baisse de performance. De nombreuses voix se sont élevées sur le forum des développeurs d’OpenAI pour exprimer un certain mécontentement. Des fautes d’orthographe et de grammaire inattendues, une perte de contexte récurrente… Les griefs sont nombreux et posent des questions légitimes sur la fiabilité future de ChatGPT.

Suite à leurs observations, les chercheurs sont restés muets quant aux causes potentielles de cette détérioration des performances. Ils mettent cependant en doute les « améliorations » annoncées pour ces modèles.

GPT 4 GPT 3 5 — Résultats de la série d’expériences menées par les chercheurs. © Lingjiao Chen , Matei Zaharia , James Zou

« Nous n’avons pas rendu GPT-4 plus bête »…

Face aux inquiétudes grandissantes, Peter Welinder, vice-président des produits chez OpenAI, a pris la parole, non pas par le biais d’un communiqué officiel, mais via un tweet : « Non, nous n’avons pas rendu GPT-4 plus bête ». Ce démenti catégorique va à l’encontre des affirmations des utilisateurs insatisfaits. Welinder soutient que chaque nouvelle version de ChatGPT est conçue pour être plus performante que la précédente. Il suggère également que les défauts sont devenus plus apparents en raison de l’utilisation plus intense du chatbot. Il convient aussi de noter que GPT-4 est toujours en phase de développement, un fait qui pourrait expliquer certaines des incohérences observées.

No, we haven't made GPT-4 dumber. Quite the opposite: we make each new version smarter than the previous one.

Current hypothesis: When you use it more heavily, you start noticing issues you didn't see before.

— Peter Welinder (@npew) July 13, 2023
Voir aussi
Technologie
·3 min de lecture
SpaceX entre dans l’histoire : le lanceur Falcon 9 a atterri sur sa plateforme maritime !

La situation est tendue. D’un côté, les utilisateurs expriment leur mécontentement, et de l’autre, OpenAI reste déterminée à défendre l’intégrité de ses produits. Tous les yeux sont maintenant tournés vers l’entreprise, dans l’attente d’une réponse plus formelle ou, idéalement, d’une amélioration notable de son produit phare. Avec l’arrivée de Bard de Google et peut-être bientôt du chatbot d’Apple, la menace des concurrents pourrait devenir plus sérieuse d’ici quelques mois.

Source : Lingjiao Chen , Matei Zaharia , James Zou – How Is ChatGPT’s Behavior Changing over Time?

Laisser un commentaire

2 Commentaires

Taki dit :

21 juillet 2023 à 10:11 pm

Des posts comme cela ne servent pas à grand chose, il manque un élément fondamental : la source de l’étude ! Dommage.

Répondre
1. Trust My Science dit :
  
  22 juillet 2023 à 2:08 pm
  
  C’est plutôt ce commentaire en l’occurrence qui n’est pas très utile, sachant que la source est bien indiquée, comme toujours, en fin d’article (à côté de « Source »). 😉
  
  Répondre

2024 YR4 pourrait percuter la Lune en 2032 et projeter des millions de débris vers la Terre

Nous vivons plus vieux, mais ne vieillissons pas moins vite : une étude casse un mythe

Les limaces de mer « volent » les organes de leurs proies pour acquérir leurs « superpouvoirs »

Et si le mucus d’axolotl devenait une arme contre les super-bactéries et les cellules cancéreuses ?

Pourquoi les chats ronronnent-ils ? Des biologistes lèvent le voile sur ses bases génétiques

Et si l’Univers n’était pas né du Big Bang ? Une nouvelle théorie défie le modèle standard

Si nous n’avons toujours pas vu d’extraterrestres, c’est peut-être à cause de la « limite universelle de développement technologique », suggère un chercheur

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Des chercheurs s’inspirent de la science-fiction pour illustrer les impacts potentiels de la modification du cycle de l’eau induite par l’Homme

Nous vivons plus vieux, mais ne vieillissons pas moins vite : une étude casse un mythe

Cyberattaque historique : 90 millions de dollars effacés chez Nobitex, géant iranien des cryptomonnaies

Exode scientifique : 75 % des chercheurs prêts à quitter les États-Unis, révèle une enquête

D’après une étude, ChatGPT serait bel et bien devenu plus « stupide » récemment

Une détérioration des performances

« Nous n’avons pas rendu GPT-4 plus bête »…

SpaceX entre dans l’histoire : le lanceur Falcon 9 a atterri sur sa plateforme maritime !

Source : Lingjiao Chen , Matei Zaharia , James Zou – How Is ChatGPT’s Behavior Changing over Time?

Un nouveau nanomatériau ultra-léger extrait 3 fois son poids en eau de l’air

Le papier de riz : un matériau comestible qui pourrait transformer la robotique douce

Les meilleurs modèles d’IA peuvent avoir recours au chantage pour éviter d’être désactivés, selon une étude d’Anthropic

Cyberattaque historique : 90 millions de dollars effacés chez Nobitex, géant iranien des cryptomonnaies

2024 YR4 pourrait percuter la Lune en 2032 et projeter des millions de débris vers la Terre

Nous vivons plus vieux, mais ne vieillissons pas moins vite : une étude casse un mythe

Les limaces de mer « volent » les organes de leurs proies pour acquérir leurs « superpouvoirs »

2024 YR4 pourrait percuter la Lune en 2032 et projeter des millions de débris vers la Terre

Nous vivons plus vieux, mais ne vieillissons pas moins vite : une étude casse un mythe

Les limaces de mer « volent » les organes de leurs proies pour acquérir leurs « superpouvoirs »