Si ChatGPT avait été humain, il aurait reçu une note comprise entre B et B -… L’intelligence artificielle développée par Open AI a démontré sa capacité à rédiger des réponses convaincantes à un prestigieux examen (concluant le MBA) proposé par l’école de commerce Wharton.
« Non seulement les réponses sont correctes, mais les explications sont excellentes », peut-on lire dans le travail de recherche qui expose ce nouveau test mené avec l’intelligence artificielle conversationnelle ChatGPT. L’objectif était de demander à l’IA de passer un examen standard qui conclut un MBA (Master of business administration), la formation internationale de plus haut niveau en matière de gestion d’entreprise.
Le test s’est avéré plutôt concluant : « Chat GPT3 d’OpenAI a montré une capacité remarquable à automatiser certaines des compétences des travailleurs hautement rémunérés en général et plus particulièrement des travailleurs occupant des postes nécessitant un MBA, notamment des analystes, des gestionnaires et des consultants », explique Christian Terwiesch, professeur à Wharton.
Les élèves d’écoles de commerce ont toutefois de quoi se consoler un peu. ChatGPT a certes obtenu une note qui lui aurait permis de passer l’examen, mais il n’a pas non plus été brillant. Christian Terwiesch affirme que l’IA aurait réussi de justesse, en se voyant octroyer un B ou un B -. De plus, cette note n’a pu être obtenue qu’après quelques ajustements dans les réponses : le professeur a souhaité observer comment l’IA pouvait s’améliorer lorsqu’on lui fournissait des indices face à une réponse erronée. « ChatGPT3 est remarquablement doué pour modifier ses réponses après des indices fournis par des humains », souligne-t-il. « En d’autres termes, dans les cas où il n’a pas initialement réussi à faire correspondre le problème avec la bonne solution, Chat GPT3 a pu se corriger après avoir reçu un indice approprié d’un expert humain ».
Des erreurs mathématiques « massives »
Il faut également noter que les performances de ChatGPT sont assez inégales selon les domaines recouverts par les questions proposées. « Comme d’autres l’ont soutenu avant moi, Chat GPT3 fait parfois des erreurs surprenantes dans des calculs relativement simples au niveau des mathématiques de 6e année. Ces erreurs peuvent être massives », affirme Christian Terwiesch. Hier, nous évoquions effectivement dans un article un test effectué sur ChatGPT et Claude, une IA similaire, par une entreprise spécialisée. De la même manière, les IA avaient quelques difficultés à s’attaquer à certains problèmes mathématiques.
En matière d’analyse, ChatGPT a aussi rencontré ses limites lors de cet examen : « La version actuelle de Chat GPT n’est pas capable de gérer des questions d’analyse de processus plus avancées, même lorsqu’elles sont basées sur des modèles assez standard. Cela inclut les flux de processus avec plusieurs produits et les problèmes avec des effets stochastiques tels que la variabilité de la demande », détaille le professeur. En revanche, « Chat GPT3 fait un travail incroyable sur les questions de gestion des opérations de base et d’analyse des processus, y compris celles qui sont basées sur des études de cas ». Cette performance est en tout cas suffisante pour soulever quelques inquiétudes… Tant en termes de triche que de future compétition sur le marché du travail : un débat qui court sur de nombreuses lèvres ces temps-ci, y compris d’ailleurs dans le domaine artistique.