Des chercheurs révèlent que GPT-4 ADA, la dernière version ultraperformante du grand modèle de langage d’OpenAI sur lequel ChatGPT repose, est capable de générer de faux ensembles de données d’essais cliniques de qualité, qui pourraient par exemple servir à étayer une hypothèse scientifique. Des données générées par l’IA dans le cadre d’une étude, visant à comparer deux protocoles chirurgicaux, indiquaient à tort que l’un était meilleur que l’autre. Ce constat ne manque pas de susciter l’inquiétude quant à l’intégrité et la crédibilité de la recherche scientifique à l’ère de l’IA.
Depuis sa sortie au premier trimestre de cette année, GPT-4 s’est démarquée de ses versions antérieures par une nette amélioration dans la sémantique des réponses générées. Plus récemment, ses capacités ont été étendues avec l’Advanced Data Analysis (ADA), un modèle qui intègre le langage de programmation Python et qui permet à la fois d’effectuer des analyses statistiques et de créer des visualisations de données.
Bien que GPT-4 ADA ait le potentiel d’accélérer considérablement la recherche scientifique, les experts s’interrogent quant à la possibilité d’une utilisation non conforme à l’éthique. En effet, les fonctionnalités du modèle pourraient permettre de générer des données analytiques et statistiques factices de qualité. Des chercheurs des universités italiennes de Magna Graecia de Catanzaro et de Cagliari ont vérifié cette hypothèse en incitant le modèle à comparer deux protocoles chirurgicaux sans se baser sur de données empiriques. Leurs résultats sont détaillés dans la revue JAMA Ophtalmology.
Des résultats contredisant ceux des véritables essais cliniques
Les données créées par GPT-4 ADA concernaient des traitements pour le kératocône, une maladie oculaire provoquant une déformation de la cornée et entraînant une détérioration de la vision. Dans 15 à 20% des cas, le traitement nécessite une transplantation de cornée réalisée selon deux protocoles chirurgicaux. Le premier, appelé kératoplastie pénétrante (PK), consiste à retirer tous les tissus endommagés de la cornée et à les remplacer par du tissu sain provenant d’un donneur. Le second, appelé kératoplastie lamellaire antérieure profonde (DALK), consiste à remplacer uniquement la couche externe de la cornée et à laisser intacte celle plus interne.
Les chercheurs de l’étude ont demandé à l’IA de générer des données étayant la conclusion selon laquelle DALK entraîne de meilleurs résultats que PK, pour un total de 300 patients. Pour ce faire, l’IA devait montrer des différences statistiques pour des tests d’imagerie évaluant la forme et les irrégularités au niveau de la cornée. Les chiffres devaient aussi concerner le regain d’acuité visuelle des patients après les procédures.
L’IA a ainsi permis de confirmer que DALK était la meilleure procédure, une conclusion en contradiction avec celle de véritables essais cliniques, indiquant notamment que les résultats des deux procédures étaient similaires, même 2 ans après l’intervention. « Notre objectif était de souligner qu’en quelques minutes, vous pouvez créer un ensemble de données qui n’est pas étayé par des données originales réelles, et qui est également opposé aux preuves disponibles », explique le co-auteur de l’étude, Giuseppe Giannaccare, chirurgien ophtalmologiste à l’Université de Cagliari.
Ces résultats montrent que l’IA n’hésite pas, si on lui demande, à inventer de fausses données pour corroborer une hypothèse. Cela est d’autant plus inquiétant dans la mesure où les données semblent vraiment authentiques pour un lecteur non averti. « C’était une chose que l’IA générative puisse être utilisée pour générer des textes qui ne seraient pas détectables à l’aide d’un logiciel de plagiat, mais la capacité de créer de faux ensembles de données réalistes est un autre niveau d’inquiétude », indique la microbiologiste et chercheuse indépendante, Elisabeth Bik. Cette technique permettrait de créer très facilement de fausses mesures sur des patients inexistants ou sur des expériences in vitro et in vivo qui n’ont jamais été réalisées. En outre, la relecture par les pairs s’arrête souvent avant une réanalyse complète des données, ce qui signifierait qu’il pourrait être difficile de distinguer celles générées par IA avant leur acceptation pour publication.
Un besoin de mise à jour des contrôles qualité
Bien que les données générées par GPT-4 ADA semblaient a priori authentiques, elles comportaient tout de même de nombreuses incohérences relevables par un examen minutieux, selon un autre groupe d’experts. Après analyse par le biais d’un protocole spécifiquement conçu pour vérifier l’authenticité des données, presque aucune relation réaliste entre les variables n’a pu être mise en évidence, selon ces derniers.
Par exemple, pour de nombreux participants à l’étude, le sexe indiqué ne correspondait pas à ce qu’on attend généralement selon le nom de la personne. Il n’y avait également aucune corrélation entre les mesures pré- et postopératoires de la capacité visuelle et des imageries oculaires. En outre, lorsque la distribution statistique dans certaines colonnes de données a été inspectée, certaines valeurs se sont regroupées d’une manière particulièrement inhabituelle. Il y avait par exemple un nombre disproportionné de participants dont l’âge se terminait par 7 ou 8.
Ces constats révèlent qu’il est encore possible de contrôler l’authenticité des données. Mais qu’en sera-t-il avec les nouveaux modèles d’IA ? D’autre part, les résultats soulignent l’importance d’une mise à jour des protocoles de contrôle qualité des revues scientifiques, afin de détecter les données (et articles) potentiellement générées par l’IA. Par ailleurs, « de la même manière que l’IA pourrait faire partie du problème, il pourrait exister des solutions basées sur l’IA pour résoudre une partie de ce problème. « Nous pourrions peut-être automatiser certains de ces contrôles », suggère Jack Wilkinson, biostatisticien à l’Université de Manchester (Royaume-Uni), l’un des experts ayant analysé les données générées par GPT-4 ADA. Toutefois, l’IA générative pourrait probablement fournir des moyens de contourner ces protocoles, a-t-il précisé. La communauté et les éditeurs scientifiques devront ainsi redoubler de rigueur afin de garantir l’authenticité des données publiées et empêcher la désinformation.