Un nouveau modèle d’IA formé sur les données personnelles de 6 millions de Danois permet de prédire le risque de décès toutes causes confondues avec une incroyable précision, surpassant les outils utilisés par les compagnies d’assurances. La technologie pourrait apporter des avantages significatifs en matière de prévention socio-sanitaire. Cependant, elle pourrait présenter des risques non négligeables, notamment en étant utilisée de manière non conforme à l’éthique, selon les développeurs.
Les algorithmes sont utilisés depuis des décennies pour effectuer des prédictions diverses et variées. Parmi ces algorithmes figurent par exemple ceux utilisés pour prédire l’évolution des phénomènes climatiques et des épidémies. D’un autre côté, à l’ère des réseaux sociaux, les algorithmes permettant de prédire les comportements humains individuels sont désormais monnaie courante.
Cependant, la prédiction des résultats de vie individuels se situe à un autre niveau de complexité. En effet, bien qu’il soit bien établi que les facteurs sociodémographiques jouent un rôle essentiel dans nos trajectoires de vie, la plupart des tentatives de prédiction dans ce sens comportent des lacunes et manquent de précision. Des chercheurs de l’Université technique du Danemark ont suggéré que les grands modèles de langage (LLM) pourraient changer la donne, à condition qu’ils puissent disposer de données assez détaillées.
Dans leur nouvelle étude, publiée dans la revue Nature Computational Science, l’équipe de recherche a exploré dans quelle mesure ces modèles parvenaient à prédire les trajectoires de vie individuelles, sur la base de séquences d’événements détaillés.
11% plus fiable que les outils utilisés par les compagnies d’assurance
Dans le cadre de leur étude, les scientifiques ont converti un grand ensemble de données en séquences de mots, servant de base pour former leur grand modèle de langage, baptisé Life2vec. Ce dernier analyse ensuite les séries d’événements se déroulant au cours de la vie d’une personne, dans le but de déterminer ce qui serait le plus susceptible de se produire par la suite.
En effet, les avancées en matière d’IA permettent désormais de capturer des séquences complexes dans des données linguistiques massives et non structurées. Cela est rendu possible grâce aux « transformeurs », l’une des architectures de modèles d’apprentissage profond les plus efficaces pour effectuer des prédictions de mots, d’images et d’autres types de données — et ce sans exiger de traiter ces données dans l’ordre. Cependant, les modèles dotés de cette architecture n’ont jusqu’à présent jamais été utilisés pour le traitement de données socioéconomiques.
« Notre ensemble de données change cela », écrivent les experts dans leur document. L’ampleur de cet ensemble permettrait notamment de construire des représentations des trajectoires de vie humaines individuelles, qui détaillent la façon dont chaque personne évolue au fil du temps, expliquent-ils.
Les données sur lesquelles Life2vec a été formé concernaient des enregistrements individuels et détaillés de 6 millions de Danois âgés de 35 à 65 ans, sur une période de 10 ans. Ces enregistrements incluent de nombreux indicateurs, tels que l’état de santé, la profession et les heures de travail, le revenu, le lieu de résidence, le niveau d’éducation, etc. Les chercheurs ont demandé au modèle de prédire la trajectoire de vie de ces personnes — c’est-à-dire lesquelles sont décédées et lesquelles ont vécu — en sachant que la moitié sont décédées entre 2016 et 2020.
Il a été constaté que Life2vec était 11% plus fiable pour prédire la trajectoire de vie individuelle que n’importe quel autre IA ou outil utilisé par les compagnies d’assurances pour évaluer le montant des assurances-vie. Le modèle était également meilleur pour prédire les résultats d’un test de personnalité pour un sous-ensemble de participants, que les autres IA spécifiquement formées dans ce but.
Selon les experts, cette performance serait due au fait que le modèle a été formé avec suffisamment de données pour pouvoir analyser et prédire un large éventail d’aspects sociaux et sanitaires. Cela suggère qu’il pourrait être utilisé par les centres de soins pour des diagnostics préventifs précoces, ou par les gouvernements pour anticiper les inégalités sociales.
Cependant, ce genre de modèle pourrait aussi être utilisé de manière non conforme à l’éthique. « De toute évidence, notre modèle ne devrait pas être utilisé par une compagnie d’assurance, car l’idée même de l’assurance est que, en partageant l’ignorance de qui sera la personne malchanceuse frappée par un incident, ou par la mort, ou par la perte de son sac à dos, nous pouvons en quelque sorte partager ce fardeau », a déclaré au New Scientist le coauteur principal de l’étude, Sune Lehmann Jørgensen, de l’Université technique du Danemark. En d’autres termes, les compagnies d’assurances pourraient avoir tendance à ne pas traiter leurs clients de manière équitable, en disposant d’un tel outil.
Toutefois, les assureurs ne seraient probablement pas les seuls à être tentés de disposer d’un tel outil et de l’utiliser de manière néfaste. Au lieu de prévenir les inégalités sociales, l’outil pourrait par exemple les exacerber davantage en tombant entre les mains d’utilisateurs malveillants.
En vue des nombreux risques pour notre société, nous avons récemment publié un article d’enquête — « L’IA générative nous mène-t-elle vers une nouvelle civilisation ? » — explorant comment la technologie pourrait transformer notre société.