Écouter des Youtubeurs pour travailler sur la détection du coronavirus… C’est une méthode étonnante qu’ont mise en place une équipe de chercheurs issus de différentes universités. Ils ont entraîné une IA à détecter des altérations de la voix dues au variant Omicron du SARS-CoV-2. Leurs résultats atteignent une précision de quelque 80%.
« La COVID-19 est systématiquement détectée et confirmée par réaction en chaîne par polymérase (PCR), à l’aide d’écouvillons nasaux ou de gorge », rappellent les scientifiques dans leurs travaux, prépubliés sur medRxiv. « Cependant, les délais d’exécution et les coûts des ressources posent un défi pour les tests dans certains contextes ». Les chercheurs ont donc souhaité expérimenter une méthode alternative. Pour cela, ils sont passés par l’utilisation d’une intelligence artificielle. La solution ne coulait pourtant pas de source. En effet, les programmes d’apprentissage automatique que recouvre la plupart du temps le terme « intelligence artificielle » requièrent un grand nombre de données.
Or, dans le milieu médical, obtenir des données, en nombre suffisant et bien conservées, n’est pas si aisé, rappellent les chercheurs. Ils ont donc tout simplement choisi de s’éloigner des données fournies par des milieux médicaux. « Dans cette étude, nous avons exploité YouTube pour collecter des données vocales auprès d’individus ayant des tests COVID-19 positifs autodéclarés pendant des périodes où Omicron était la variante prédominante », expliquent-ils.
Bien entendu, ces données ne sont pas aussi fiables que si les personnes enregistrées avaient été testées en laboratoire. Cependant, elles ont pour les scientifiques d’autres vertus… À commencer par leur quantité et leur accessibilité : « Dans le monde, diverses plateformes de médias sociaux comptent plus de 3,6 milliards d’utilisateurs, avec des attentes devant dépasser 4,4 milliards d’ici 2025. Plus de 500 heures de vidéo sont téléchargées sur YouTube chaque minute », soulignent-ils ainsi. Bien souvent librement accessibles aux chercheurs, ces données peuvent donc constituer une base précieuse. « Ces données dépeignent plus précisément des données bruyantes et non scénarisées du ‘monde réel’ », ajoutent les scientifiques.
Un entraînement intensif à base de vidéos YouTube
C’est donc à partir de 93 heures d’enregistrements issus de YouTube qu’ils ont entrepris « d’entraîner » leur intelligence artificielle. Dans ces échantillons, 183 locuteurs ont déclaré avoir été infectés par le coronavirus à un moment où le variant Omicron était dominant. 120 ont déclaré avoir été infectés à un autre moment. 138 autres affirmaient avoir une infection des voies respiratoires qui n’avait aucun rapport avec la COVID-19. Enfin, 192 personnes ne mentionnaient aucune infection respiratoire.
Les échantillons audio ont été traités pour ne conserver que les moments où les Youtubeurs s’expriment. Ils ont ensuite été divisés en segments de 2,5 secondes. Une partie de ces fragments a servi de base d’apprentissage à l’IA, tandis que ceux restants ont permis par la suite de la mettre à l’épreuve. Les résultats publiés sur medRxiv ne sont que préliminaires, mais ils ont leur intérêt. « Les performances du modèle étaient spécifiques à 85% et sensibles à 80% pour la classification des sujets Omicron et des sujets sains asymptomatiques », déclarent les scientifiques. La sensibilité d’un test correspond à sa capacité à donner un résultat positif lorsque l’hypothèse est vérifiée. La spécificité, au contraire, mesure la capacité d’un test à donner un résultat négatif lorsque l’hypothèse n’est pas vérifiée.
Autrement dit, l’IA n’a pas obtenu une précision parfaite dans sa détection, mais elle s’en est tirée honorablement. Les résultats ont également montré qu’elle ne montrait pas d’aussi bonnes performances lorsqu’il ne s’agissait pas du variant spécifique Omicron. Ce qui suggère que celui-ci en particulier provoque une laryngite qui altère la voix d’une manière particulière. Il faudrait sans doute de plus amples recherches pour que cette méthode soit utilisable dans la vie réelle, mais elle aurait l’avantage, avancent les chercheurs, d’être non invasive tout en donnant des résultats instantanés.