L’équivalent de Google en Chine, Baidu, vient de publier un livre blanc présentant son dernier développement dans le domaine de l’intelligence artificielle (IA) : un programme permettant de cloner les voix, après les avoir analysées durant quelques secondes seulement, grâce à l’utilisation d’un réseau neuronal.

Non seulement l’IA peut imiter une voix d’entrée, mais elle peut également la modifier pour refléter un autre genre ou même un accent différent. Vous pouvez écouter quelques exemples générés ici.

Les itérations précédentes de cette technologie permettaient un clonage vocal, après que les systèmes aient analysé des échantillons vocaux. Cependant, les échantillons étaient bien plus longs. En 2017, l’équipe de recherche de Baidu Deep Voice a introduit une technologie capable de cloner des voix, avec 30 minutes de matériel de formation.

À savoir que ce type de performance a déjà été réalisé auparavant : Adobe possède un programme appelé VoCo, qui pourrait imiter une voix avec seulement 20 minutes de matériel audio fourni. Une startup canadienne, appelée Lyrebird, peut cloner une voix avec seulement une minute d’échantillon audio.

Mais l’innovation de Baidu, est que l’entreprise a réussi à réduire le temps d’apprentissage de l’IA à quelques secondes seulement. Il existe de nombreuses possibilités d’applications pour cette technologie : par exemple, l’IA pourrait être utilisée pour créer des assistants numériques personnalisés ainsi que des services de traduction vocale, plus naturels.

Cependant, et comme avec de nombreuses technologies, le clonage vocal comporte également le risque d’être utilisé à mauvais escient. En effet, l’IA a été capable de reproduire une voix qui a trompé le logiciel de reconnaissance vocale avec plus de 95% de précision dans les tests effectués. Les humains ont même évalué la voix clonée à un score de 3.16 sur 4. Cela pourrait donc permettre la réalisation de diverses fraudes assistées par IA.

Il existe déjà des programmes pouvant utiliser des IA pour remplacer ou modifier (voire même générer) des visages d’inconnus dans des vidéos. Actuellement, ce type de technologie est surtout utilisé sur Internet pour créer des vidéos humoristiques, mais la coupler à des IA capables de cloner des voix, pourrait générer des vagues d’informations totalement faussées et corrompues.

Il est déjà si facile de tromper les masses en utilisant de simples mots, ou des logiciels de retouche tel que Photoshop pour faire des montages visuels… Qu’en serait-il si même les voix pouvaient être manipulées de la sorte ? Espérons donc que cette technologie ne tombe pas entre les mains des mauvaises personnes.

Source : arXiv (white paper)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Share
Share