Une IA de Meta permet de créer des sons communs et de la musique à partir de texte

Le modèle d’intelligence artificielle text-to-audio baptisé AudioGen, conçu par Meta en collaboration avec l’Université hébraïque de Jérusalem, est capable de recréer toute sorte de sons à partir de l’invite textuelle correspondante, telle que « un homme en train de parler pendant qu’il tape sur son clavier », ou « un cheval qui galope, et une femme rit en arrière-plan », etc. Ce type de programme pourrait être utilisé dans le secteur des jeux vidéos, ainsi que dans l’industrie cinématographique ou musicale.

Il y a quelques jours, Meta présentait son IA Make-A-Video, capable de générer de courts clips vidéos à partir d’invites textuelles. De la même façon, l’IA AudioGen est un modèle génératif autorégressif qui génère des échantillons audio conditionnés par des entrées textuelles. Elle utilise un modèle de langage qui lui permet de comprendre la chaîne de texte qui lui est proposée en entrée, puis isole les mots pertinents, à partir desquels elle va générer des sons. Par exemple, de la phrase « un chien qui aboie dans un parc », AudioGen ne retient que les mots « chien », « aboie » et « parc », afin de recréer l’ambiance sonore associée.

Pour parvenir à ce résultat, AudioGen a subi un long apprentissage, reposant sur environ 4000 heures de données d’entraînement, issues d’une dizaine d’ensembles de données différents. Selon Félix Kreuk, ingénieur de recherche chez Meta AI research, AudioGen peut produire une très grande variété de sons et même les associer dans un même fichier audio. Il peut également générer tout un morceau de musique à partir d’un court extrait musical.

Une tâche particulièrement complexe

Comme le soulignent les concepteurs dans leur article de présentation, la tâche de génération d’audio à partir de texte pose de multiples défis. Pour commencer, en raison de la façon dont le son se propage dans un support, il peut être difficile de différencier les sources (par exemple, séparer plusieurs personnes qui parlent simultanément). « Les conditions d’enregistrement du monde réel (bruit de fond, réverbération, etc.) compliquent encore la tâche », ajoutent-ils.

En outre, la disponibilité des données audio accompagnées de descriptions textuelles est inférieure de plusieurs ordres de grandeur à celle des données couplées texte-image. La génération de compositions audio inédites devient dès lors particulièrement complexe.

Pour pallier ces difficultés, l’équipe s’est appuyée sur une technique d’augmentation, qui mélange différents échantillons audio, de manière à ce que l’IA apprenne à séparer plusieurs sources. « Nous avons sélectionné 10 ensembles de données contenant différents types d’annotations audio et textuelles afin de gérer la rareté des points de données texte-audio », expliquent les chercheurs.

La qualité du son créé par AudioGen et son adéquation à l’invite textuelle ont été évaluées par des personnes employées par la plateforme Mechanical Turk d’Amazon. Résultat : la qualité globale des sons générés a été évaluée à environ 70% (contre 65% pour un projet concurrent nommé Diffsound). « Comparé aux travaux existants de conversion de texte en audio, AudioGen génère des échantillons qui obtiennent de meilleures mesures objectives et subjectives. En particulier, AudioGen crée des compositions audio inédites à l’aspect plus naturel », écrit l’équipe.

La temporalité et les voix humaines restent à travailler

La page du projet permet d’écouter quelques exemples de production d’AudioGen, comparativement aux résultats du modèle DiffSound et à des enregistrements de situation réelle. On peut constater que les sons produits par AudioGen sont effectivement très proches de la réalité. L’équipe a également travaillé sur la continuation audio ; des fichiers audio sont générés à partir d’invites audio d’une seconde et divers paramètres de conditionnement du texte.

Voir aussi

maitriser ia travail administratif guide complet couv

Informatique Informatique (Q-R)Trust Innovation

·11 min de lecturePremium

Maîtriser l’IA pour automatiser le travail administratif : le guide complet

Ce type de modèle pourrait donc être utilisé pour réaliser des sons de jeux vidéos, des bruitages pour le cinéma ou même pour produire des morceaux de musique inédits. Ce type d’usage soulève néanmoins un problème potentiel : celui de la gestion des droits d’auteur si les sons produits sont utilisés à des fins commerciales.

Mais ces questions de propriété intellectuelle ne sont pour le moment pas à l’ordre du jour, car le modèle reste encore à améliorer. En effet, AudioGen n’est pas capable de séquencer les sons dans le temps. En d’autres termes, il ne sait pas faire la différence entre « un chien aboie, puis un oiseau chante » et « un oiseau chante, puis un chien aboie ». L’équipe est en train de travailler sur ce point. En outre, la modélisation de l’audio haute-fidélité nécessite l’encodage de l’audio à une fréquence d’échantillonnage très élevée, ce qui entraîne des séquences extrêmement longues.

Le degré de réalisme des sons générés est également à peaufiner. « Comme nous omettons la plupart des échantillons de parole dans notre ensemble d’entraînement, l’approche proposée génère souvent une parole inintelligible », soulignent les chercheurs. Ce problème peut toutefois être atténué en utilisant davantage de données vocales, de meilleures recettes d’augmentation de données pour la parole ou en fournissant des caractéristiques de parole supplémentaires. En attendant, ce travail peut servir de base à la construction de meilleurs modèles de conversion texte-audio, conclut l’équipe.

Source : F. Kreuk et al., arXiv

Laisser un commentaire

Atténuation du réchauffement climatique : le reboisement serait 10 fois plus efficace que précédemment estimé

James Webb capture une image directe de l’une des exoplanètes les plus froides connues à ce jour

Le vaccin contre le zona réduit significativement le risque de démence, selon une étude

Comment les algorithmes façonnent l’avenir financier : intelligence artificielle, machine learning et blockchain

Maîtriser l’IA pour automatiser le travail administratif : le guide complet

Pourquoi les oméga-3 sont-ils particulièrement recommandés aux sportifs ?

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Des chercheurs s’inspirent de la science-fiction pour illustrer les impacts potentiels de la modification du cycle de l’eau induite par l’Homme

Terminator : James Cameron écrit déjà le script du 7e film, qui sera inspiré par la révolution de l’IA

La NASA transmet pour la première fois une chanson hip-hop dans l’espace lointain

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Le PDG sortant de Boeing admet que l’entreprise a exercé des représailles contre les lanceurs d’alerte

Des fossiles de serpents vieux de 34 millions d’années bouleversent notre compréhension de leur évolution

L’ordinateur quantique de Quantinuum pulvérise le record de Google d’un facteur 100

Un nouvel élément (120), l’Unbinilium, pourrait bientôt figurer dans le tableau périodique des éléments

La Chine lance le premier réacteur à fission totalement à l’épreuve des accidents de fusion

Une IA de Meta permet de créer des sons communs et de la musique à partir de texte

Une tâche particulièrement complexe

La temporalité et les voix humaines restent à travailler

Maîtriser l’IA pour automatiser le travail administratif : le guide complet

Source : F. Kreuk et al., arXiv

IA : des lacunes dramatiques dans le raisonnement des grands modèles de langage révélées par une étude

Maîtriser l’IA pour automatiser le travail administratif : le guide complet

L’ordinateur quantique de Quantinuum pulvérise le record de Google d’un facteur 100

De mystérieuses restrictions sur l’exportation des ordinateurs quantiques imposées par plusieurs pays d’Europe

Des fossiles de serpents vieux de 34 millions d’années bouleversent notre compréhension de leur évolution

L’ordinateur quantique de Quantinuum pulvérise le record de Google d’un facteur 100

Un nouvel élément (120), l’Unbinilium, pourrait bientôt figurer dans le tableau périodique des éléments

Atténuation du réchauffement climatique : le reboisement serait 10 fois plus efficace que précédemment estimé

James Webb capture une image directe de l’une des exoplanètes les plus froides connues à ce jour

Le vaccin contre le zona réduit significativement le risque de démence, selon une étude