Le modèle d’intelligence artificielle text-to-audio baptisé AudioGen, conçu par Meta en collaboration avec l’Université hébraïque de Jérusalem, est capable de recréer toute sorte de sons à partir de l’invite textuelle correspondante, telle que « un homme en train de parler pendant qu’il tape sur son clavier », ou « un cheval qui galope, et une femme rit en arrière-plan », etc. Ce type de programme pourrait être utilisé dans le secteur des jeux vidéos, ainsi que dans l’industrie cinématographique ou musicale.
Il y a quelques jours, Meta présentait son IA Make-A-Video, capable de générer de courts clips vidéos à partir d’invites textuelles. De la même façon, l’IA AudioGen est un modèle génératif autorégressif qui génère des échantillons audio conditionnés par des entrées textuelles. Elle utilise un modèle de langage qui lui permet de comprendre la chaîne de texte qui lui est proposée en entrée, puis isole les mots pertinents, à partir desquels elle va générer des sons. Par exemple, de la phrase « un chien qui aboie dans un parc », AudioGen ne retient que les mots « chien », « aboie » et « parc », afin de recréer l’ambiance sonore associée.
Pour parvenir à ce résultat, AudioGen a subi un long apprentissage, reposant sur environ 4000 heures de données d’entraînement, issues d’une dizaine d’ensembles de données différents. Selon Félix Kreuk, ingénieur de recherche chez Meta AI research, AudioGen peut produire une très grande variété de sons et même les associer dans un même fichier audio. Il peut également générer tout un morceau de musique à partir d’un court extrait musical.
Une tâche particulièrement complexe
Comme le soulignent les concepteurs dans leur article de présentation, la tâche de génération d’audio à partir de texte pose de multiples défis. Pour commencer, en raison de la façon dont le son se propage dans un support, il peut être difficile de différencier les sources (par exemple, séparer plusieurs personnes qui parlent simultanément). « Les conditions d’enregistrement du monde réel (bruit de fond, réverbération, etc.) compliquent encore la tâche », ajoutent-ils.
En outre, la disponibilité des données audio accompagnées de descriptions textuelles est inférieure de plusieurs ordres de grandeur à celle des données couplées texte-image. La génération de compositions audio inédites devient dès lors particulièrement complexe.
Pour pallier ces difficultés, l’équipe s’est appuyée sur une technique d’augmentation, qui mélange différents échantillons audio, de manière à ce que l’IA apprenne à séparer plusieurs sources. « Nous avons sélectionné 10 ensembles de données contenant différents types d’annotations audio et textuelles afin de gérer la rareté des points de données texte-audio », expliquent les chercheurs.
La qualité du son créé par AudioGen et son adéquation à l’invite textuelle ont été évaluées par des personnes employées par la plateforme Mechanical Turk d’Amazon. Résultat : la qualité globale des sons générés a été évaluée à environ 70% (contre 65% pour un projet concurrent nommé Diffsound). « Comparé aux travaux existants de conversion de texte en audio, AudioGen génère des échantillons qui obtiennent de meilleures mesures objectives et subjectives. En particulier, AudioGen crée des compositions audio inédites à l’aspect plus naturel », écrit l’équipe.
La temporalité et les voix humaines restent à travailler
La page du projet permet d’écouter quelques exemples de production d’AudioGen, comparativement aux résultats du modèle DiffSound et à des enregistrements de situation réelle. On peut constater que les sons produits par AudioGen sont effectivement très proches de la réalité. L’équipe a également travaillé sur la continuation audio ; des fichiers audio sont générés à partir d’invites audio d’une seconde et divers paramètres de conditionnement du texte.
Ce type de modèle pourrait donc être utilisé pour réaliser des sons de jeux vidéos, des bruitages pour le cinéma ou même pour produire des morceaux de musique inédits. Ce type d’usage soulève néanmoins un problème potentiel : celui de la gestion des droits d’auteur si les sons produits sont utilisés à des fins commerciales.
Mais ces questions de propriété intellectuelle ne sont pour le moment pas à l’ordre du jour, car le modèle reste encore à améliorer. En effet, AudioGen n’est pas capable de séquencer les sons dans le temps. En d’autres termes, il ne sait pas faire la différence entre « un chien aboie, puis un oiseau chante » et « un oiseau chante, puis un chien aboie ». L’équipe est en train de travailler sur ce point. En outre, la modélisation de l’audio haute-fidélité nécessite l’encodage de l’audio à une fréquence d’échantillonnage très élevée, ce qui entraîne des séquences extrêmement longues.
Le degré de réalisme des sons générés est également à peaufiner. « Comme nous omettons la plupart des échantillons de parole dans notre ensemble d’entraînement, l’approche proposée génère souvent une parole inintelligible », soulignent les chercheurs. Ce problème peut toutefois être atténué en utilisant davantage de données vocales, de meilleures recettes d’augmentation de données pour la parole ou en fournissant des caractéristiques de parole supplémentaires. En attendant, ce travail peut servir de base à la construction de meilleurs modèles de conversion texte-audio, conclut l’équipe.