Les centres d’appel utilisent différentes technologies pour faciliter, améliorer et accélérer la prise en charge des clients. Mais jusqu’où cela peut-il aller ? Un nouveau logiciel basé sur un système d’intelligence artificielle permet de détecter l’accent d’un interlocuteur à l’autre bout du fil et de modifier celui de l’opérateur du centre d’appel pour qu’il corresponde, en temps réel. Selon les inventeurs de la technologie, cette méthode améliorerait la compréhension dans de nombreux domaines, dont l’assistance à la clientèle, la télémédecine, l’éducation ou encore la vente.
L’objectif premier de cette technologie, développée par la startup américaine Sanas, n’est donc pas le marketing, mais la satisfaction client. Le logiciel fonctionne localement sur un smartphone ou un ordinateur plutôt que sur un serveur central comme les assistants virtuels tels qu’Alexa d’Amazon, ce qui, selon l’équipe à l’origine du projet, minimise la latence (de traitement de la voix) et améliore la sécurité. L’entreprise affirme que l’audio peut être manipulé pour correspondre à un accent particulier avec un délai de seulement 200 millisecondes.
Le logiciel intercepte les sons entre le microphone et le logiciel utilisé pour communiquer de n’importe quel logiciel, dont Zoom, Microsoft Teams ou Skype, et les modifie rapidement avant diffusion. Il convertit les accents à l’aide d’un réseau neuronal entraîné sur une série d’enregistrements audio, notamment des fichiers trouvés en ligne, des enregistrements réalisés par des inconnus dans la rue dans des villes du monde entier et des enregistrements réalisés par le personnel de centres d’appel d’entreprises partenaires.
Une modification de la voix en temps réel
Andrés Pérez Soderi, de Sanas, explique que certains éléments du système d’IA sont une véritable « boîte noire » et que la façon exacte dont il modifie les voix n’est pas connue. En effet, le réseau neuronal s’étant formé et ajusté par lui-même pour correspondre à ce qui lui était initialement demandé, par apprentissage automatique, son fonctionnement exact n’est pas totalement connu des ingénieurs.
Il explique que l’équipe s’est rapidement rendue compte, au cours du développement, que l’IA ne pouvait pas être conçue pour transcrire la parole en texte, puis générer une voix artificielle pour la lire avec un nouvel accent, car des erreurs de transcription se produiraient et il y aurait un retard de calcul si important que cela la rendrait inutile pour la conversation.
L’équipe a finalement opté pour un modèle basé sur les phonèmes individuels (les sons distincts qui composent les mots), ce qui permet au système de commencer à modifier le flux audio sortant avant la fin de chaque mot. Pérez Soderi indique que Sanas est en pourparlers avec plusieurs entreprises pour déployer la technologie dans les mois à venir.