Meta, la société mère de Facebook, a récemment présenté "Voicebox", une intelligence artificielle spécialisée dans la synthèse vocale. Ce modèle révolutionnaire est capable de convertir du texte en fichiers audio et de générer des discours en se basant sur de courts échantillons de seulement deux secondes.
Dans la course effrénée à l'intelligence artificielle qui se joue actuellement entre les géants de la technologie, Meta fait désormais partie des acteurs majeurs avec le lancement de Voicebox. Après le déploiement de ChatGPT à la fin de l'année 2022 et l'investissement massif de 10 milliards de dollars de Microsoft dans la start-up OpenAI, les grandes entreprises du web rivalisent pour présenter leurs propres technologies d'intelligence artificielle.
Google a fait sensation avec Bard, son IA conversationnelle, tandis que Meta a confirmé dès avril 2023 qu'elle travaillait sur son propre modèle d'IA. Ces derniers mois, la société basée à Menlo Park a déjà dévoilé plusieurs modèles d'IA, dont LLaMA (Large Language Model Meta AI), un modèle de langage open-source.
Meta a également présenté JEPA, un modèle ambitieux visant à reproduire la pensée humaine en analysant et en comprenant des notions et concepts abstraits. Dans un tout autre registre, Meta a également dévoilé MusicGen, une IA capable de créer de la musique à partir d'une simple description textuelle.
Le 16 juin 2023, Meta a annoncé une nouvelle percée dans le domaine de l'IA générative avec Voicebox, une IA spécialisée dans la synthèse vocale. En d'autres termes, Voicebox est capable de créer, modifier et styliser des fichiers audio de manière impressionnante.
La fonctionnalité la plus fascinante (et peut-être problématique) de Voicebox est sa capacité à synthétiser la parole à partir de textes en contexte. En se basant sur un extrait audio de seulement deux secondes, Voicebox est en mesure de générer un discours en simulant la voix et le phrasé de la personne entendue dans l'extrait.
Cette fonctionnalité permet à Voicebox de simuler la voix d'un proche, d'un chanteur ou même d'un homme politique. Meta affirme que, à l'avenir, Voicebox et d'autres modèles d'IA générative similaires pourront donner des voix naturelles aux assistants vocaux ou aux personnages non-joueurs (PNJ) dans le métaverse. De plus, ces technologies pourraient également permettre aux personnes malvoyantes d'entendre des messages écrits avec les voix de leurs amis.
En plus de cette fonctionnalité impressionnante, Voicebox propose d'autres capacités intéressantes. Il peut éditer des fichiers audio en réduisant les bruits de fond ou en remplaçant des mots mal prononcés sans avoir besoin d'enregistrer à nouveau l'intégralité du discours. Cela rappelle la fameuse "gomme magique" de Google, mais pour l'audio.
Voicebox offre également une traduction multilingue, avec prise en charge de six langues pour le moment (anglais, français, espagnol, allemand, polonais et portugais). Cela permet de transposer un discours dans une autre langue tout en préservant le style et les nuances.
Pour développer ses différentes fonctionnalités, l'IA de Meta a été entraînée sur plus de 50 000 heures d'extraits audio, principalement issus de livres audio et de contenus libres de droits. Pour des raisons de sécurité, Voicebox n'est pas encore accessible au grand public. Meta redoute en effet une utilisation malveillante de cette IA, notamment pour imiter la voix de personnes réelles.


