Programmeur.chprogrammeur.ch
  • Intelligence artificielle

Voicebox, l'intelligence artificielle de Meta pour éditer l'audio en six langues

Publié le 16.06.2023
Meta lance une nouvelle technologie d'intelligence artificielle. (But)

Meta a annoncé en exclusivité pour Infobae le développement de Voicebox , un modèle d'intelligence artificielle de pointe capable d'effectuer des tâches de génération de parole telles que l'édition, l'échantillonnage et la stylisation, même sans avoir été spécifiquement formé pour cela, mais grâce à un apprentissage en contexte ., comme l'a annoncé Mark Zuckerberg .

Voicebox a la capacité de produire des extraits audio de haute qualité et de modifier l'audio préenregistré, comme la suppression des bruits indésirables ou la correction des prononciations, tout en conservant le contenu et le style d'origine. De plus, ce modèle est multilingue et peut générer de la parole dans six langues différentes .

À l'avenir, les modèles d'IA générative polyvalents tels que celui-ci devraient remplir des fonctions telles que la transmission d'une voix naturelle aux assistants virtuels et aux personnages métaverses, permettant aux malvoyants d'entendre des messages écrits dans leurs styles préférés et fournissant aux créateurs des outils d' édition audio . dans la production vidéo, parmi de nombreuses autres applications.

La polyvalence de Voicebox excelle dans des tâches telles que la synthèse vocale contextuelle, l'édition de la parole et la réduction du bruit, le transfert de style entre les langues et l'échantillonnage de discours divers.

Cette percée représente une étape importante dans la recherche sur l'IA générative et promet d'ouvrir de nouvelles possibilités dans le domaine de l'audio, ainsi que d'inspirer d'autres chercheurs à développer davantage cette technologie.

Principales caractéristiques

- Voicebox : Modèle de parole générative de pointe.

- Flow Matching Method : Nouvelle approche utilisée par Meta AI pour résoudre la tâche de remplissage de la parole guidée par le texte.

- Échelle de données : vous avez été formé avec une grande quantité de données pour améliorer votre capacité à apprendre en contexte.

- Variété de styles : vous pouvez produire dans une variété de styles et créer des clips audio de haute qualité.

- Disponibilité limitée : en raison des risques potentiels d'utilisation abusive, le modèle et son code ne sont actuellement pas accessibles au public.

- Transparence et responsabilité : Meta IA cherche à maintenir un équilibre entre le partage de ses recherches avec la communauté IA et la responsabilité dans l'utilisation de ses modèles.

Les modèles génératifs à grande échelle, tels que GPT et DALL-E , ont révolutionné la recherche en traitement du langage naturel et en vision par ordinateur. Ceux-ci génèrent non seulement du texte ou des images haute fidélité, mais sont également généralistes et peuvent résoudre des tâches non explicitement enseignées.

Cependant, les modèles génératifs de parole sont encore à un stade primitif en termes d'échelle et de généralisation des tâches. Dans le cas de Voicebox , il s'agit d'un modèle de flux de correspondance non autorégressif formé pour remplir des fragments de parole, dans un contexte audio et textuel, en utilisant plus de 50 000 heures de parole non filtrée et non améliorée.

Comme GPT, cet outil peut effectuer différentes tâches grâce à l'apprentissage en contexte, mais avec l'avantage de pouvoir également conditionner dans le contexte futur. Il peut être utilisé pour la synthèse vocale monolingue ou multilingue sans nécessiter de formation préalable, de débruitage, d'édition de contenu, de conversion de style et de génération d'échantillons divers.

Mark Zuckerberg a critiqué le Vision Pro d'Apple

Lors d'une réunion avec ses employés, Mark Zuckerberg a évoqué les Apple Vision Pro , les nouvelles lunettes de réalité mixte que l'entreprise a présentées il y a quelques jours et qui arriveront en 2024 à 3 499 dollars, un prix sept fois plus élevé que les Quest 3, les téléspectateurs récemment confirmé par Meta. Le responsable a critiqué ce coût élevé et l'approche avec laquelle le produit est lancé.

«Je pense que votre annonce montre vraiment la différence de valeurs et de vision que nos entreprises apportent à cela d'une manière qui, à mon avis, est vraiment importante. Nous innovons pour nous assurer que nos produits sont aussi accessibles et abordables que possible pour tous », a déclaré le PDG, dans des déclarations publiées par The Verge, un média qui était présent à la réunion.

Lisez aussi

foxconn-annonce-que-lusine-pour-les-superpuces-de-nvidia-est-en-construction-au-mexique
Foxconn annonce que l'usine pour les superpuces de Nvidia est en construction au Mexique.

08.10.2024

taiwan-bat-son-record-dexportations-au-troisieme-trimestre-grace-a-lessor-de-lia
Taïwan bat son record d'exportations au troisième trimestre grâce à l'essor de l'IA.

08.10.2024

le-prix-nobel-de-physique-va-a-hopfield-et-hinton-pour-avoir-contribue-a-lapprentissage-des-machines
Le prix Nobel de physique va à Hopfield et Hinton pour avoir contribué à l'apprentissage des machines.

08.10.2024

© 2025 programmeur.ch - Mentions légales

Abonnez-vous !

Recevez les actualités sur l'intelligence artificielle en avant première.