
New York, 25 septembre (EFE).- OpenAI, la société qui a créé le chatbot doté d'intelligence artificielle (IA) générative (IA) ChatGPT, a annoncé ce lundi une nouvelle version de son outil populaire capable de « voir, entendre et parler » à voix haute. .avec les utilisateurs.
Jusqu'à présent, vous ne pouviez interagir avec les différentes versions de ChatGPT que par écrit, mais les utilisateurs payants dans "deux semaines" pourront avoir une conversation à haute voix et écouter les réponses de la machine, ainsi qu'envoyer des photos, des images, des captures d'écran et des documents. au chat pour obtenir des réponses spécifiques.
De leur côté, ceux qui utilisent la version gratuite de cet outil pourront profiter de ces nouvelles mises à jour « peu de temps après », selon OpenAI.
"La voix et l'image vous offrent davantage de façons d'utiliser ChatGPT dans votre vie. Lorsque vous êtes à la maison, prenez des photos de votre réfrigérateur et de votre garde-manger pour voir ce qu'il y a pour le dîner (et posez des questions pour une recette étape par étape)", a-t-il déclaré. note l'entreprise dans un communiqué.
Tout en illustrant comment l'outil vocal peut être utilisé, la société affirme qu'il peut être utilisé pour « raconter une histoire ou résoudre un débat ».
Pour l'instant, cet assistant vocal - similaire à Alexa d'Amazon et Siri d'Apple - sera disponible pour iOS et Android, mais pas sur PC.
Vous pouvez choisir entre cinq voix différentes, même si la voix qui vient par défaut et celle qui apparaît dans les exemples d'aujourd'hui est une voix qui imite celle d'une jeune femme apparemment blanche, comme c'est généralement courant dans ce type d'outils.
Grâce à Whisper – un outil OpenAI qui utilise l'IA pour transcrire l'audio – la voix de l'utilisateur est convertie en texte, et l'entreprise utilise ensuite son nouveau modèle de synthèse vocale pour la réponse de la machine.
« Notre nouvelle technologie vocale est capable de créer des voix synthétiques réalistes à partir de quelques secondes seulement de parole réelle. Cela ouvre la porte à de nombreuses applications créatives et fournit des outils d'accessibilité. Cependant, ces capacités présentent également de nouveaux risques, tels que la possibilité que des acteurs malveillants se fassent passer pour eux. personnalités publiques ou commettre une fraude", prévient l'entreprise.
OpenAI a également annoncé aujourd'hui que la plateforme musicale Spotify utilise « la puissance de cette technologie pour traduire certains de ses podcasts dans « des langues supplémentaires, tout en conservant la voix des hôtes et des invités ».