
Intelligence artificielleChatGPTOrdinateurs et InternetLogicielsGoogle IncOpenAI LabsMurati, Mira
Le nouveau chatbot ChatGPT n'est plus une mosaïque de trois technologies, mais plutôt une plus efficace qui accepte et génère des textes, des sons et des images.
Pendant qu’Apple et Google transforment leurs assistants vocaux en chatbots, OpenAI transforme son chatbot en assistant vocal.
Lundi, la startup d'intelligence artificielle de San Francisco a dévoilé une nouvelle version de son chatbot ChatGPT capable de recevoir et de répondre à des commandes vocales, des images et des vidéos.
La société a déclaré que la nouvelle application – basée sur un système d'intelligence artificielle appelé GPT-4o – traite l'audio, les images et la vidéo beaucoup plus rapidement que la version précédente de la technologie. L'application sera disponible gratuitement à partir de lundi, tant sur les téléphones portables que sur les ordinateurs de bureau.
"Nous étudions l'avenir de l'interaction entre nous et les machines", a déclaré Mira Murati, directrice technologique de l'entreprise.
La nouvelle application fait partie d'un effort plus large visant à combiner des chatbots conversationnels comme ChatGPT avec des assistants vocaux comme Google Assistant et Siri d'Apple. Alors que Google fusionne son chatbot Gemini avec Google Assistant, Apple prépare une nouvelle version plus conversationnelle de Siri.
OpenAI a déclaré qu'il partagerait progressivement la technologie avec les utilisateurs "au cours des prochaines semaines". C'est la première fois que ChatGPT est proposé en tant qu'application de bureau.
Auparavant, la société proposait des technologies similaires à partir de plusieurs produits gratuits et payants. Désormais, elle les a intégrés dans un système unique disponible dans tous ses produits.
Lors d'un événement diffusé en direct sur Internet, Murati et ses collègues ont montré comment la nouvelle application répondait aux commandes vocales d'une conversation, utilisaient un flux vidéo en direct pour analyser des problèmes mathématiques écrits sur une feuille de papier et lisaient à haute voix des histoires ludiques sur lesquelles j'avais écrit. la mouche.
La nouvelle application ne peut pas générer de vidéo. Mais il peut générer des images fixes qui représentent les images d’une vidéo.
Avec le lancement de ChatGPT fin 2022, OpenAI a démontré que les machines peuvent traiter les requêtes davantage comme des personnes. En réponse aux messages texte conversationnels, il était capable de répondre à des questions, de rédiger des articles et même de générer du code informatique.
ChatGPT n'était pas guidé par un ensemble de règles. Il a acquis ses compétences en analysant d'énormes quantités de textes extraits d'Internet, notamment des articles Wikipédia, des livres et des journaux de discussion. Les experts ont salué cette technologie comme une alternative possible aux moteurs de recherche comme Google et aux assistants vocaux comme Siri.
Les versions plus récentes de la technologie ont également tiré des enseignements des sons, des images et des vidéos. Les chercheurs appellent cela « l’IA multimodale ». Essentiellement, des entreprises comme OpenAI ont commencé à combiner des chatbots avec des générateurs d’images, d’audio et de vidéo IA.
(Le New York Times a poursuivi OpenAI et son partenaire Microsoft en décembre, alléguant une violation du droit d'auteur sur du contenu d'actualité lié aux systèmes d'intelligence artificielle.)
Alors que les entreprises combinent chatbots et assistants vocaux, les obstacles sont nombreux à surmonter. Étant donné que les chatbots acquièrent leurs compétences à partir de données sur Internet, ils sont enclins à commettre des erreurs. Parfois, ils constituent entièrement des informations, un phénomène que les chercheurs en IA appellent « hallucination ». Ces échecs sont transférés aux assistants vocaux.
Bien que les chatbots puissent générer un langage convaincant, ils sont moins aptes à effectuer des actions telles que planifier une réunion ou réserver un vol. Mais des entreprises comme OpenAI s’efforcent de les transformer en « agents IA » capables d’effectuer ces tâches de manière fiable.
OpenAI proposait auparavant une version de ChatGPT capable d'accepter des commandes vocales et de répondre vocalement. Mais il s’agissait d’une mosaïque de trois technologies d’intelligence artificielle différentes : une qui convertissait la voix en texte, une autre qui générait une réponse écrite et une autre qui convertissait ce texte en voix synthétique.
La nouvelle application est basée sur une seule technologie d'IA - GPT-4o - capable d'accepter et de générer du texte, des sons et des images. Cela signifie que la technologie est plus efficace et que l'entreprise peut se permettre de la proposer gratuitement aux utilisateurs, a déclaré Murati.
"Avant, toute cette latence était le résultat de la collaboration de trois modèles", a déclaré Murati dans une interview au Times. "Vous voulez vivre l'expérience que nous vivons, où nous pouvons avoir ce dialogue très naturel."
Cade Metz est correspondant technologique couvrant l'intelligence artificielle, les voitures autonomes, la robotique, la réalité virtuelle et d'autres domaines émergents. Plus de : Cade Metz
La nouvelle application fait partie d'un effort plus large visant à combiner des chatbots conversationnels comme ChatGPT d'OpenAI avec des assistants vocaux comme Google Assistant et Siri d'Apple. (Jason Henry/Le New York Times)