ChatGPT a désormais une voix
L’une des caractéristiques les plus intéressantes de GPT-4o est sa capacité « nativement multimodale ». Cela signifie que le modèle peut générer du contenu ou comprendre des commandes vocales, textuelles ou images, ouvrant ainsi une gamme de possibilités dans l’interaction entre les humains et l’IA.

Cependant, avec l'annonce de GPT-4o, OpenAI a voulu se concentrer entièrement sur l'expérience utilisateur, puisqu'il existe fondamentalement les mêmes possibilités de générer du contenu que la version traditionnelle, mais avec en plus le fait de le faire par la voix.
Auparavant, l'interaction avec ChatGPT était principalement limitée au texte, mais avec l'introduction de la voix, les utilisateurs peuvent désormais communiquer avec le système de manière plus intuitive et naturelle. Ceci est réalisé grâce à la capacité de GPT-4o à traiter et à générer des réponses en temps réel, capturant même l'émotion dans la voix de l'utilisateur et la reproduisant dans différents styles.
Concernant sa disponibilité, OpenAI a confirmé que GPT-4o sera disponible gratuitement pour tous les utilisateurs de ChatGPT. De plus, les utilisateurs payants bénéficieront de limites de capacité jusqu'à cinq fois supérieures à celles des utilisateurs gratuits.
La mise en œuvre de la voix dans ChatGPT améliore non seulement l'expérience utilisateur, mais étend également considérablement les capacités de la plateforme. Désormais, ChatGPT peut non seulement répondre aux requêtes textuelles, mais peut également comprendre et générer des réponses basées sur des commandes vocales, ce qui en fait un outil encore plus polyvalent et puissant.
En plus de la voix, GPT-4o améliore également les capacités de ChatGPT dans le champ de vision. Désormais, le système peut analyser des images ou des captures d'écran et fournir des informations pertinentes ou des réponses à des requêtes spécifiques.
Les développeurs bénéficieront également de la disponibilité de GPT-4o via l'API OpenAI. Offrant un accès au modèle à moitié prix et deux fois plus rapide que GPT-4 Turbo, cette API permettra aux développeurs d'intégrer des capacités vocales dans leurs propres applications et systèmes, ouvrant ainsi de nouvelles possibilités dans le développement d'applications d'IA.

Exemples d'utilisation de ChatGPT avec la voix
Pour comprendre toute cette nouveauté, OpenAI a montré une longue liste d'exemples, car les options offertes par ce nouveau modèle de langage sont très larges et les utilisateurs peuvent trouver des options qui vont de simples demandes de conversation, aux traductions en temps réel, en passant par l'analyse du code de programmation. . Voici quelques exemples :
- Chat occasionnel : ChatGPT peut désormais répondre de manière plus fluide, car il ne prend pas la voix de l'utilisateur pour la convertir en texte, puis renvoie un résultat audio. Évitez ce processus et répondez immédiatement avec votre voix, sur un ton amical, amusant et accessible. Vous pouvez donc l'utiliser pour avoir une conversation informelle, lui poser des questions, effectuer des recherches et lui demander de l'aide.
- Traduction : Lors de la présentation, ils ont testé ChatGPT pour interpréter une conversation en anglais et en italien en temps réel. L'assistant a pris la voix dans chaque langue et l'a traduite immédiatement. Être un outil utile pour les voyages, les réunions et plus encore.
- Analyse d'images : le chatbot aura accès à la caméra de l'utilisateur, il sera donc possible de lui montrer des images pour résoudre un problème mathématique, dire quel est l'objet ou même jouer à la pierre, au papier ou aux ciseaux.
- Analyse de codes et de graphiques : ChatGPT comprendra les codes de programmation comme dans sa version traditionnelle, mais avec la différence de donner une réponse vocale pour que tout soit plus fluide. De plus, vous pourrez recevoir des images de l'ordinateur pour les analyser et générer du contenu.