Programmeur.chprogrammeur.ch
  • Intelligence artificielle

L'intelligence artificielle entre dans une nouvelle ère : c'est la version pour générer des images, des sous-titres et plus encore

Publié le 16.01.2024
L’intelligence artificielle multimodale surpasse les chatbots actuels en termes de capacités et d’applications. (Image d’illustration Infobae)

Un nouveau type d' intelligence artificielle beaucoup plus avancée commence à gagner du terrain en raison de sa capacité à obtenir de meilleurs résultats et applications en étant capable de traiter plusieurs types de données simultanément, comme le texte, les images, l'audio ou même les capteurs qui intègrent des appareils. comme les téléphones portables.

On pourrait même dire que cette IA renouvelée élargit considérablement son champ d’application aussi bien dans le domaine de l’usage quotidien des consommateurs que dans le développement industriel et l’apprentissage automatique .

Cette avancée a été baptisée intelligence artificielle multimodale , un mot qui fait littéralement référence à l'utilisation de plusieurs modes et qui dans ce contexte signifie l'utilisation de différentes sources d'entrée, comme l'audio, pour fournir un résultat qui peut être une image.

En fait, au quotidien, son application devient plus visible avec les grandes améliorations incorporées aux assistants virtuels et aux appareils mobiles actuels, à partir desquels cette nouvelle technologie collecte les données des caméras, des microphones et de divers capteurs ; dans le but d’offrir des réponses plus précises grâce au contexte supplémentaire apporté par la multitude de données collectées.

Tandis que la présence combinée de fonctionnalités de géolocalisation et de connectivité étend encore cet avantage contextuel.

Cette avancée conduit à des interprétations et des réponses plus complexes et plus précises. (Image d’illustration Infobae)

Une autre possibilité pratique de ce type d’intelligence artificielle est qu’elle permet de générer des images à partir d’instructions textuelles et auditives.

Par exemple, il existe des modèles capables de produire des sous-titres pour des vidéos basés non seulement sur l'audio, mais aussi sur le contexte visuel, synchronisant mieux le texte avec l'action à l'écran.

Parallèlement, dans l'industrie, le potentiel est vaste, permettant de prévoir la maintenance des équipements grâce à l'analyse de données telles que la température, le son et l'apparence visuelle, en conjonction avec des paramètres de base d'âge et de durabilité du composant en question.

Qu'est-ce que l'intelligence artificielle multimodale

L’intelligence artificielle multimodale apparaît comme une révolution qui intègre des données textuelles, images, audio et sensorielles. (Image d’illustration Infobae)

Pour comprendre ce qu’est l’intelligence artificielle multimodale , il faut d’abord comprendre qu’elle est une évolution des modèles d’IA classés comme unimodaux. Un exemple est celui des chatbots populaires qui ont fait leur grande percée en 2023 et qui sont basés sur du texte.

Le plus connu de tous est ChatGPT , un développement qui a représenté une révolution, mais ce ne serait que la pointe de l'iceberg de tout le potentiel de l'IA.

En fait, des chiffres aussi pertinents que Sam Altman , PDG d'Open IA, la société qui a créé ce modèle, considère déjà que « les systèmes d'IA actuels seront les plus stupides qui existeront ». Avertissement : même les plus grands progrès sont encore à venir.

C’est le cas de l’intelligence artificielle multimodale, qui améliore considérablement l’interaction et l’entraînement de ces modèles, car elle peut combiner des descriptions textuelles avec des fichiers audio pour générer des images représentatives, ou utiliser des ensembles de données d’images et audio pour associer des sons à des visuels spécifiques.

De plus, ce type de technologie est capable de prioriser différents modes de saisie pour fournir des résultats pondérés en fonction des besoins anticipés.

Modèles d'IA multimodaux en vedette

Des sociétés comme OpenAI et Google ont introduit des modèles comme GPT-4 et Gemini qui sont désormais disponibles pour les développeurs et le grand public. (Image d’illustration Infobae)

Google Gemini et le GPT-4 d'OpenAI (ou GPT-4V, avec le V représentant la vision) sont des exemples emblématiques de modèles d'IA multimodaux.

Les deux outils sont déjà accessibles aux développeurs et au public, et dans le cas du modèle développé par la société dirigée par Sam Altman, il est disponible via Bing Chat pour les utilisateurs souhaitant expérimenter le téléchargement d'images et les requêtes combinées de texte et d'image. De plus, il s'agit d'un outil gratuit pour les abonnés ChatGPT Plus .

Concernant les Gémeaux, il convient de noter que La mise en place nécessite des compétences Python , même si elle promet une expérience diversifiée en étant formée à l'audio, aux images, aux vidéos, au code et au texte dans plusieurs langues.

Il existe également d'autres modèles tels que Runway Gen-2 , qui produit des vidéos à partir d'invites textuelles, et Meta ImageBind , qui combine du texte, des images et de l'audio avec des données supplémentaires telles que des cartes de chaleur et de profondeur.

Et avec l'évolution constante de l'intelligence artificielle , d'autres entreprises leaders telles que Apple , Meta, Micosoft et Samsung cherchent à intégrer ces évolutions dans les appareils qu'elles fabriquent et dans les services quotidiens qu'elles proposent.

Lisez aussi

foxconn-annonce-que-lusine-pour-les-superpuces-de-nvidia-est-en-construction-au-mexique
Foxconn annonce que l'usine pour les superpuces de Nvidia est en construction au Mexique.

08.10.2024

taiwan-bat-son-record-dexportations-au-troisieme-trimestre-grace-a-lessor-de-lia
Taïwan bat son record d'exportations au troisième trimestre grâce à l'essor de l'IA.

08.10.2024

le-prix-nobel-de-physique-va-a-hopfield-et-hinton-pour-avoir-contribue-a-lapprentissage-des-machines
Le prix Nobel de physique va à Hopfield et Hinton pour avoir contribué à l'apprentissage des machines.

08.10.2024

© 2025 programmeur.ch - Mentions légales

Abonnez-vous !

Recevez les actualités sur l'intelligence artificielle en avant première.