Programmeur.chprogrammeur.ch
  • Intelligence artificielle

Un éléphant vert se promène dans New York : tout est possible grâce à SORA

Publié le 24.05.2024
OpenAI, la société qui a conçu SORA et ChatGPT (REUTERS/Dado Ruvic/Illustration)

Les deux dernières années ont généré un écosystème prolifique dans lequel sont apparus différents outils dotés d’Intelligence Artificielle : chacun relève le défi de son prédécesseur, pour mettre les enjeux et la barre encore plus haut.

Sora, le nouvel outil d'Open AI permettant de créer des vidéos d'une minute à partir d'instructions textuelles, connues sous le nom d'« invites », a été récemment introduit.

Qu'est ce que c'est? Une zone de texte dans laquelle un utilisateur interagit avec l'intelligence artificielle.

Le célèbre outil Open AI, ChatGPT, est essentiellement cela : une zone de texte dans laquelle l'utilisateur saisit, par exemple, une question et l'outil fournit une réponse comme s'il s'agissait d'un humain. De plus, il permet de maintenir une conversation très cohérente, c'est-à-dire qu'il peut générer un dialogue entre l'utilisateur et la machine.

Après ChatGPT, OpenAI a fait irruption avec DALL-E dont la seule différence est que la sortie de l' invite que l'utilisateur donne à l'IA est une image. On peut facilement indiquer qu'on veut une image d'un éléphant vert et DALL-E générera simplement l'image souhaitée.

Si aujourd'hui Sora peut générer une vidéo d'un éléphant vert à Manhattan, c'est parce qu'au cours de sa formation il a reçu de nombreuses vidéos d'éléphants où, après avoir « appris » l'apparence de cet animal, il a acquis la capacité d'en inventer un nouveau, différent de tous les autres. d'autres qu'il a vus connaissaient.

Actuellement, OpenAI travaille à aller plus loin, avec la même mécanique que ChatGPT et DALL-E : une intelligence qui sera capable de générer des vidéos de haute qualité d'une minute, auxquelles nous pourrons demander de créer une vidéo de notre éléphant vert marchant dans Manhattan ou quelque chose de plus frappant, par exemple, comme Messi avec le maillot du Brésil. Ce nouvel outil, qui n'est pas encore accessible au grand public, s'appelle Sora.

Comment fonctionne cette technologie ? Comment est-il possible qu’à partir d’un texte, une vidéo ou une image puisse être générée à partir de quelque chose qui n’a jamais existé ?

Comme le reste des IA, ce qui supporte cet outil est ce qu'on appelle normalement un « modèle » : une grande base de données qui contient les informations nécessaires pour atteindre son objectif. Dans le cas de Sora, et revenons à notre éléphant vert, le modèle contient des informations précises sur la façon de générer une vidéo de quelque chose qui ressemble beaucoup à un éléphant réel, sur la façon dont il marche, et contient également des informations sur à quoi ressemble Manhattan. . Avec toutes ces informations, il peut être recombiné et générer un éléphant totalement nouveau (et vert) qui se promène dans New York.

Comment former un modèle ?

Il s’agit ni plus ni moins de donner des informations claires et concrètes sur un certain sujet et, ainsi, de nourrir et d’acquérir des informations. Pour ce faire, des techniques sont utilisées, comme le Machine Learning par exemple, qui permettent d'automatiser et de mettre à l'échelle l'ingestion et l'apprentissage des données.

OpenAI doit comprendre et prendre en compte que si Sora était publié sans tenir compte de son utilisation responsable, cela pourrait être très négatif pour la société dans son ensemble.

Dans le cas de Sora, contrairement à ChatGPT qui a été formé uniquement avec du texte, ou DALL-E avec des images, ici la formation se fait avec des vidéos. C'est-à-dire que si aujourd'hui Sora peut générer une vidéo d'un éléphant vert à Manhattan, c'est parce qu'au cours de sa formation il a reçu de nombreuses vidéos d'éléphants où, après avoir « appris » l'apparence de cet animal, il a acquis la capacité d'inventer un un nouveau et différent tous ceux que je connaissais. Autrement dit, l'éléphant créé par Sora ne sera pas le même que tous ceux qu'il a dans son modèle d'entraînement : ce sera une recombinaison de tous ceux qu'il connaît, un tout nouveau. Cette capacité à recombiner des informations que vous connaissez déjà et à générer quelque chose de nouveau est la raison pour laquelle le mot Génératif est toujours associé aux IA.

Dans une récente interview avec le Washington Post, la CTO de Sora, Mira Muratti , a laissé une réponse inquiétante lorsqu'on lui a demandé la source des vidéos qui ont été utilisées pour entraîner l'outil. Au début, il a hésité à répondre, mais il a ensuite déclaré qu'il s'agissait de vidéos publiques sur le Web.

Bien que Sora ne soit pas encore accessible au public, la première chose qui inquiète à propos de l'interview est le manque apparent de connaissances sur l'origine des vidéos de sa formation. Il est possible que ce soit une conséquence de l'inconfort que générerait l'éventuelle vérité : Sora utiliserait des vidéos publiques sur Internet comme l'une de ses sources de formation et, si c'est le cas, cela signifie qu'il peut prendre une vidéo publique d'une famille sur Instagram, modifiant clairement le but pour lequel cette vidéo a été publiée. Cela amène à se demander si le fait que la vidéo soit publiée sur Internet donne à OpenAI le pouvoir de la prendre et de l’utiliser.

L'éléphant créé par Sora ne sera pas le même que tous ceux qu'il a dans son modèle d'entraînement : ce sera une recombinaison de tous ceux qu'il connaît, un tout nouveau.

Pendant longtemps, nous avons été habitués au fait que les images que nous voyions sur l'écran ou sur un téléphone pouvaient être « fausses » ou « retouchées ». Mais même si la technologie a progressé très rapidement ces dernières années, la société dans son ensemble est habituée, d’une manière ou d’une autre, à savoir que l’image qu’elle voit peut être fausse.

Sora propose un nouveau défi : douter de ce que l'on voit à nouveau, mais maintenant dans une vidéo. Cela ne veut pas dire que les moyens de réaliser une vidéo apocryphe n'existaient pas déjà, simplement que cet outil le mettrait entre les mains de quiconque paie pour le service si SORA devait éventuellement être rendu public. Quelque chose qui reste encore incertain.

Un autre défi important sera de savoir comment reconnaître de manière fiable une vidéo générée avec l’IA. Muratti a assuré dans son interview qu'ils travaillaient sur des filigranes ou des mécanismes similaires. Cependant, le filigrane semble faible et facile à contourner ; Cela ne semble pas être un mécanisme robuste et vital permettant à quiconque de savoir qu'il regarde une vidéo générée par Sora. OpenAI doit comprendre et prendre en compte que si Sora devait être publié sans tenir compte de son utilisation responsable, cela pourrait être une chose très négative pour la société dans son ensemble.

Il ne fait aucun doute que Sora est et sera un excellent outil. C’est quelque chose qui va arriver, même si cela représente des risques, comme tout ce qui touche à l’IA.

Il semble bon que la technologie en général, et l’IA en particulier, soient utilisées de manière révolutionnaire dans de nombreux domaines bénéfiques pour le monde : ce qui ne peut être ignoré, c’est que les entreprises qui génèrent ce type de technologie doivent le faire de manière responsable.

L'auteur est Solution Architect d'Ingenia

Lisez aussi

foxconn-annonce-que-lusine-pour-les-superpuces-de-nvidia-est-en-construction-au-mexique
Foxconn annonce que l'usine pour les superpuces de Nvidia est en construction au Mexique.

08.10.2024

taiwan-bat-son-record-dexportations-au-troisieme-trimestre-grace-a-lessor-de-lia
Taïwan bat son record d'exportations au troisième trimestre grâce à l'essor de l'IA.

08.10.2024

le-prix-nobel-de-physique-va-a-hopfield-et-hinton-pour-avoir-contribue-a-lapprentissage-des-machines
Le prix Nobel de physique va à Hopfield et Hinton pour avoir contribué à l'apprentissage des machines.

08.10.2024

© 2025 programmeur.ch - Mentions légales

Abonnez-vous !

Recevez les actualités sur l'intelligence artificielle en avant première.