OpenAI a transcrit un million d'heures de vidéos YouTube pour entraîner GPT-4, selon le New York Times

New York, 6 avril (EFE).- OpenAI a créé un programme pour transcrire plus d'un million d'heures de vidéos YouTube dans le but de former le modèle de génération de texte GPT-4, son modèle le plus avancé ouvert au public, selon une étude exclusive. du New York Times (NYT) publié ce samedi.

Le journal affirme qu'OpenAI, une société à but non lucratif, a développé un programme appelé « Whisper » qui extrayait le texte de plus d'un million d'heures de vidéos afin d'obtenir des données de formation pour des modèles de génération de langage, connus sous le nom de LLM.

Des sources consultées par le NYT assurent que l'équipe en charge de Whisper comprenait Greg Brockman, président d'OpenAI.

La société a eu un débat interne pour savoir si l'extraction de texte à partir de vidéos hébergées sur la plate-forme appartenant à Google constituait une violation de ses conditions d'utilisation.

Selon l'article, OpenAI a estimé qu'il avait besoin de plus de données de formation en 2021 et a discuté de l'opportunité de les obtenir à partir de YouTube, de podcasts ou de livres audio.

Dans une récente interview, le directeur exécutif de YouTube, Neal Mohan, a assuré que si OpenAI utilisait des vidéos de la plateforme pour entraîner « Sora », son modèle réaliste de génération de vidéos, cela violerait ses conditions de service.

"Les créateurs de contenu qui viennent sur YouTube ont certaines attentes, notamment que les conditions de service soient respectées. Nos conditions nous permettent d'extraire certains contenus tels que le titre, le nom de la chaîne ou le nom du créateur pour faciliter le Web ouvert", a expliqué Mohan.

"Il n'est pas permis de télécharger des transcriptions ou des parties de vidéos. Cela constitue une violation flagrante de nos conditions de contenu", a ajouté le responsable.

La porte-parole d'OpenAI, Lindsay Held, a indiqué dans une réponse à l'exclusivité obtenue par The Verge que la société crée des bases de données "uniques" et utilise "de nombreuses sources accessibles au public et conclut des accords pour obtenir des données qui ne sont pas publiques".

Google transcrit des vidéos YouTube pour obtenir du texte pour alimenter ses modèles de génération de texte, ce qui violerait les droits des créateurs qui téléchargent leurs vidéos sur la plateforme, selon des sources consultées par le journal.

Les droits sur le contenu utilisé pour entraîner les modèles d'intelligence artificielle ne sont pas encore bien définis et la concurrence pour obtenir les modèles de génération de contenu les plus réalistes repousse les limites de la légalité du droit d'auteur.

Le géant de la technologie Meta, créateur de Facebook, a débattu l'année dernière de l'opportunité d'acheter l'éditeur Simon & Schuster pour avoir accès à ses documents longs, selon le contenu de réunions entre chefs d'entreprise, avocats et ingénieurs auxquelles l'entreprise a eu accès au New York Times.

OpenAI a transcrit un million d'heures de vidéos YouTube pour entraîner GPT-4, selon le New York Times

Lisez aussi