Pourquoi ChatGPT est plus cher en espagnol qu'en anglais

Pourquoi l'API OpenAI est plus chère pour les langues autres que l'anglais : Au-delà des mots, l'encodage par paires d'octets et l'encodage Unicode influencent les disparités de prix. (Photo AP/Michael Dwyer)

Le langage dans lequel fonctionne une intelligence artificielle génère une différence de prix élevée entre l’une et l’autre. Ce qui est suffisamment important pour créer un fossé entre l’IA en anglais et dans d’autres langues, dont l’espagnol .

Ceci est confirmé par une étude réalisée par une équipe de scientifiques de l'Université d'Oxford, qui a analysé la manière dont des entreprises comme OpenAI (développeur de ChatGPT) et a conclu que la disparité dans le traitement des différentes langues se produit dans la tokenisation . étape, bien avant qu’un modèle ne soit invoqué.

L'étude, réalisée par Aleksandar Petrov, Emanuele La Malfa, Philip HS Torr et Adel Bibi, montre que, par exemple, le chinois simplifié coûte deux fois plus cher que l'anglais et la langue Shan (Birmanie), à l'autre extrême, 15 fois plus cher. .

L'expression « bonjour tout le monde » comporte deux jetons en anglais et 12 jetons en hindi. (Vers la science des données)

Une différence de durée de tokenisation qui pose problème car l’ API OpenAI est facturée par unités de 1000 tokens. Par conséquent, si vous avez jusqu’à 15 fois plus de jetons dans un texte comparable, le coût de traitement sera 15 fois plus élevé.

Dans le cas de l'IA en espagnol, elle est 50 % plus chère qu'en anglais, selon l'étude intitulée « Les tokeniseurs de modèles linguistiques provoquent un écart entre les langues ».

Le nombre de jetons pour l'expression « hello world » en anglais, japonais et hindi. (Towards Data Science)

Les jetons sont l'unité de mesure qui représente le coût de calcul nécessaire pour accéder à un modèle de langage via une API, qui est un morceau de code permettant à différentes applications de communiquer entre elles pour partager des informations et des fonctionnalités.

Ce système de tokenisation signifie que les modèles utilisés dans des langues autres que l'anglais sont beaucoup plus coûteux à utiliser et à former. La raison sous-jacente est que le chinois ou l’espagnol ont des structures différentes, plus complexes grammaticalement et avec un plus grand nombre de caractères requis, ce qui entraîne un taux de tokenisation plus élevé.

En fait, les modèles au niveau des caractères et au niveau des octets présentent également une différence de longueur de codage plus de 4 fois supérieure pour certaines paires de langues.

Et devoir utiliser davantage de puissance de calcul conduit à un traitement injuste pour certaines communautés linguistiques en ce qui concerne le coût d’accès aux services commerciaux, le temps de traitement et la latence ; ainsi que la quantité de contenu qui peut être fourni comme contexte aux modèles.

OpenAI dispose d'un tokenizer de modèle de langage GPT-3 dans lequel les différences entre l'anglais et les autres langues peuvent être vérifiées.

Une expression comme « votre affection » ne compte que 2 jetons en anglais, mais 8 en chinois simplifié. Cela se produit malgré le fait que l'expression en chinois nécessite moins de caractères qu'en anglais.

En espagnol, il y a aussi moins de caractères qu'en anglais, mais le coût s'élève à 4 jetons.

Comparaison de la tokenisation de deux phrases en anglais et en espagnol. (Capture d'écran)

OpenAi lui-même précise qu'en règle générale, 1 jeton équivaut à 4 caractères en anglais et 100 jetons équivalent à environ 75 mots, mais il prévient que cette règle ne peut pas être transférée à d'autres langues.

Selon l’étude, la situation avantageuse de l’anglais reflète également les ensembles de données avec lesquels les entreprises entraînent leur intelligence artificielle.

Les mêmes problèmes sont reproduits avec différentes manières de quantifier les coûts telles que le nombre de bits ou de caractères et apparemment, aucune langue ne peut surpasser la praticité de l'anglais, qui continuerait à présenter des coûts inférieurs en raison de sa plus grande compressibilité en moins de jetons.

En outre, il est conclu que le problème ne réside pas dans la manière dont l’IA a été monétisée, mais plutôt dans une limitation de la technologie et des modèles de base considérés pour la formation en IA.

Pourquoi ChatGPT est plus cher en espagnol qu'en anglais

Que sont les jetons ?

Une situation avantageuse

Lisez aussi