
L'intelligence artificielle (IA) est de plus en plus étroitement liée à notre vie quotidienne, soulevant une question à la fois curieuse et préoccupante : pourquoi les grands modèles linguistiques ( LLM ), les cerveaux des chatbots, pensent-ils en anglais même lorsqu'ils interagissent dans d'autres langues ? Bien que les termes cerveau et pensée ne soient que des analogies, ils nous permettent d’analyser pourquoi ce qui pourrait ressembler à une particularité technique sans conséquences majeures est, en réalité, quelque chose de vraiment compliqué. Cette caractéristique des LLM a de profondes implications, non seulement sur l'efficacité de la communication numérique mondiale, mais également sur la diversité culturelle et linguistique de notre société mondiale .
Lorsque des questions sont posées en chinois, français, allemand ou russe à ces modèles linguistiques, ils semblent traiter les requêtes en anglais , ce qui pourrait soulever des problèmes culturels étant donné la prédominance de concepts plus courants dans les cultures anglophones. Ce phénomène est devenu évident avec le lancement de ChatGPT , qui a marqué un tournant dans la popularisation des LLM (et, pour les hispanophones, a inondé le monde de gérondifs mal utilisés). Des recherches récentes menées par Chris Wendler, Veniamin Veselovsky et leurs collègues de l' École polytechnique fédérale de Lausanne ont montré comment les modèles Llama 2 de Meta traitent les requêtes . En le publiant, New Scientist a offert un aperçu fascinant du fonctionnement interne de ces systèmes et de leurs biais potentiels.
Comment les modèles « pensent » en anglais ?

Les scientifiques ont donné aux modèles Llama 2 trois types d'instructions en chinois, français, allemand et russe : l'une demandait de répéter le mot donné ; un autre a demandé de traduire d’une de ces langues à une autre ; et le troisième a demandé de remplir un espace vide dans une phrase. En retraçant la manière dont les modèles traitaient chaque instruction, ils ont découvert que le chemin de traitement à travers les couches passait presque toujours par ce qu’ils appelaient le sous-espace anglais. Esto indica fuertemente que el inglés es utilizado como un puente para ayudar a entender los conceptos: para que los LLM comprendan y procesen conceptos en varios idiomas, primero traducen estos conceptos al inglés, procesan la información, y luego traducen las respuestas de vuelta al idioma d'origine.
Pourquoi cette « anglocentration » est-elle importante ?
La domination de l’anglais dans les modèles d’IA soulève des questions cruciales sur la diversité et l’équité. Carissa Véliz, de l' Université d'Oxford , et Aliya Bhatia , du Center for Democracy & Technology à Washington, DC , ont expliqué au New Scientist comment l'anglocentrisme pouvait réduire la diversité et superposer une vision limitée du monde à des régions linguistiquement et culturellement distinctes . Cela affecte non seulement la précision avec laquelle les réponses sont générées dans d’autres langues, mais pourrait également conduire à des résultats non pertinents, voire dangereux, dans des situations critiques.
Que disent les spécialistes ?

Bien que de tels modèles puissent offrir de bonnes performances sur des tâches multilingues, avec l’anglais comme langue pivot, le risque de biais est important. Veselovsky , l'un des chercheurs, a souligné au New Scientist que la prévalence de données de haute qualité en anglais pour former ces modèles est plus grande que dans la plupart des autres langues, ce qui peut par inadvertance favoriser les valeurs culturelles anglocentriques.
Est-il possible de mettre en œuvre un modèle multilingue équitable ?
La mise en œuvre d'un modèle LLM véritablement multilingue pose des défis non seulement techniques, mais également éthiques et économiques. Bien que des modèles comme Meta's Llama 2 aient démontré leur capacité à traiter et à répondre à des questions dans plusieurs langues, ils s'appuient toujours principalement sur l'anglais comme « langue de transition ».
Concevoir et mettre en œuvre un modèle qui fonctionne nativement dans plusieurs langues sans utiliser l'anglais comme intermédiaire implique de surmonter plusieurs obstacles. Premièrement, cela nécessite la constitution d’un corpus de formation diversifié et représentatif couvrant un large éventail de langues et de dialectes. Cela conduit à son tour à la nécessité de collecter et de traiter d’énormes quantités de données dans des langues moins dominantes dans l’environnement numérique, ce qui représente un défi logistique et financier considérable.

De plus, le recours à l'anglais dans les LLM reflète les modèles de pouvoir et de privilèges du monde réel . Combattre cette tendance signifie affronter et remettre en question ces schémas, mais surtout s’efforcer de parvenir à une représentation équitable de toutes les cultures et de toutes les langues.
Où allons-nous ?
La détection d’un biais anglocentrique dans les LLM ouvre un champ de recherche crucial pour l’avenir de l’intelligence artificielle : comment garantir que les avancées technologiques profitent équitablement à toutes les cultures et langues. Il est essentiel que les futures versions des grands modèles linguistiques soient développées avec une couverture linguistique plus équitable afin de refléter et de respecter la riche diversité du paysage linguistique et culturel humain , ont souligné les chercheurs suisses.