
En plus de l'intelligence artificielle générative, l'un des modèles qui a été développé est celui des systèmes "multimodaux", des programmes capables non seulement de reconnaître des mots et de suivre des instructions, mais aussi de traiter du texte et des images et d'en générer des réponses. C'est la technologie qui est utilisée pour permettre aux personnes malvoyantes d'interagir avec leur environnement de manière autonome.
Ask Envision, par exemple, est un outil numérique qui agit comme un assistant virtuel avec la capacité de voir l'environnement et de l'analyser à l'aide d' une intelligence artificielle telle que GPT-4 pour fournir des informations en temps réel à l'aide d'une voix générée par ordinateur.
Étant donné que dans ces cas, les utilisateurs doivent pouvoir se déplacer confortablement dans la rue sans courir le risque de devoir connecter de grandes lunettes de réalité virtuelle au milieu d'un parc ou au supermarché, le support choisi par Envision était Google Glass .
Étant donné que dans ces cas, les utilisateurs doivent pouvoir se déplacer confortablement dans la rue sans courir le risque de devoir connecter de grandes lunettes de réalité virtuelle au milieu d'un parc ou au supermarché, le support choisi par Envision était Google Glass . Cet appareil a été choisi par les développeurs car il est léger et dispose d'une batterie d'une capacité adéquate pour les environnements publics.

Le système d'application permet la reconnaissance de visages, d'objets, de couleurs et même la description de scènes et d'environnements qui sont ensuite décrits à l'aide d'une voix artificielle pouvant être entendue à travers les lunettes Google . L'un de ses points moins positifs, cependant, est que le traitement de l'environnement est conditionné aux utilisateurs utilisant la fonction pour prendre des photos des lunettes. Seules les images statiques peuvent être analysées.
Pour accéder à l'intelligence artificielle, chaque utilisateur doit installer l'application Envision AI sur son téléphone portable puis la lier aux lunettes Google . Cela permettra d'accéder à des commandes vocales telles que "Scan this" et à des gestes tels que toucher le côté des lunettes pour prendre une photo et lancer le scan.
Selon l'entreprise qui a développé l'outil, l'intelligence artificielle peut identifier d'autres personnes dans une pièce et utiliser la voix artificielle pour dire que l'on "ressemble" à une personne enregistrée dans son système. Il est également capable de traduire des textes dans plus de 60 langues différentes , ainsi que de reconnaître les billets de banque de jusqu'à 100 pays différents , afin que les utilisateurs puissent voyager sans problème vers différentes destinations.
Utilisation contrôlée de ces programmes
Bien qu'en principe la reconnaissance faciale, l'interprétation de l'environnement et la traduction de texte puissent être des fonctions intéressantes à tester et pourraient être utiles pour les utilisateurs ayant une déficience visuelle (partielle ou totale), la vérité est que leur utilisation devrait être limitée à un nombre minimal d'activités.

Cela est dû au fait que, pour l'instant, les modèles d'intelligence artificielle n'ont pas atteint un niveau de précision élevé qui leur permette de se voir confier des aspects plus décisifs de la vie quotidienne, comme la reconnaissance des drogues.
D'autre part, alors que l'intelligence artificielle pose toujours des problèmes de requêtes sur des informations (données inexactes ou inventées), la possibilité que celles-ci apparaissent dans d'autres applications qui intègrent ses capacités doit être prise avec prudence par les utilisateurs.