L'Intelligence Artificielle ne cesse de faire parler d’elle durant ces dernières années, suite à toutes les prouesses qu’elle est capable de réaliser. Santé, automobile, météorologie... aucun domaine n’y échappe.
Dans cet article, nous présentons une des missions adressées à MCOVISION par l’association SIGNES DE SENS, spécialiste de la sensibilisation et de la formation à la Langue des Signes Française (LSF), et qui permet aux mondes des personnes sourdes et des entendants de se rencontrer.
1. La Langue des Signes : un moyen expressif et puissant de communiquer
La langue des signes est un moyen de communication visuel et gestuel utilisé par les personnes sourdes ou malentendantes pour communiquer entre elles. Souvent, cette langue est méconnue et sous-estimée par les personnes entendantes.
Pourtant, elle est tout aussi riche et complexe que les langues parlées.
La langue des signes est unique en ce qu'elle combine des éléments visuels, gestuels et expressifs pour transmettre des idées et des émotions. Il n’existe pas une seule langue des signes, mais presque autant de langues des signes que le nombre de pays.
Pour la France, il s’agit de la Langue des Signes Française. La LSF est pratiquée par plus de 100 000 personnes dans le monde, dont la majorité se trouve en France. Dans la population de sourds qu’on estime à 300 000 personnes, environ 1/3 d’entre elles pratiquent couramment la Langue des Signes et 34 % sont inactives du fait de la difficulté d’accès à l’emploi, aux loisirs et à l’isolement.
L’intelligence artificielle et en particulier la Computer Vision représentent des technologies puissantes mimant les capacités visuelles de l’homme. De ce fait, en analysant automatiquement les signes de la LSF, l’Intelligence Artificielle peut s’avérer très utile pour démocratiser la pratique de la LSF et ainsi permettre aux personnes sourdes de mieux s’intégrer au sein de la société.
2. L’Intelligence Artificielle et la LSF
Il existe actuellement plusieurs systèmes de traduction automatique par IA de la LSF qui utilisent la reconnaissance vidéo et l’analyse de mouvements pour traduire les gestes en mots. Ces traductions peuvent être produites en temps réel pour faciliter la communication des personnes sourdes avec celles qui n’utilisent pas la LSF, notamment lors de conférences et réunions d’entreprise.
Les dispositifs pédagogiques pour former un plus grand nombre de personnes à la LSF profitent également d’outils à base d’intelligence artificielle pour améliorer la formation à la LSF. C’est ainsi que Signes de Sens a fait appel à nos services afin d’intégrer l’IA au sein de son module e-learning, afin de rendre l’apprentissage toujours plus efficace, pédagogique et agréable.
Après avoir visionné les différents tutoriels d’apprentissage d’un ou plusieurs mots de la LSF, la plateforme e-learning proposera à l'apprenant de réaliser la gestuelle correspondante devant sa webcam. L’IA sera alors capable d’évaluer et de noter la qualité du geste réalisé par l’apprenant. L’apprentissage devient ainsi interactif, et l'apprenant devient acteur de son propre apprentissage, en s’évaluant lui-même autant de fois que nécessaire. Il pourra cibler ses points faibles comme ses points forts et obtenir une véritable évaluation objective de ses gestes.
3. Réseaux de neurones
Le modèle d'IA utilisé est un type de réseau de neurones appelé "réseau de neurones convolutifs". Les réseaux de neurones convolutifs sont conçus pour reconnaître des motifs dans des images, ce qui les rend particulièrement adaptés à l'apprentissage de la reconnaissance des signes de la langue des signes.
Puisqu’une vidéo est une succession d’images (ou frames), nous avons utilisé une architecture de réseau 3D, permettant d’exploiter l’information temporelle du signal, contrairement à une approche 2D qui se limiterait à l’analyse spatiale du signal.
Il est important de rappeler que l’objectif de l’apprentissage du modèle d’IA est de permettre à l’ordinateur d’interpréter les caractéristiques et les nuances des signes, pour être à même de les interpréter en mots. Le processus d'apprentissage requiert la collecte d'un grand nombre de vidéos de personnes signant des mots de la LSF devant une webcam.. Ces données doivent être annotées et sont ensuite utilisées pour entraîner le modèle d'IA à reconnaître les signes et à comprendre leur signification. Le modèle minimise ses erreurs grâce à leur rétropropagation dans le réseau, jusqu’à obtenir de hautes performances. Le modèle est enfin déployé pour prédire avec haute précision sur de nouvelles vidéos en conditions réelles.
Le réseau affiche en sortie le mot correspondant au signe réalisé, mais également un score évaluant la qualité du signe que nous avons calculé en fonction des prédictions du modèle d’IA. Ce score, compris entre 0 et 1, permet d’identifier les mots mal signés par les apprenants. Si le score est bas, cela signifie que l’apprenti n’a pas fait son signe correctement, et il devra donc travailler sur certains aspects de son signe pour en améliorer sa réalisation.
4. Conclusion
En conclusion, l'utilisation de l'intelligence artificielle est un pas en avant important pour améliorer la communication entre les personnes sourdes et malentendantes et le reste du monde. Elle offre une solution pratique et efficace pour former à la pratique de la LSF en temps réel, et ainsi promouvoir l'inclusion et la diversité.
Comments