Collection des données et
Traitement du langage naturel

La langue, c’est l’accès
Dans le cadre de notre mission visant à rendre les langues africaines plus accessibles en ligne, nous avons dirigé un projet innovant de collection des données et de traitement du langage naturel pour la langue Bambara/Dioula, parlée par des millions de personnes au Mali, en Côte d’Ivoire, au Burkina Faso, au Libéria et en Guinée.
Pour répondre à l’un des plus grands défis des langues africaines — le manque de ressources numériques — nous avons mis en place un processus rigoureux en plusieurs étapes :
Identification des détenteurs du savoir oral : nous avons collaboré avec plus de 30 griots issus de milieux divers (âge, genre, région) pour recueillir des récits traditionnels transmis oralement.
Enregistrement et traitement des données : plus de 50 heures de récits ont été enregistrées, transcrites avec soin en Bambara/Dioula, puis traduites vers d’autres langues pour créer un corpus bilingue.
Création d’un modèle ASR (Automatic Speech Recognition) : grâce à ces données, nous avons pu entraîner un modèle de reconnaissance vocale automatique, capable de convertir la parole bambara en texte, une étape clé pour rendre le contenu numérique plus accessible aux locuteurs.
Ce travail s'inscrit dans le champ du Traitement du Langage Naturel (NLP), une branche de l'intelligence artificielle qui permet aux machines de comprendre, interpréter et générer du langage humain. Le projet a été réalisé en collaboration avec plusieurs institutions de renom, dont Google Research, RobotsMali, AMALAN, l’INALCO et le Rochester Institute of Technology.
Notre approche met l’humain au cœur de la technologie, en valorisant les traditions orales tout en développant des outils modernes pour les générations futures. Le projet a été présenté à la Deep Learning Indaba, la plus grande conférence d’intelligence artificielle en Afrique.