InstaDeep et iCompass révèlent aujourd’hui leur collaboration sur un modèle de traitement automatique des langues (TAL) pour les langues sous-représentées. Déployant les dernières avancées en matière d’IA et d’apprentissage automatique (ML), ces efforts visent à élargir et renforcer la recherche en IA dans l’écosystème technologique tunisien.
Le projet consiste au développement d’un modèle de traitement du langage naturel pour le dialecte tunisien, TunBERT, ainsi que son évaluation sur plusieurs problèmes comme l’analyse de sentiments, la classification de dialecte, la compréhension écrite, ou encore la réponse aux questions.
“Nous sommes ravis de dévoiler TunBert, un projet de recherche né d’une collaboration étroite entre iCompass et InstaDeep, et qui offre au dialecte tunisien une technologie de pointe. Ce travail illustre également le niveau d’excellence auquel peut aspirer l’écosystème technologique tunisien grâce à des collaborations entre les startups leaders en IA.”, dit Karim Beguir, PDG et Co-fondateur d’InstaDeep.
Renforcer les langues sous-représentées
Les modèles de Traitement Automatique du Langage (TAL) tels que le BERT (Représentations d’encodeur bidirectionnel à partir de transformateurs) sont devenus une référence pour la compréhension et traitement du langage naturel. Au vu de leur performance, ces modèles ont été appliqués sur les langues indo-européennes telles que l’anglais, le français, l’allemand, etc., mais les travaux de recherche sur des langues sous-représentées restent rares, ou embryonnaires.
Travaillant ensemble, les équipes d’ingénieurs chercheurs d’iCompass et d’InstaDeep ont développé et amélioré le code de ce modèle pour le dialecte tunisien, avec une série d’expériences réussies. «Cette collaboration fructueuse vise à faire avancer la recherche en IA dans le domaine émergent et important du TAL et des modèles de langage. Notre objectif ultime est de soutenir les talents tunisiens et de favoriser un environnement dans lequel l’innovation peut rayonner, et ensemble pousser plus loin les frontières du possible », déclare le Dr Hatem Haddad, CTO et Co-fondateur d’iCompass.
Boîte à Outils NEMO
Le modèle TunBERT repose sur le toolkit NeMo de NVIDIA, intégrant une version optimisée du modèle BERT. L’équipe de recherche a adapté et affiné le réseau de neurones sous-jacent pour obtenir un modèle de TAL pré-entraîné sur un large corpus du dialecte tunisien. L’utilisation de plusieurs cartes graphiques NVIDIA Tesla V100 a accéléré de manière significative les étapes de pré-entraînement et de raffinement, avec une convergence optimale et distribuée du modèle.
Cette implémentation a permis un apprentissage plus efficace, grâce notamment à une combinaison du Tensor Core Mixed Precision et NeMo. Ainsi, les modèles de représentation contextuelle du texte ont assimilé une vectorisation performante (“embedding”) du langage naturel, le rendant compréhensible par la machine et permettant des gains de performance significatifs. La comparaison des résultats avec d’une part le modèle BERT optimisé de NVIDIA et d’autre part le modèle BERT original montre que la version optimisée de NVIDIA fonctionne mieux sur les différentes fonctions en aval du modèle, pour une puissance de calcul équivalente.