Un programme d’IA générative conçu pour fonctionner avec plusieurs dialectes arabes est en cours de développement par “The Saudi Data and Artificial Intelligence Authority” (SDAIA) en collaboration avec IBM, selon les entreprises impliquées.
SDAIA a déclaré que son modèle linguistique large (LLM) pour la génération de texte en arabe sera inclus dans la plateforme IA et de données d’IBM, watsonx.
Le LLM de la SDAIA, connu sous le nom d’ALLaM, est remarquable pour sa capacité à récupérer et à générer des informations dans plusieurs dialectes arabes, tant en audio qu’en texte, une capacité avec laquelle les développeurs ont eu du mal pendant des années. Des exemples d’utilisation incluent la rédaction de scripts pour les jeux vidéo et les chatbots de service client pour les entreprises.
À propos du partenariat avec IBM, l’une des plus anciennes sociétés technologiques au monde, le directeur de la SDAIA Esam Alwagait a déclaré “Cette collaboration servira de catalyseur pour de nouveaux progrès technologiques”
Un modèle linguistique basé sur l’IA ne doit pas seulement reconnaître le sens d’un mot individuel, mais aussi son utilisation dans différents contextes régionaux, car les locuteurs arabes utilisent des dialectes régionaux qui peuvent différer considérablement les uns des autres et de l’Arabe Standard Moderne.
Une autre difficulté réside dans le fait que de nombreuses utilisations courantes de l’arabe en ligne se font en utilisant des caractères latins plutôt que des lettres arabes, ce qui signifie que l’ensemble de données sur lequel les développeurs peuvent s’appuyer est beaucoup plus petit que ce qu’il serait pour d’autres langues.
Une façon de surmonter de telles difficultés, selon le chercheur palestinien Mustafa Jarrar de l’Université de Birzeit, est d’augmenter la quantité de données linguistiques mises à disposition des développeurs, car plus les développeurs peuvent obtenir d’entrées dans leurs modèles, plus les résultats finaux seront précis.