InstaDeep a annoncé aujourd’hui qu’elle compte ouvrir en open source le code et les “paramètres” de quatre modèles de langage en génomique. Ces modèles ont été développés en collaboration avec NVIDIA et l’Université technique de Munich en utilisant le superordinateur Cambridge-1.
D’après l’entreprise spécialisée en intelligence artificielle, ces modèles ont été entraînés sur un ensemble de données diversifiées de génomes humains et d’autres espèces, et ont été personnalisés pour effectuer des tâches de classification. InstaDeep affirme que les résultats montrent que ces modèles ont réussi à atteindre des performances similaires, voire meilleures, que des méthodes spécialisées dans 15 des 18 tâches de classification.
L’ouverture en open source de ces modèles pourrait bénéficier aux communautés de la génomique, de l’IA et de la bio-informatique, et accélérer la recherche dans ces domaines.
Les modèles de langage en génomique pourraient être utiles dans plusieurs domaines de la recherche en génomique, tels que l’identification de variations génétiques rares, la prédiction de l’impact des mutations sur les protéines et la compréhension des régions régulatrices du génome.
Ces modèles pourraient également aider à l’annotation automatique de génomes, qui est le processus de détermination de la fonction des gènes d’un organisme en examinant leur séquence d’ADN. Cela permettrait de faciliter la recherche dans de nombreux domaines, tels que la biologie des plantes et des animaux, la médecine personnalisée et la biotechnologie.
En utilisant des modèles de langage en génomique, il serait possible d’analyser de vastes ensembles de données génomiques et d’extraire des informations précieuses à partir de ces données. En outre, la libération de ces modèles au public permettrait aux scientifiques de poursuivre leur recherche en utilisant ces modèles pour résoudre des problèmes de génomique et d’IA plus complexes.