Depuis l’arrivée de ChatGPT fin 2022, plusieurs modèles de langage IA ont été lancés sur le marché. Pour les adeptes de la technologie et particulièrement l’intelligence artificielle, l’abondance de l’offre rend la tâche de juger la qualité des différents modèles difficile. Jusqu’à présent, les principales évaluations viennent directement des entreprises, qui sélectionnent des critères favorisant leurs propres technologies.
Pour combattre ce problème, la LMSYS (Large Model Systems Organization) a pris la décision de faire son propre classement.
La LMSYS est un projet initié par des étudiants de l’Université de Berkeley, avec le soutien de Hugging Face. Ce projet a pour objectif de produire des modèles de langage, développer des interfaces et compiler des ensembles de données pour stimuler la recherche en intelligence artificielle générative. La LMSYS a mis en place le Chatbot Arena, un espace d’affrontement entre les modèles, et ce, afin d’offrir une comparaison des diverses options disponibles.
Voici les 10 modèles de langage les plus performants, selon le Chatbot Arena, après avoir collecté plus de 400 000 contributions:
- Claude-3 Opus: 1253
- 2-GPT-4 1106: 1251
- GPT-4 0125: 1248
- Gemini Pro: 1203
- Claude 3 Sonnet: 1198
- GPT-4 0314: 1185
- Claude 3 Haiku: 1179
- GPT-4 0613: 1158
- Mistral Large 2402: 1157
- Qwen1 5-72B Chat: 1148