Le MMLU (Massive Multi-task Language Understanding) est un benchmark conçu pour évaluer la compréhension du langage et les capacités de résolution de problèmes des modèles de langage. Il couvre 57 sujets dans divers domaines, allant des sciences humaines et sociales aux STEM (sciences, technologies, ingénierie et mathématiques), et teste à la fois la connaissance du monde et la capacité de résolution de problèmes. Les sujets varient des domaines traditionnels comme les mathématiques et l’histoire à des domaines plus spécialisés comme le droit et l’éthique.
Le MMLU mesure la précision multitâche d’un modèle de texte en l’évaluant dans des paramètres de zéro et de quelques exemples. Pour obtenir une haute précision sur ce test, les modèles doivent posséder une vaste connaissance du monde et une capacité de résolution de problèmes. Les résultats initiaux sur MMLU ont révélé que les modèles de langage de grande taille (LLMs) avaient tendance à performer mieux que les modèles plus petits, avec des précisions variant considérablement en fonction de la taille et des capacités du modèle.
En plus de fournir une évaluation globale de la compréhension académique et professionnelle d’un modèle, le MMLU peut être utilisé pour analyser les modèles sur de nombreuses tâches et pour identifier des lacunes importantes. Par exemple, il a été constaté que les modèles ont des performances inégales et ne savent souvent pas lorsqu’ils se trompent. Ils ont encore une précision presque aléatoire sur certains sujets socialement importants tels que la morale et le droit.
Le MMLU est un outil précieux pour évaluer les capacités générales de compréhension du langage des modèles de langage et pour identifier les domaines dans lesquels des améliorations sont nécessaires.
Les questions du MMLU vont du niveau élémentaire au niveau professionnel avancé et testent à la fois la connaissance du monde et la capacité de résolution de problèmes.
Voici quelques exemples de domaines et de types de questions abordés dans le MMLU :
Humanités : Cela inclut le droit, la philosophie, l’histoire, etc. Les questions de droit peuvent nécessiter la connaissance de l’application de règles et de normes à des scénarios complexes, tandis que les questions de philosophie couvrent des concepts tels que les sophismes logiques, la logique formelle et les arguments philosophiques célèbres.
Sciences sociales : Cela comprend l’économie, la sociologie, la politique, la géographie, la psychologie, etc. Par exemple, les questions d’économie peuvent inclure des éléments de microéconomie, de macroéconomie et d’économétrie, nécessitant une combinaison de connaissances du monde, de raisonnement qualitatif ou quantitatif.
STEM : Cela comprend la physique, l’informatique, les mathématiques, etc. Par exemple, les questions de physique conceptuelle testent la compréhension de principes physiques simples, et les questions de mathématiques de niveau collège exigent souvent des chaînes de raisonnement et des connaissances abstraites.
Autres domaines : Cela inclut des sujets qui ne rentrent pas facilement dans les catégories précédentes ou pour lesquels il n’y a pas des milliers de questions disponibles gratuitement. Par exemple, la médecine professionnelle est incluse, nécessitant des réponses à des questions complexes qui demandent plusieurs années d’étude pour être maîtrisées par les humains.
Un exemple spécifique de question dans le cadre du MMLU pourrait être une question historique sur l’Acte de Suprématie en Angleterre. Plusieurs modèles de langage, comme GPT-4.0-Turbo, Anthropic Claude 2, et Zephyr, ont été évalués sur leur capacité à interpréter un passage historique et à répondre correctement à une question à choix multiples liée à cet Acte. Dans cet exemple, tous les modèles ont choisi l’option (D) : mettre fin à diverses formes de corruption qui sévissent dans l’Église en Angleterre, démontrant leur compréhension du passage historique donné
Ces exemples illustrent comment le MMLU évalue la compréhension du langage des modèles dans une variété de domaines, mettant l’accent sur leur capacité à utiliser des connaissances préalablement acquises pour résoudre des problèmes complexes et à raisonner à travers différents types de contenu.