MMLU-Pro Benchmark — Ergebnisse & Übersicht | Byte.de — Byte.de

Jetzt neu: Byte Pulse – Token-Limits von Claude Code, Codex & Co. tracken! 

MMLU-Pro — Übersicht

MMLU-Pro Leaderboard

Ranking aller getesteten Modelle im MMLU-Pro Benchmark, sortiert nach Score.

‌
‌

#	Modell⇅	Score
1	GPT-5.6 Sol	89,1 %
2	MiniMax M2.1	88 %
3	Qwen3.5-397B-A17B	87,8 %
4	DeepSeek-V4-Pro (Preview)	87,5 %
5	Kimi K2.5 (Thinking)	87,1 %
6	GPT-5.6 Terra	86,66 %
7	Grok-4	86,6 %
8	Gemma 4 31B	85,2 %
9	DeepSeek-R1-0528	85 %
10	GLM-4.5	84,6 %
11	Kimi K2 Thinking	84,6 %
12	Qwen3 235B A22B Thinking 2507	84,4 %
13	GLM-4.7	84,3 %
14	Nemotron 3 Super	83,73 %
15	MiniMax-M2	82 %
16	GLM-4.5 Air	81,4 %
17	Qwen3 30B A3B Instruct 2507	78,4 %
18	Gemma 3	67,5 %