KI-Benchmarks
Alle KI-Benchmarks im Überblick. Vergleiche die Leistung von Sprachmodellen anhand standardisierter Tests für Sprache, Logik, Coding, Wissenschaft und mehr.
Alle KI-Benchmarks im Überblick. Vergleiche die Leistung von Sprachmodellen anhand standardisierter Tests für Sprache, Logik, Coding, Wissenschaft und mehr.
| Kategorie | |||||
|---|---|---|---|---|---|
| AA-Omniscience | Wissen & SpracheCybersecurity | Experte | Gemini 3.1 Pro | 10 | Nov. 2025 |
| Aider Polyglot | Programmierung | Fortgeschritten | GPT-5 | 13 | Dez. 2024 |
| AIME 2025 | Logik & Schlussfolgerung | Experte | Grok-4 Heavy | 40 | Feb. 2025 |
| AIME 2026 | Logik & Schlussfolgerung | Experte | Kimi K2.6 | 3 | Feb. 2026 |
| APEX-Agents | Agentische Aufgaben | Experte | Kimi K2.6 | 1 | Jan. 2026 |
| ARC-AGI-2 | Logik & Schlussfolgerung | Forschungsniveau | GPT-5.5 | 11 | März 2025 |
| Arena.ai | Logik & SchlussfolgerungProgrammierung+3 | Mittel | — | — | Apr. 2023 |
| Artificial Analysis Intelligence Index | Logik & SchlussfolgerungProgrammierung+4 | Experte | — | — | Jan. 2024 |
| BrowseComp | Wissen & SpracheAgentische Aufgaben | Forschungsniveau | GPT-5.5 | 5 | Apr. 2025 |
| CyberGym | CybersecurityProgrammierung+1 | Experte | GPT-5.5 | 3 | Juni 2025 |
| FrontierMath | Logik & Schlussfolgerung | Forschungsniveau | GPT-5.5 | 19 | Nov. 2024 |
| GAIA | Agentische Aufgaben | Experte | MiniMax-M2 | 1 | Nov. 2023 |
| GDPval-AA | Agentische AufgabenWissen & Sprache | Experte | DeepSeek-V4-Pro (Preview) | 2 | Okt. 2025 |
| GPQA Diamond | Wissen & SpracheLogik & Schlussfolgerung+1 | Experte | Claude Mythos Preview | 49 | Nov. 2023 |
| HMMT 2025 | Logik & Schlussfolgerung | Experte | GLM-5.1 | 2 | Feb. 2025 |
| Humanity's Last Exam | Wissen & SpracheLogik & Schlussfolgerung+2 | Forschungsniveau | Claude Mythos Preview | 45 | Jan. 2025 |
| IFEval | Anleitung & KreativitätWissen & Sprache | Mittel | Qwen3.5-397B-A17B | 1 | Nov. 2023 |
| LiveCodeBench | Programmierung | Fortgeschritten | Gemini 3.1 Pro | 31 | März 2024 |
| LiveCodeBench Pro | ProgrammierungLogik & Schlussfolgerung | Experte | — | — | Juni 2025 |
| MathVista | MultimodalitätLogik & Schlussfolgerung+1 | Fortgeschritten | Kimi K2.5 (Thinking) | 1 | Okt. 2023 |
| MCP-Atlas | Agentische AufgabenProgrammierung | Fortgeschritten | Claude Opus 4.7 | 4 | Jan. 2026 |
| MMLU-Pro | Wissen & Sprache | — | MiniMax M2.1 | 16 | — |
| MMMLU | Wissen & Sprache | Fortgeschritten | Claude Mythos Preview | 3 | Sept. 2024 |
| MMMU | MultimodalitätWissen & Sprache+1 | Experte | GPT-5.1 | 4 | Nov. 2023 |
| MMMU-Pro | MultimodalitätWissen & Sprache+2 | Experte | GPT-5.5 | 4 | Sept. 2024 |
| MRCR v2 | Logik & SchlussfolgerungWissen & Sprache | Fortgeschritten | Gemma 4 31B | 1 | Sept. 2024 |
| OSWorld-Verified | Agentische AufgabenMultimodalität | Experte | Claude Mythos Preview | 11 | Juli 2025 |
| SimpleQA | Cybersecurity | Fortgeschritten | DeepSeek-V4-Pro (Preview) | 1 | Okt. 2024 |
| SWE-bench Multilingual | ProgrammierungAgentische Aufgaben | Experte | Claude Mythos Preview | 3 | Mai 2025 |
| SWE-bench Pro | ProgrammierungAgentische Aufgaben | Forschungsniveau | Claude Mythos Preview | 7 | Sept. 2025 |
| SWE-bench Verified | ProgrammierungAgentische Aufgaben | Experte | Claude Mythos Preview | 44 | Aug. 2024 |
| Terminal-Bench 2.0 | ProgrammierungAgentische Aufgaben | Experte | GPT-5.5 | 25 | Jan. 2026 |
| Vending-Bench 2 | Agentische AufgabenLogik & Schlussfolgerung | Forschungsniveau | GLM-5.1 | 1 | Nov. 2025 |
| Video-MMMU | MultimodalitätWissen & Sprache+1 | Experte | — | — | Jan. 2025 |
| τ²-Bench | Agentische AufgabenLogik & Schlussfolgerung | Fortgeschritten | Claude Opus 4.6 | 26 | Juni 2025 |