KI-Benchmarks

Alle KI-Benchmarks im Überblick. Vergleiche die Leistung von Sprachmodellen anhand standardisierter Tests für Sprache, Logik, Coding, Wissenschaft und mehr.

37 Benchmarks

	Kategorie
AA-Omniscience	Wissen & SpracheCybersecurity	Experte	—	12	Nov. 2025
Aider Polyglot	Programmierung	Fortgeschritten	GPT-5	13	Dez. 2024
AIME 2025	Logik & Schlussfolgerung	Experte	Grok-4 Heavy	40	Feb. 2025
AIME 2026	Logik & Schlussfolgerung	Experte	—	4	Feb. 2026
APEX-Agents	Agentische Aufgaben	Experte	—	3	Jan. 2026
ARC-AGI-2	Logik & Schlussfolgerung	Forschungsniveau	GPT-5.5	15	März 2025
ARC-AGI-3	Logik & SchlussfolgerungAgentische Aufgaben	Anfänger	GPT-5.6 Sol	9	März 2026
Arena.ai	Logik & SchlussfolgerungProgrammierung+3	Mittel	—	—	Apr. 2023
Artificial Analysis Intelligence Index	Logik & SchlussfolgerungProgrammierung+4	Experte	Claude Fable 5	9	Jan. 2024
BrowseComp	Wissen & SpracheAgentische Aufgaben	Forschungsniveau	GPT-5.6 Sol	12	Apr. 2025
CyberGym	CybersecurityProgrammierung+1	Experte	GPT-5.6 Sol	9	Juni 2025
FrontierMath	Logik & Schlussfolgerung	Forschungsniveau	GPT-5.6 Sol	22	Nov. 2024
GAIA	Agentische Aufgaben	Experte	MiniMax-M2	1	Nov. 2023
GDPval-AA	Agentische AufgabenWissen & Sprache	Experte	Claude Fable 5	12	Okt. 2025
GPQA Diamond	Wissen & SpracheLogik & Schlussfolgerung+1	Experte	Fugu Ultra	57	Nov. 2023
HMMT 2025	Logik & Schlussfolgerung	Experte	—	3	Feb. 2025
Humanity's Last Exam	Wissen & SpracheLogik & Schlussfolgerung+2	Forschungsniveau	Claude Mythos Preview	54	Jan. 2025
IFEval	Anleitung & KreativitätWissen & Sprache	Mittel	—	1	Nov. 2023
LiveCodeBench	Programmierung	Fortgeschritten	Gemini 3.1 Pro	34	März 2024
LiveCodeBench Pro	ProgrammierungLogik & Schlussfolgerung	Experte	Fugu Ultra	1	Juni 2025
MathVista	MultimodalitätLogik & Schlussfolgerung+1	Fortgeschritten	Kimi K2.5 (Thinking)	1	Okt. 2023
MCP-Atlas	Agentische AufgabenProgrammierung	Fortgeschritten	Muse Spark 1.1	11	Jan. 2026
MMLU-Pro	Wissen & Sprache	—	—	18	—
MMMLU	Wissen & Sprache	Fortgeschritten	Claude Mythos Preview	4	Sept. 2024
MMMU	MultimodalitätWissen & Sprache+1	Experte	GPT-5.6 Terra	5	Nov. 2023
MMMU-Pro	MultimodalitätWissen & Sprache+2	Experte	Claude Fable 5	11	Sept. 2024
MRCR v2	Logik & SchlussfolgerungWissen & Sprache	Fortgeschritten	Fugu Ultra	7	Sept. 2024
OSWorld-Verified	Agentische AufgabenMultimodalität	Experte	Claude Fable 5	17	Juli 2025
SimpleQA	Cybersecurity	Fortgeschritten	DeepSeek-V4-Pro (Preview)	1	Okt. 2024
SWE-bench Multilingual	ProgrammierungAgentische Aufgaben	Experte	Claude Mythos Preview	7	Mai 2025
SWE-bench Pro	ProgrammierungAgentische Aufgaben	Forschungsniveau	Claude Fable 5	20	Sept. 2025
SWE-bench Verified	ProgrammierungAgentische Aufgaben	Experte	GPT-5.6 Sol	51	Aug. 2024
Terminal-Bench 2.0	ProgrammierungAgentische Aufgaben	Experte	GPT-5.5	26	Jan. 2026
Terminal-Bench 2.1	ProgrammierungAgentische Aufgaben	Experte	GPT-5.6 Sol	13	Jan. 2026
Vending-Bench 2	Agentische AufgabenLogik & Schlussfolgerung	Forschungsniveau	Claude Fable 5	3	Nov. 2025
Video-MMMU	MultimodalitätWissen & Sprache+1	Experte	—	1	Jan. 2025
τ²-Bench	Agentische AufgabenLogik & Schlussfolgerung	Fortgeschritten	Claude Opus 4.6	27	Juni 2025