SWE-bench Pro — Übersicht

SWE-bench Pro ist ein fortgeschrittener Software-Engineering-Benchmark von Scale AI, der KI-Agenten anhand von 1.865 komplexen, langfristigen Programmieraufgaben aus 41 aktiv gepflegten Repositories in Python, Go, TypeScript und JavaScript evaluiert. Im Gegensatz zum Vorgänger SWE-bench Verified umfasst der Benchmark mehrsprachige Aufgaben mit deutlich höherer Komplexität, wobei durchschnittlich 107,4 Zeilen Code über 4,1 Dateien hinweg geändert werden müssen. Der Benchmark ist gezielt kontaminationsresistent konzipiert: Das Public Set nutzt ausschließlich GPL-lizenzierte Repositories, und das Commercial Set basiert auf proprietärem Startup-Code, der nicht in Trainingsdaten enthalten sein kann.

Paper Dataset GitHub Leaderboard (Public)Blog Post

Beispielaufgaben aus dem SWE-bench Pro Benchmark

Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im SWE-bench Pro Benchmark vorkommen.

ansible__ansible-0ea40e09d1b35bcb69ff4d9cecf3d0defa4b36e8: TypeError combining `VarsWithSources` and `dict` in `combine_vars` when executing logic with mismatched type arguments and hash behavior set to replace mode.

A patch to Ansible's variable combination logic that correctly handles type coercion between VarsWithSources and dict objects when hash_behaviour is set to 'replace', preventing the TypeError during variable merging.

element-hq__element-web-1077729a19c0ce902e713cf6fab42c91fb7907f1: New Room List prevents reliable display of correct active room tile immediately after switching spaces, risking scroll jumps or visual inconsistencies.

A patch to Element Web's room list component that ensures the correct active room tile is displayed immediately when switching between spaces, eliminating scroll jumps and visual inconsistencies in the room list.

element-hq__element-web-53a9b6447bd7e6110ee4a63e2ec0322c250f08d1: MessageEditHistoryDialog crashes when diffing complex edited message content due to unhandled deeply nested HTML structures during comparison.

A patch to the MessageEditHistoryDialog component that safely handles deeply nested HTML structures during message diff computation, preventing crashes when viewing edit history of complex messages.

ansible__ansible-106909db8b730480615f4a33de0eb5b710944e78: URI module with form-multipart always encodes payload as base64 without option to change encoding, causing incompatibility with platforms requiring different encoding schemes.

A patch to Ansible's URI module that adds configurable encoding options for form-multipart payloads, allowing users to specify alternatives to the default base64 encoding for platform compatibility.

ansible__ansible-0fd88717c953b92ed8a50495d55e630eb5d59166: lookup('ansible.builtin.password', ...) fails on subsequent runs when ident is saved in the password file for encryption methods supporting ident parameters.

A patch to Ansible's password lookup plugin that correctly handles the ident parameter persistence in password files across subsequent runs, preventing failures when using encryption methods that support ident.

Ähnliche Benchmarks

Diese Benchmarks messen ähnliche Fähigkeiten wie der SWE-bench Pro Benchmark.

Aider Polyglot

Aider Polyglot ist ein Code-Editing-Benchmark, der die Programmierfähigkeiten von LLMs anhand von 225 anspruchsvollen Programmieraufgaben in sechs Sprachen (C++, Go, Java, JavaScript, Python, Rust) bewertet. Die getesteten LLMs erhalten zwei Versuche pro Aufgabe: Bei einem Fehler im ersten Versuch werden die Unit-Test-Ergebnisse als Feedback für einen zweiten Korrekturversuch bereitgestellt. Aider Polyglot wurde entwickelt, um die Sättigung des ursprünglichen Python-only-Benchmarks von Aider zu überwinden und eine deutlichere Differenzierung zwischen den stärksten Coding-Modellen zu ermöglichen. In 2026 gilt auch Aider Polyglot als gesättigt und wird nicht mehr aktiv aktualisiert.

Programmierung

APEX-Agents

APEX-Agents (AI Productivity Index for Agents) ist ein Benchmark zur Bewertung, ob KI-Agenten langfristige, anwendungsübergreifende Aufgaben ausführen können. Die Aufgaben spezialisieren sich auf Anwendungsgebiete im Investmentbanking, der Unternehmensberatung und im wirtschaftsrechtlichen Bereich. APEX-Agents umfasst 480 Aufgaben in 33 "Worlds". Eine "World" stellt eine möglichst realitätsnahe Arbeitsumgebungen dar, in der Agenten mit Dateien und Tools wie Dokumenten, Tabellen, E-Mail, Chat und Kalendern interagieren müssen. Die Evaluation erfolgt über binäre "Bestanden" / "Nicht Bestanden" Kriterien, die von Domänenexperten mit langjähriger Berufserfahrung entwickelt wurden. Zur Veröffentlichung des Benchmarks erreichte das Top-Modell nur einen Score von 24%. Der Benchmark zeigt damit eine Lücke in der realen Anwendung von agentischen KI-Systemen auf.

Agentische Aufgaben

ARC-AGI-3

ARC-AGI-3 ist ein interaktiver Reasoning-Benchmark der ARC Prize Foundation, der die Intelligenz von KI-Modellen in einer neuen Weise in rundenbasierten Spielumgebungen misst. Statt – wie bei ARC-AGI-1 und ARC-AGI-2 – statische Muster aus Input-Output-Paaren abzuleiten, muss ein KI-Agent jede Umgebung ohne Anweisungen oder Zielvorgabe selbst erkunden, die Spielmechanik und das Ziel eigenständig erschließen und dann mit möglichst wenigen Aktionen lösen. Bewertet wird nicht die reine Lösung, sondern die Handlungseffizienz im Vergleich zur menschlichen Baseline. Obwohl auch untrainierte Menschen meistens 100 % der 135 Umgebungen lösen, erreichen selbst aktuelle Spitzenmodelle weniger als 1 %, was ARC-AGI-3 zu einem der härtesten Maßstäbe für eine "Allgemeine Künstliche Intelligenz" (AGI) macht. Du kannst den ARC-AGI-3 Benchmark auch selbst auf der offiziellen ARC AGI Play Website durchlaufen und testen.

Logik & Schlussfolgerung
Agentische Aufgaben

Arena.ai

Arena.ai (ehemals "LMArena" oder "LMSYS Chatbot Arena") ist eine Community-basierte Benchmark-Plattform für grosse Sprachmodelle. Auf Arena.ai können menschliche Nutzer Prompts an die Evaluierungsplattform stellen. Im Gegenzug werden zwei Outputs verschiedener, nicht bekannter LLMs ausgegeben, die von dem Nutzer in Gewinner und Verlierer bewertet werden. Die gesammelten Stimmen werden mittels eines Bradley-Terry-Modells zu Elo-ähnlichen Bewertungen aggregiert und in einem öffentlichen Leaderboard dargestellt. Seit dem Start im April 2023 hat die Plattform mehr als 6 Millionen User-Votes gesammelt und mehr als 400 unterschiedliche Modelle bewertet.

Logik & Schlussfolgerung
Programmierung
Wissen & Sprache
Anleitung & Kreativität
Multimodalität

Artificial Analysis Intelligence Index

Der Artificial Analysis Intelligence Index ist ein Meta-Benchmark, der keine eigenen Fragen enthält, sondern die Ergebnisse von zehn unabhängigen Benchmarks aggregiert: GDPval-AA (220 Aufgaben), tau2-Bench Telecom (114 Aufgaben), Terminal-Bench Hard (44 Aufgaben), SciCode (338 Teilprobleme), AA-LCR (100 Fragen), AA-Omniscience (6.000 Fragen), IFBench (294 Aufgaben), Humanity's Last Exam (2.158 Fragen), GPQA Diamond (198 Fragen) und CritPt (70 Aufgaben). Dabei gewichtet der Index die Benchmarks in vier Kategorien zu jeweils 25%: Agents, Coding, General und Scientific Reasoning. Durch die breite Abdeckung soll der Index die Generalisierungsfähigkeiten von LLMs widerspiegeln und die Gesamtkapazität der Modelle auf dem Weg zu AGI einordnen. Die Tests sind rein textbasiert und auf Englisch. Über alle Teilbenchmarks wird das pass@1-Scoring, also die Wahrscheinlichkeit, dass das erste Ausgabeergebnis korrekt ist, verwendet.

Logik & Schlussfolgerung
Programmierung
Wissen & Sprache
Wissenschaft
Agentische Aufgaben
Anleitung & Kreativität

BrowseComp

BrowseComp ist ein Benchmark von OpenAI zur Bewertung von KI-Agenten. Der Benchmark testet die LLMs darin, schwierig auffindbare und miteinander verflochtene Informationen im Internet zu recherchieren. BrowseComp ist die Abkürzung von Browsing Competition. BrowseComp umfasst insgesamt 1.266 Fragen, deren Antworten zwar kurz und leicht verifizierbar sind, deren Auffinden jedoch komplexes, bzw. kreatives Recherchieren im Internet erfordert. Dies bezeichnet man als "Verifikations-Asymmetrie". Die Fragen aus BrowseComp wurden von menschlichen Entwicklern so konstruiert, dass sie weder von bestehenden KI-Modellen noch von Menschen innerhalb von zehn Minuten lösbar sind. Zum Veröffentlichungszeitpunkt von BrowseComp erreichte selbst das beste nicht-agentische Modell (OpenAI-o1) nur einen Score von 9,9%. Mit dem spezialisieren Deep Research Harness konnten im gleichen Zuge hingegen 51,5% erzielt werden.

Wissen & Sprache
Agentische Aufgaben

‌
‌
‌
‌
‌
‌
‌
‌
‌
‌
‌

#	Modell⇅	Score
1	Claude Fable 5	80 %
2	Claude Mythos Preview	77,8 %
3	Fugu Ultra	73,7 %
4	Claude Opus 4.8	69,2 %
5	Grok 4.5	64,7 %
6	GPT-5.6 Sol	64,6 %
7	Claude Opus 4.7	64,3 %
8	GPT-5.6 Terra	63,4 %
9	Claude Sonnet 5	63,2 %
10	GPT-5.6 Luna	62,7 %
11	GLM-5.2	62,1 %
12	Muse Spark 1.1	61,5 %
13	MiniMax-M3	59 %
14	GPT-5.5	58,6 %
15	Kimi K2.6	58,6 %
16	GLM-5.1	58,4 %
17	MiniMax M2.7	56,22 %
18	DeepSeek-V4-Pro (Preview)	55,4 %
19	Gemini 3.5 Flash	55,1 %
20	Muse Spark	52,4 %

#	Modell⇅	Score
1	Claude Fable 5	80 %
2	Claude Mythos Preview	77,8 %
3	Fugu Ultra	73,7 %
4	Claude Opus 4.8	69,2 %
5	Grok 4.5	64,7 %
6	GPT-5.6 Sol	64,6 %
7	Claude Opus 4.7	64,3 %
8	GPT-5.6 Terra	63,4 %
9	Claude Sonnet 5	63,2 %
10	GPT-5.6 Luna	62,7 %
11	GLM-5.2	62,1 %
12	Muse Spark 1.1	61,5 %
13	MiniMax-M3	59 %
14	GPT-5.5	58,6 %
15	Kimi K2.6	58,6 %
16	GLM-5.1	58,4 %
17	MiniMax M2.7	56,22 %
18	DeepSeek-V4-Pro (Preview)	55,4 %
19	Gemini 3.5 Flash	55,1 %
20	Muse Spark	52,4 %

SWE-bench Pro — Übersicht

SWE-bench Pro Leaderboard

Beispielaufgaben aus dem SWE-bench Pro Benchmark

Ähnliche Benchmarks

Aider Polyglot

APEX-Agents

ARC-AGI-3

Arena.ai

Artificial Analysis Intelligence Index

BrowseComp

Ähnliche Benchmarks

Aider Polyglot

APEX-Agents

ARC-AGI-3

Arena.ai

Artificial Analysis Intelligence Index

BrowseComp