SWE-bench Pro
SWE-bench Pro — Übersicht
SWE-bench Pro ist ein fortgeschrittener Software-Engineering-Benchmark von Scale AI, der KI-Agenten anhand von 1.865 komplexen, langfristigen Programmieraufgaben aus 41 aktiv gepflegten Repositories in Python, Go, TypeScript und JavaScript evaluiert. Im Gegensatz zum Vorgänger SWE-bench Verified umfasst der Benchmark mehrsprachige Aufgaben mit deutlich höherer Komplexität, wobei durchschnittlich 107,4 Zeilen Code über 4,1 Dateien hinweg geändert werden müssen. Der Benchmark ist gezielt kontaminationsresistent konzipiert: Das Public Set nutzt ausschließlich GPL-lizenzierte Repositories, und das Commercial Set basiert auf proprietärem Startup-Code, der nicht in Trainingsdaten enthalten sein kann.
SWE-bench Pro Leaderboard
Ranking aller getesteten Modelle im SWE-bench Pro Benchmark, sortiert nach Score.
Beispielaufgaben aus dem SWE-bench Pro Benchmark
Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im SWE-bench Pro Benchmark vorkommen.
ansible__ansible-0ea40e09d1b35bcb69ff4d9cecf3d0defa4b36e8: TypeError combining `VarsWithSources` and `dict` in `combine_vars` when executing logic with mismatched type arguments and hash behavior set to replace mode.
A patch to Ansible's variable combination logic that correctly handles type coercion between VarsWithSources and dict objects when hash_behaviour is set to 'replace', preventing the TypeError during variable merging.
element-hq__element-web-1077729a19c0ce902e713cf6fab42c91fb7907f1: New Room List prevents reliable display of correct active room tile immediately after switching spaces, risking scroll jumps or visual inconsistencies.
A patch to Element Web's room list component that ensures the correct active room tile is displayed immediately when switching between spaces, eliminating scroll jumps and visual inconsistencies in the room list.
element-hq__element-web-53a9b6447bd7e6110ee4a63e2ec0322c250f08d1: MessageEditHistoryDialog crashes when diffing complex edited message content due to unhandled deeply nested HTML structures during comparison.
A patch to the MessageEditHistoryDialog component that safely handles deeply nested HTML structures during message diff computation, preventing crashes when viewing edit history of complex messages.
ansible__ansible-106909db8b730480615f4a33de0eb5b710944e78: URI module with form-multipart always encodes payload as base64 without option to change encoding, causing incompatibility with platforms requiring different encoding schemes.
A patch to Ansible's URI module that adds configurable encoding options for form-multipart payloads, allowing users to specify alternatives to the default base64 encoding for platform compatibility.
ansible__ansible-0fd88717c953b92ed8a50495d55e630eb5d59166: lookup('ansible.builtin.password', ...) fails on subsequent runs when ident is saved in the password file for encryption methods supporting ident parameters.
A patch to Ansible's password lookup plugin that correctly handles the ident parameter persistence in password files across subsequent runs, preventing failures when using encryption methods that support ident.