ARC-AGI-3 — Übersicht

ARC-AGI-3 ist ein interaktiver Reasoning-Benchmark der ARC Prize Foundation, der die Intelligenz von KI-Modellen in einer neuen Weise in rundenbasierten Spielumgebungen misst. Statt – wie bei ARC-AGI-1 und ARC-AGI-2 – statische Muster aus Input-Output-Paaren abzuleiten, muss ein KI-Agent jede Umgebung ohne Anweisungen oder Zielvorgabe selbst erkunden, die Spielmechanik und das Ziel eigenständig erschließen und dann mit möglichst wenigen Aktionen lösen. Bewertet wird nicht die reine Lösung, sondern die Handlungseffizienz im Vergleich zur menschlichen Baseline. Obwohl auch untrainierte Menschen meistens 100 % der 135 Umgebungen lösen, erreichen selbst aktuelle Spitzenmodelle weniger als 1 %, was ARC-AGI-3 zu einem der härtesten Maßstäbe für eine "Allgemeine Künstliche Intelligenz" (AGI) macht. Du kannst den ARC-AGI-3 Benchmark auch selbst auf der offiziellen ARC AGI Play Website durchlaufen und testen.

Paper Website GitHub Leaderboard

Beispielaufgaben aus dem ARC-AGI-3 Benchmark

Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im ARC-AGI-3 Benchmark vorkommen.

Interaktives Environment „ls20“ (Public Demo Set): Der Agent sieht ein 64×64-Raster mit bis zu 16 Farben und steuert eine Spielfigur rundenbasiert. Es gibt keinerlei Anweisung, Text oder Zielvorgabe. Der Agent muss durch Ausprobieren die Spielmechanik (u. a. eine „Drei-Leben“-Mechanik) erkennen, das Ziel eigenständig erschließen und es mit möglichst wenigen Aktionen erreichen. Welche Strategie führt zum Sieg?

Ziel und Gewinnbedingung müssen autonom durch Exploration abgeleitet und anschließend effizient ausgeführt werden; eine rein zufällige Strategie gewinnt das erste Level nur mit einer Wahrscheinlichkeit von ca. 1 zu 355.

Interaktives Environment „re86“ (Public Demo Set): Eine rundenbasierte Umgebung mit acht aufeinander aufbauenden Leveln, bei der jedes spätere Level die zuvor erlernten Konzepte kombiniert („Difficulty through composition“). Pro Zug erhält der Agent ein Frame (64×64-Raster) und wählt aus einem kleinen Aktionsraum (fünf Tasten plus Undo bzw. Auswahl einer Zelle). Was bedeutet ein vollständiger Erfolg?

Alle acht Level müssen beim ersten Kontakt mit möglichst wenigen Aktionen relativ zur menschlichen Baseline abgeschlossen werden; menschliche Spieler erreichen hier 100 % Action-Efficiency.

Ähnliche Benchmarks

Diese Benchmarks messen ähnliche Fähigkeiten wie der ARC-AGI-3 Benchmark.

AIME 2025

AIME 2025 ist ein Mathematik-Benchmark für LLMs. AIME 2025 basiert auf den 30 Aufgaben der American Invitational Mathematics Examination 2025. AIME testet mathematisches Verständnis von LLMs auf Mathe-Olympiade-Niveau der gymnasialen Oberstufe. Jede Aufgabe erfordert eine ganzzahlige Antwort zwischen 000 und 999, wobei ausschließlich exakte Übereinstimmungen als korrekt gewertet werden, es gibt keine Teilpunkte. AIME 2025 deckt die mathematischen Teilbereiche Algebra, Geometrie, Zahlentheorie, Kombinatorik und Wahrscheinlichkeitsrechnung ab. Zum Lösen der Aufgaben werden mehrstufige logische Schlussfolgerungen und kreative Problemlösungsstrategien benötigt. Während menschlichen Teilnehmer durchschnittlich nur 4-6 von 15 Aufgaben korrekt lösen (~27% bis 40%), erreichen führende LLMs mittlerweile Scores von über 90%.

Logik & Schlussfolgerung

AIME 2026

AIME 2026 ist ein Mathematik-Benchmark, der auf allen 30 Aufgaben der American Invitational Mathematics Examination 2026 basiert. Der Benchmark testet die Reasoning-Fähigkeiten von LLMs auf Niveau der Mathematik-Olympiade für die gymnasiale Oberstufe. Jede Aufgabe erfordert eine ganzzahlige Antwort zwischen 000 und 999, wobei ausschliesslich exakte Übereinstimmungen mit der Lösung als korrekt gewertet werden. Der Benchmark deckt mathematische Teilbereiche wie Algebra, Geometrie, Zahlentheorie, Kombinatorik und Wahrscheinlichkeitsrechnung ab. Zum Lösen werden mehrstufige logische Schlussfolgerungen und kreative Problemlösestrategien benötigt. Führende LLMs konnten den Benchmark bereits in Q1 2026 sättigen.

Logik & Schlussfolgerung

APEX-Agents

APEX-Agents (AI Productivity Index for Agents) ist ein Benchmark zur Bewertung, ob KI-Agenten langfristige, anwendungsübergreifende Aufgaben ausführen können. Die Aufgaben spezialisieren sich auf Anwendungsgebiete im Investmentbanking, der Unternehmensberatung und im wirtschaftsrechtlichen Bereich. APEX-Agents umfasst 480 Aufgaben in 33 "Worlds". Eine "World" stellt eine möglichst realitätsnahe Arbeitsumgebungen dar, in der Agenten mit Dateien und Tools wie Dokumenten, Tabellen, E-Mail, Chat und Kalendern interagieren müssen. Die Evaluation erfolgt über binäre "Bestanden" / "Nicht Bestanden" Kriterien, die von Domänenexperten mit langjähriger Berufserfahrung entwickelt wurden. Zur Veröffentlichung des Benchmarks erreichte das Top-Modell nur einen Score von 24%. Der Benchmark zeigt damit eine Lücke in der realen Anwendung von agentischen KI-Systemen auf.

Agentische Aufgaben

ARC-AGI-2

Der ARC-AGI-2 Benchmark misst die "fluide Intelligenz" von KI-Modellen. Der Benchmark besteht aus neuartigen visuellen Raster-Puzzles besteht, die zum Lösen abstraktes Reasoning erfordern. Wie man es vielleicht aus Rätselheften kennt, werden wenige Beispiele mit Input/Output-Gitterpaare präsentiert, aus denen die zugrunde liegende Transformationsregel erkannt und auf einen neuen Test-Input angewendet werden muss. Im Vergleich zum inzwischen gesättigten Vorgänger ARC-AGI-1 wurden die Aufgaben in ARC-AGI-2 gezielt schwieriger gestaltet. Der Fokus liegt auf mehrstufigen Regeln und kontextabhängiger Symboldeutung. LLMs ohne Reasoning-Kapazitäten erreichen 0% und selbst spezialisierte Reasoning-Systeme lagen zum Veröffentlichungszeitpunkt eher im einstelligen Prozentbereich. Anders, als bei vielen anderen Benchmarks, erreichen menschliche Teilnehmer im Durchschnitt einen hohen Score von 66%. Die ARC-AGI Benchmarks gehören zu den anspruchsvollsten Tests für generelle Problemlösefähigkeiten und zielen auf die Schwächen des LLM-Reasonings ab.

Logik & Schlussfolgerung

Arena.ai

Arena.ai (ehemals "LMArena" oder "LMSYS Chatbot Arena") ist eine Community-basierte Benchmark-Plattform für grosse Sprachmodelle. Auf Arena.ai können menschliche Nutzer Prompts an die Evaluierungsplattform stellen. Im Gegenzug werden zwei Outputs verschiedener, nicht bekannter LLMs ausgegeben, die von dem Nutzer in Gewinner und Verlierer bewertet werden. Die gesammelten Stimmen werden mittels eines Bradley-Terry-Modells zu Elo-ähnlichen Bewertungen aggregiert und in einem öffentlichen Leaderboard dargestellt. Seit dem Start im April 2023 hat die Plattform mehr als 6 Millionen User-Votes gesammelt und mehr als 400 unterschiedliche Modelle bewertet.

Logik & Schlussfolgerung
Programmierung
Wissen & Sprache
Anleitung & Kreativität
Multimodalität

Artificial Analysis Intelligence Index

Der Artificial Analysis Intelligence Index ist ein Meta-Benchmark, der keine eigenen Fragen enthält, sondern die Ergebnisse von zehn unabhängigen Benchmarks aggregiert: GDPval-AA (220 Aufgaben), tau2-Bench Telecom (114 Aufgaben), Terminal-Bench Hard (44 Aufgaben), SciCode (338 Teilprobleme), AA-LCR (100 Fragen), AA-Omniscience (6.000 Fragen), IFBench (294 Aufgaben), Humanity's Last Exam (2.158 Fragen), GPQA Diamond (198 Fragen) und CritPt (70 Aufgaben). Dabei gewichtet der Index die Benchmarks in vier Kategorien zu jeweils 25%: Agents, Coding, General und Scientific Reasoning. Durch die breite Abdeckung soll der Index die Generalisierungsfähigkeiten von LLMs widerspiegeln und die Gesamtkapazität der Modelle auf dem Weg zu AGI einordnen. Die Tests sind rein textbasiert und auf Englisch. Über alle Teilbenchmarks wird das pass@1-Scoring, also die Wahrscheinlichkeit, dass das erste Ausgabeergebnis korrekt ist, verwendet.

Logik & Schlussfolgerung
Programmierung
Wissen & Sprache
Wissenschaft
Agentische Aufgaben
Anleitung & Kreativität

‌
‌
‌
‌
‌
‌
‌
‌
‌
‌
‌

#	Modell⇅	Score
1	GPT-5.6 Sol	7,78 %
2	Claude Opus 4.8	1,5 %
3	GPT-5.6 Terra	0,8 %
4	Claude Opus 4.6	0,5 %
5	GPT-5.5	0,4 %
6	Gemini 3.1 Pro	0,4 %
7	Claude Opus 4.7	0,2 %
8	GPT-5.4	0,2 %
9	GPT-5.6 Luna	0,18 %

#	Modell⇅	Score
1	GPT-5.6 Sol	7,78 %
2	Claude Opus 4.8	1,5 %
3	GPT-5.6 Terra	0,8 %
4	Claude Opus 4.6	0,5 %
5	GPT-5.5	0,4 %
6	Gemini 3.1 Pro	0,4 %
7	Claude Opus 4.7	0,2 %
8	GPT-5.4	0,2 %
9	GPT-5.6 Luna	0,18 %

ARC-AGI-3 — Übersicht

ARC-AGI-3 Leaderboard

Beispielaufgaben aus dem ARC-AGI-3 Benchmark

Ähnliche Benchmarks

AIME 2025

AIME 2026

APEX-Agents

ARC-AGI-2

Arena.ai

Artificial Analysis Intelligence Index

Ähnliche Benchmarks

AIME 2025

AIME 2026

APEX-Agents

ARC-AGI-2

Arena.ai

Artificial Analysis Intelligence Index