ARC-AGI-3
ARC-AGI-3 — Übersicht
ARC-AGI-3 ist ein interaktiver Reasoning-Benchmark der ARC Prize Foundation, der die Intelligenz von KI-Modellen in einer neuen Weise in rundenbasierten Spielumgebungen misst. Statt – wie bei ARC-AGI-1 und ARC-AGI-2 – statische Muster aus Input-Output-Paaren abzuleiten, muss ein KI-Agent jede Umgebung ohne Anweisungen oder Zielvorgabe selbst erkunden, die Spielmechanik und das Ziel eigenständig erschließen und dann mit möglichst wenigen Aktionen lösen. Bewertet wird nicht die reine Lösung, sondern die Handlungseffizienz im Vergleich zur menschlichen Baseline. Obwohl auch untrainierte Menschen meistens 100 % der 135 Umgebungen lösen, erreichen selbst aktuelle Spitzenmodelle weniger als 1 %, was ARC-AGI-3 zu einem der härtesten Maßstäbe für eine "Allgemeine Künstliche Intelligenz" (AGI) macht. Du kannst den ARC-AGI-3 Benchmark auch selbst auf der offiziellen ARC AGI Play Website durchlaufen und testen.
ARC-AGI-3 Leaderboard
Ranking aller getesteten Modelle im ARC-AGI-3 Benchmark, sortiert nach Score.
Beispielaufgaben aus dem ARC-AGI-3 Benchmark
Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im ARC-AGI-3 Benchmark vorkommen.
Interaktives Environment „ls20“ (Public Demo Set): Der Agent sieht ein 64×64-Raster mit bis zu 16 Farben und steuert eine Spielfigur rundenbasiert. Es gibt keinerlei Anweisung, Text oder Zielvorgabe. Der Agent muss durch Ausprobieren die Spielmechanik (u. a. eine „Drei-Leben“-Mechanik) erkennen, das Ziel eigenständig erschließen und es mit möglichst wenigen Aktionen erreichen. Welche Strategie führt zum Sieg?
Ziel und Gewinnbedingung müssen autonom durch Exploration abgeleitet und anschließend effizient ausgeführt werden; eine rein zufällige Strategie gewinnt das erste Level nur mit einer Wahrscheinlichkeit von ca. 1 zu 355.
Interaktives Environment „re86“ (Public Demo Set): Eine rundenbasierte Umgebung mit acht aufeinander aufbauenden Leveln, bei der jedes spätere Level die zuvor erlernten Konzepte kombiniert („Difficulty through composition“). Pro Zug erhält der Agent ein Frame (64×64-Raster) und wählt aus einem kleinen Aktionsraum (fünf Tasten plus Undo bzw. Auswahl einer Zelle). Was bedeutet ein vollständiger Erfolg?
Alle acht Level müssen beim ersten Kontakt mit möglichst wenigen Aktionen relativ zur menschlichen Baseline abgeschlossen werden; menschliche Spieler erreichen hier 100 % Action-Efficiency.