Alle AI-Trends
Direkt in dein Postfach
Erhalte exklusive AI-Tutorials, Praxistipps und KI-News direkt in dein Postfach.
*Mit deiner Anmeldung akzeptierst du unsere Datenschutzrichtlinien.
Jetzt neu bei Byte: Unser WhatsApp Channel 📱

GAIA

Veröffentlichung
November 2023
Bestes Modell
Score-Bereich
0 – 100 %
Modelle getestet
1
Agentische Aufgaben
Experte

GAIA — Übersicht

GAIA ist ein Benchmark für "General AI Assistants", der insgesamt 466 Fragen umfasst. Die Aufgaben sind konzeptionell einfach für Menschen, aber schwierig für KI-Systeme zu beantworten. Zum Bearbeiten der Aufgaben werden Fähigkeiten wie Reasoning, multimodale Verarbeitung der Inputs, Web-Browsing und Tool-Nutzung benötigt. GAIA ist in 3 Schwierigkeitsstufen (Level 1-3) unterteilt. Die Aufgaben von Level 1 wurden so konzipiert, dass zur Veröffentlichung von GAIA aktuelle LLMs die Aufgaben gut bewältigen konnten. Level 3 Aufgaben setzten einen signifikanten Sprung in den Modell-Kapazitäten voraus. Antworten auf die Fragen des GAIA-Benchmarks sind eindeutige, kurze Strings, die automatisch verifiziert werden können. In 2026 gilt der GAIA Benchmark als gesättigt, da viele Modelle einen Score von mehr als 90% erreichen.

GAIA Leaderboard

Ranking aller getesteten Modelle im GAIA Benchmark, sortiert nach Score.



Beispielaufgaben aus dem GAIA Benchmark

Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im GAIA Benchmark vorkommen.

<strong>Level 1:</strong> Ein Paper über KI-Regulierung wurde ursprünglich im Juni 2022 auf arXiv.org eingereicht und zeigt eine Abbildung mit drei Achsen, wobei jede Achse ein Label-Wort an beiden Enden hat. Welches dieser Wörter wird verwendet, um einen Gesellschaftstyp in einem Physics and Society Artikel zu beschreiben, der am 11. August 2016 auf arXiv.org eingereicht wurde?

Erfordert Web-Suche, PDF-Analyse und Cross-Referenzierung zwischen mehreren Dokumenten

<strong>Level 2:</strong> Welche Früchte aus dem Gemälde 'Embroidery from Uzbekistan' von 2008 wurden als Teil des Oktober-1949-Frühstücksmenüs für den Ozeandampfer serviert, der später als schwimmende Requisite im Film 'The Last Voyage' verwendet wurde? Gib die Früchte als kommagetrennte Liste an, sortiert sie im Uhrzeigersinn von der 12-Uhr-Position und verwende die Pluralform.

Erfordert Bildanalyse, Film-Recherche und historische Menü-Recherche

<strong>Level 3:</strong> Analysiere die angehängte Excel-Datei mit Finanzdaten und bestimme, welche Quartalsergebnisse die stärkste Korrelation mit externen Marktindizes zeigen, die du im Web recherchieren musst.

Erfordert Excel-Verarbeitung, statistische Analyse, Web-Recherche und Integration multipler Datenquellen