AA-Omniscience
AA-Omniscience ist ein Benchmark zur Bewertung der Faktentreue von LLMs über 6.000 Fragen hinweg. Der Benchmark umfasst 42 wirtschaftlich relevante Themen in sechs Bereichen: Business, Geistes- und Sozialwissenschaften, Gesundheit, Recht, Software Engineering sowie Wissenschaft/Ingenieurwesen/Mathematik.
Der zentrale Messwert, der Omniscience Index, belohnt korrekte Antworten, bestraft Halluzinationen und bewertet Enthaltungen neutral. Ein Score von 0 bedeutet, dass ein Modell ebenso oft richtig wie falsch antwortet. Die Fragen aus AA-Omniscience stammen zum Großteil aus anspruchsvollen und akademischen Quellen und erfordern vertieftes Fachwissen.
Der Omniscience Index Score wird berechnet als: OI = 100 * (c - i) / (c + p + i + a), wobei c = korrekt, i = inkorrekt, p = teilweise korrekt, a = Enthaltung. Bewertet werden die Antworten automatisiert von einem Grading-Modell.
Schwierigkeit
Experte
Score-Bereich
-100 – 100 Pkt.
Veröffentlichung
November 2025