Alle AI-Trends
Direkt in dein Postfach
Erhalte exklusive AI-Tutorials, Praxistipps und KI-News direkt in dein Postfach.
*Mit deiner Anmeldung akzeptierst du unsere Datenschutzrichtlinien.
Jetzt neu bei Byte: Unser WhatsApp Channel 📱

SimpleQA

Veröffentlichung
Oktober 2024
Score-Bereich
0 – 100 %
Modelle getestet
1
Cybersecurity
Fortgeschritten

SimpleQA — Übersicht

SimpleQA ist ein Faktizitäts-Benchmark von OpenAI, der die kurzformige faktische Genauigkeit großer Sprachmodelle misst. Der Benchmark umfasst 4.326 adversariell gesammelte, faktenbasierte Fragen mit jeweils einer einzigen, unbestreitbaren Antwort. Antworten werden durch unabhängige Verifizierung von zwei AI-Trainern gestützt, und die Bewertung erfolgt automatisiert in drei Kategorien: korrekt, inkorrekt oder nicht versucht.

SimpleQA Leaderboard

Ranking aller getesteten Modelle im SimpleQA Benchmark, sortiert nach Score.



Beispielaufgaben aus dem SimpleQA Benchmark

Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im SimpleQA Benchmark vorkommen.

Who received the IEEE Frank Rosenblatt Award in 2010?

Michio Sugeno

On which U.S. TV station did the Canadian reality series To Serve and Protect debut?

KVOS-TV

What day, month, and year was Carrie Underwood's album "Cry Pretty" certified Gold by the RIAA?

October 23, 2018

What is the first and last name of the woman whom the British linguist Bernard Comrie married in 1985?

Akiko Kumahira

Who was awarded the Oceanography Society's Jerlov Award in 2018?

Annick Bricaud