SimpleQA Benchmark — Ergebnisse & Übersicht | Byte.de — Byte.de

Jetzt neu: Byte Pulse – Token-Limits von Claude Code, Codex & Co. tracken! 

SimpleQA — Übersicht

SimpleQA ist ein Faktizitäts-Benchmark von OpenAI, der die kurzformige faktische Genauigkeit großer Sprachmodelle misst. Der Benchmark umfasst 4.326 adversariell gesammelte, faktenbasierte Fragen mit jeweils einer einzigen, unbestreitbaren Antwort. Antworten werden durch unabhängige Verifizierung von zwei AI-Trainern gestützt, und die Bewertung erfolgt automatisiert in drei Kategorien: korrekt, inkorrekt oder nicht versucht.

OpenAI Blog Post Research Paper (arXiv)GitHub Repository Dataset (HuggingFace)Paper PDF

SimpleQA Leaderboard

Ranking aller getesteten Modelle im SimpleQA Benchmark, sortiert nach Score.

‌
‌

Beispielaufgaben aus dem SimpleQA Benchmark

Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im SimpleQA Benchmark vorkommen.

Who received the IEEE Frank Rosenblatt Award in 2010?

Michio Sugeno

On which U.S. TV station did the Canadian reality series To Serve and Protect debut?

KVOS-TV

What day, month, and year was Carrie Underwood's album "Cry Pretty" certified Gold by the RIAA?

October 23, 2018

What is the first and last name of the woman whom the British linguist Bernard Comrie married in 1985?

Akiko Kumahira

Who was awarded the Oceanography Society's Jerlov Award in 2018?

Annick Bricaud