MRCR v2
MRCR v2 — Übersicht
MRCR v2 (Multi-Round Coreference Resolution, Version 2) ist ein Long-Context-Benchmark von Google DeepMind zur Bewertung der "Nadel-im-Heuhaufen" Fähigkeit von großen Sprachmodellen entwickelt wurde. Dafür werden mehrere spezifische Informationsstücke (Needles) in langen synthetischen Konversationen "versteckt". Die LLMs sollen diese Nadeln lokalisieren, unterscheiden und korrekt wiedergeben. Die KI-Modelle erhalten eine mehrstufige Konversation, in der ein Nutzer wiederholt um Schreibaufgaben (z.B. Gedichte, Essays, Blogposts) zu bestimmten Themen bittet, und muss dann die i-te Instanz einer bestimmten Anfrage reproduzieren. Die Schwierigkeit steigt durch adversarial ähnliche Distraktoren, zunehmende Needle-Anzahl (2, 4 oder 8) und wachsende Kontextlängen von bis zu 8 Millionen Tokens. MRCR v2 ist die öffentlich freigegebene und erweiterte Version des ursprünglichen MRCR-Tasks aus dem Michelangelo-Paper und unterstützt Evaluierungen bis zu 8M Tokens mit konfigurierbaren Schwierigkeitsgraden.
MRCR v2 Leaderboard
Ranking aller getesteten Modelle im MRCR v2 Benchmark, sortiert nach Score.
Beispielaufgaben aus dem MRCR v2 Benchmark
Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im MRCR v2 Benchmark vorkommen.
User: Write a poem about penguins
Assistant: [poem about penguins]
User: Write an essay about complexity theory
Assistant: [essay about complexity theory]
User: Write a poem about penguins
Assistant: [second poem about penguins]
User: Write an email about basketball
Assistant: [email about basketball]
...
User: Add the string 'AKJSs89sal' to the 2nd poem about penguins. Do not include any other text in your response.
AKJSs89sal[exact content of the 2nd poem about penguins]
User: Write a poem about tapirs
Assistant: [first poem about tapirs]
User: Write a blog post about rocks
Assistant: [first blog post about rocks]
User: Write a poem about tapirs
Assistant: [second poem about tapirs]
User: Write a social media post about tapirs
Assistant: [first social media post about tapirs]
...
User: Prepend aYooSG8CQg to the 2nd (1 indexed) poem about tapirs. Do not include any other text in your response.
aYooSG8CQg[exact content of the 2nd poem about tapirs]
User: Write a riddle about ducks
Assistant: [first riddle about ducks]
User: Write a play about Star Wars
Assistant: [play about Star Wars]
User: Write a riddle about ducks
Assistant: [second riddle about ducks]
...
User: Write a riddle about ducks
Assistant: [eighth riddle about ducks]
...
User: Prepend xR7mK2pL9w to the 7th (1 indexed) riddle about ducks. Do not include any other text in your response.
xR7mK2pL9w[exact content of the 7th riddle about ducks]