Alle AI-Trends
Direkt in dein Postfach
Erhalte exklusive AI-Tutorials, Praxistipps und KI-News direkt in dein Postfach.
*Mit deiner Anmeldung akzeptierst du unsere Datenschutzrichtlinien.
Jetzt neu bei Byte: Unser WhatsApp Channel 📱

MRCR v2

Veröffentlichung
September 2024
Bestes Modell
Score-Bereich
0 – 100 %
Modelle getestet
1
Logik & SchlussfolgerungWissen & Sprache
Fortgeschritten

MRCR v2 — Übersicht

MRCR v2 (Multi-Round Coreference Resolution, Version 2) ist ein Long-Context-Benchmark von Google DeepMind zur Bewertung der "Nadel-im-Heuhaufen" Fähigkeit von großen Sprachmodellen entwickelt wurde. Dafür werden mehrere spezifische Informationsstücke (Needles) in langen synthetischen Konversationen "versteckt". Die LLMs sollen diese Nadeln lokalisieren, unterscheiden und korrekt wiedergeben. Die KI-Modelle erhalten eine mehrstufige Konversation, in der ein Nutzer wiederholt um Schreibaufgaben (z.B. Gedichte, Essays, Blogposts) zu bestimmten Themen bittet, und muss dann die i-te Instanz einer bestimmten Anfrage reproduzieren. Die Schwierigkeit steigt durch adversarial ähnliche Distraktoren, zunehmende Needle-Anzahl (2, 4 oder 8) und wachsende Kontextlängen von bis zu 8 Millionen Tokens. MRCR v2 ist die öffentlich freigegebene und erweiterte Version des ursprünglichen MRCR-Tasks aus dem Michelangelo-Paper und unterstützt Evaluierungen bis zu 8M Tokens mit konfigurierbaren Schwierigkeitsgraden.

MRCR v2 Leaderboard

Ranking aller getesteten Modelle im MRCR v2 Benchmark, sortiert nach Score.



Beispielaufgaben aus dem MRCR v2 Benchmark

Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im MRCR v2 Benchmark vorkommen.

User: Write a poem about penguins Assistant: [poem about penguins] User: Write an essay about complexity theory Assistant: [essay about complexity theory] User: Write a poem about penguins Assistant: [second poem about penguins] User: Write an email about basketball Assistant: [email about basketball] ... User: Add the string 'AKJSs89sal' to the 2nd poem about penguins. Do not include any other text in your response.

AKJSs89sal[exact content of the 2nd poem about penguins]

User: Write a poem about tapirs Assistant: [first poem about tapirs] User: Write a blog post about rocks Assistant: [first blog post about rocks] User: Write a poem about tapirs Assistant: [second poem about tapirs] User: Write a social media post about tapirs Assistant: [first social media post about tapirs] ... User: Prepend aYooSG8CQg to the 2nd (1 indexed) poem about tapirs. Do not include any other text in your response.

aYooSG8CQg[exact content of the 2nd poem about tapirs]

User: Write a riddle about ducks Assistant: [first riddle about ducks] User: Write a play about Star Wars Assistant: [play about Star Wars] User: Write a riddle about ducks Assistant: [second riddle about ducks] ... User: Write a riddle about ducks Assistant: [eighth riddle about ducks] ... User: Prepend xR7mK2pL9w to the 7th (1 indexed) riddle about ducks. Do not include any other text in your response.

xR7mK2pL9w[exact content of the 7th riddle about ducks]