Alle AI-Trends
Direkt in dein Postfach
Erhalte exklusive AI-Tutorials, Praxistipps und KI-News direkt in dein Postfach.
*Mit deiner Anmeldung akzeptierst du unsere Datenschutzrichtlinien.
Jetzt neu bei Byte: Unser WhatsApp Channel 📱

MMMLU

Veröffentlichung
September 2024
Score-Bereich
0 – 100 %
Modelle getestet
3
Wissen & Sprache
Fortgeschritten

MMMLU — Übersicht

MMMLU (Multilingual Massive Multitask Language Understanding) ist die multilinguale Erweiterung des MMLU-Benchmarks, bei der der gesamte MMLU-Testdatensatz von professionellen menschlichen Übersetzern in 14 Sprachen übersetzt wurde. Der Benchmark umfasst 57 Fachgebiete mit Multiple-Choice-Fragen (jeweils vier Antwortoptionen) von elementarem bis fortgeschrittenem professionellem Niveau in Bereichen wie Recht, Physik, Geschichte und Informatik. Durch die Verwendung menschlicher Übersetzer statt maschineller Übersetzung wird eine hohe Qualität insbesondere bei besonders ressourcenarmen Sprachen wie "Yoruba" und "Swahili" sichergestellt.

MMMLU Leaderboard

Ranking aller getesteten Modelle im MMMLU Benchmark, sortiert nach Score.



Beispielaufgaben aus dem MMMLU Benchmark

Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im MMMLU Benchmark vorkommen.

Ermitteln Sie den Grad für die gegebene Felderweiterung Q(sqrt(2), sqrt(3), sqrt(18)) über Q. A: 0 B: 4 C: 2 D: 6

B

目の前に長方形のドアがあり、そのドアが開いていて、異なる網膜像を示していても、それが長方形だと認識できる能力では何とよばれているか。 A: 色の恒常性 B: 閉合 C: 形の恒常性 D: 大きさの恒常性

C

休谟将理性描述为: A: 冷静而不忙碌。 B: 一切道德行为的源泉。 C: 欲望的第一个源泉或冲动。 D: 以上都是。

A

在吉萨建成的埃及最伟大的金字塔是: A: 作为埋葬法老胡夫、胡夫之子哈夫拉和胡夫之孙门卡拉的纪念碑。 B: 被迫在死亡的威胁下工作的奴隶们建造的,正如旧约《出埃及记》中所描述的那样。 C: 处于第六王朝的建筑狂潮中。 D: 以上都是。

A

Jeder Satz von booleschen Operatoren, der ausreicht, um alle booleschen Ausdrücke darzustellen, gilt als vollständig. Welcher der folgenden Ausdrücke ist NICHT vollständig? A: {AND, NOT} B: {NOT, OR} C: {AND, OR} D: {NAND}

C