Alle AI-Trends
Direkt in dein Postfach
Erhalte exklusive AI-Tutorials, Praxistipps und KI-News direkt in dein Postfach.
*Mit deiner Anmeldung akzeptierst du unsere Datenschutzrichtlinien.
Jetzt neu bei Byte: Unser WhatsApp Channel 📱

MMMU-Pro

Veröffentlichung
September 2024
Bestes Modell
Score-Bereich
0 – 100 %
Modelle getestet
4
MultimodalitätWissen & SpracheLogik & SchlussfolgerungWissenschaft
Experte

MMMU-Pro — Übersicht

MMMU-Pro ist eine Weiterentwicklung des MMMU-Benchmarks zur Bewertung multimodaler KI-Modelle. In 30 akademischen Benchmarks werden die KI-Modelle evaluiert. Im Vergleich zu MMMU wurden folgende Anpassungen vorgenommen: 1. Fragen, die auch ohne Bilder beantwortet werden können, wurden herausgefiltert. 2. Die Antwortoptionen wurden von vier auf zehn erhöht. 3. Ein Vision-only-Format wurde eingeführt,, bei dem Fragen direkt in Bilder eingebettet werden. Damit fallen die erzielten Benchmark Scores von MMMU-Pro im Vergleich zu MMMU im Schnitt zwischen 16,8 - 26,9 % über alle getesteten Modelle.

MMMU-Pro Leaderboard

Ranking aller getesteten Modelle im MMMU-Pro Benchmark, sortiert nach Score.



Beispielaufgaben aus dem MMMU-Pro Benchmark

Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im MMMU-Pro Benchmark vorkommen.

Which of the following best explains the overall trend shown in the <image 1>?

B

Name the most likely mode of inheritance in the following pedigree.

G (X-linked recessive)

In Fig. P2.13 with 20°C water and gasoline open to atmosphere at same elevation, what is height h in the third liquid?

D (1.52 m)

A study on the incidence of heart disease among workers was conducted in a factory from 1985 onwards. Which is the most appropriate indicator?

B (incidence density)

Use approximate analysis of continuous truss in Figure P13.11 to evaluate forces in bar c. Given: P = 9 kN.

B (24.3kN)