Alle AI-Trends
Direkt in dein Postfach
Erhalte exklusive AI-Tutorials, Praxistipps und KI-News direkt in dein Postfach.
*Mit deiner Anmeldung akzeptierst du unsere Datenschutzrichtlinien.
Jetzt neu bei Byte: Unser WhatsApp Channel 📱

Video-MMMU

Veröffentlichung
Januar 2025
Bestes Modell
Unbekannt
Score-Bereich
0 – 100 %
Modelle getestet
Unbekannt
MultimodalitätWissen & SpracheWissenschaft
Experte

Video-MMMU — Übersicht

Video-MMMU ist ein multimodaler, multidisziplinärer Video-Benchmark, der die Fähigkeit großer multimodaler KI-Modelle darin bewertet, Wissen aus professionellen Lehrvideos zu erwerben und anzuwenden. Der Benchmark umfasst 300 kuratierte Lehrvideos auf Hochschulniveau mit 900 von Experten annotierten Fragen über insgesamt sechs Disziplinen (Kunst, Wirtschaft, Naturwissenschaften, Medizin, Geisteswissenschaften, Ingenieurwesen) und 30 Fachgebiete. Die Evaluation der Modelle erfolgt entlang von drei kognitiver Stufen: Perception (Wahrnehmung), Comprehension (Verständnis) und Adaptation (Anwendung auf neue Szenarien). Menschliche Experten erreichen einen Benchmark Score von 33,1 %, wohingegen die besten KI-Modelle lange Zeit deutlich dahinter zurückblieben.

Video-MMMU Leaderboard

Ranking aller getesteten Modelle im Video-MMMU Benchmark, sortiert nach Score.

Beispielaufgaben aus dem Video-MMMU Benchmark

Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im Video-MMMU Benchmark vorkommen.

[Perception - Art] Which of the following does NOT appear when the video introduces Baroque Painting? (1) Intense warm colours (2) Strong contrast between light and dark (3) A focus on movement, drama, and emotion (4) Abstraction (5) Allegory (6) Enhanced sense of movement (7) Set apart from Renaissance and Mannerism (8) Asymmetry (9) Renaissance (10) Mannerism

D (Abstraction)

[Comprehension - Science] A ball is launched at an angle of 30 degrees above the horizontal with an initial speed of 30 m/s. Using the kinematic equation y = y0 + v0y*t - 1/2*g*t^2, what is the total time the ball spends in the air?

E (3.04 seconds)

[Adaptation - Medicine] What type of tissue is shown in the image? (A) Cardiac muscle (B) Skeletal muscle (C) Smooth muscle (D) Nervous tissue (E) Epithelial tissue (F) Connective tissue (G) Adipose tissue (H) Bone tissue (I) Cartilage (J) Blood

A (Cardiac muscle)

[Perception - Engineering] What is the correct sequence of edges added when applying Kruskal's algorithm to find the minimum spanning tree? (A) AC, BC, BE, EF, FG (B) AC, BE, BC, EF, FG (C) BE, AC, BC, EF, FG (D) AC, BE, EF, BC, FG (E) BE, EF, AC, BC, FG (F) EF, BE, AC, BC, FG (G) BE, AC, EF, BC, FG

G (BE, AC, EF, BC, FG)

[Adaptation - Business] The government has imposed a price ceiling of $1.30 per gallon on gasoline. What is the likely outcome in the market? Options address various scenarios of excess demand, shortage, surplus, and equilibrium effects.

B (Price below equilibrium causes excess demand/shortage)