MathVista
MathVista — Übersicht
MathVista ist ein multimodaler Benchmark zur Bewertung mathematischen Denkens von Foundation KI-Modellen in visuellen Kontexten. Der Benchmark umfasst 6.141 Aufgaben aus 31 Datensätzen. Dabei werden sieben mathematische Reasoning-Typen (algebraisch, arithmetisch, geometrisch, logisch, numerisch, wissenschaftlich, statistisch) getestet. Die Aufgaben reichen von Grundschul- bis Hochschulniveau und erfordern genaues visuelles Verständnis und kompositorisches Schlussfolgern, was den Benchmark zu einem der wichtigsten Maßstäbe für die Bewertung multimodaler mathematischer Fähigkeiten von KI-Modellen macht.
MathVista Leaderboard
Ranking aller getesteten Modelle im MathVista Benchmark, sortiert nach Score.
Beispielaufgaben aus dem MathVista Benchmark
Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im MathVista Benchmark vorkommen.
When a spring does work on an object, we cannot find the work by simply multiplying the spring force by the object's displacement. The reason is that there is no one value for the force-it changes. However, we can split the displacement up into an infinite number of tiny parts and then approximate the force in each as being constant. Integration sums the work done in all those parts. Here we use the generic result of the integration. In Figure, a cumin canister of mass m=0.40 kg slides across a horizontal frictionless counter with speed v=0.50 m/s. It then runs into and compresses a spring of spring constant k=750 N/m. When the canister is momentarily stopped by the spring, by what distance d is the spring compressed?
1.2
Is the function f: R -> R injective? (A) Yes (B) No
B
Find m∠H (A) 97 (B) 102 (C) 107 (D) 122
B
Subtract all large rubber spheres. Subtract all big shiny cylinders. How many objects are left?
4
What is the mode of the numbers?
53