Gemma 4 Modell-Übersicht

Gemma 4 31B ist ein Open Weights Modell von Google DeepMind, das auf der technischen Grundlage von Gemini 3 aufbaut. Die größte Version von Gemma 4 ist ein 30.7B Dense-Transformer mit hybridem Attention-Mechanismus. Das Modell eignet sich, trotz seiner kleinen Größe, für agentische Aufgaben, die Reasoning voraussetzen. Gemma 4 ist multimodal und unterstützt Text-, Bild- und Video-Input mit einem 256K-Token-Kontextfenster und erreicht vergleichbare Benchmark Scores zu deutlich größeren Open Weights Modellen wie GLM-5, Qwen 3.5 (397B) oder Kimi-K2.5. In den kleineren "Edge" Versionen lässt sich Gemma 4 über die Google AI Edge Gallery sogar auf modernen Smartphones lokal und ohne Internetverbindung ausführen.

Playground Hugging Face Model Card Blog Website

Features

Tools

Websuche, Bildgenerierung, Computer Use und MCP-Server.

Multimodalität

Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.

Finetuning

Finetuning des Modells ist aktuell nicht möglich.

Details zum Modell

262,14k Token

131,07k Token

Unbekannt

30,7 Mrd.

$0.14

$0.40

262k

58,25 GB

Gemma 4 Benchmark Scores

Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.

Gemma 4 Benchmark Übersicht

AIME 2026

GPQA Diamond

LiveCodeBench

MMLU-Pro

MMMLU

Gemma 4 Performance im Vergleich zu anderen Modellen

Benchmark	Gemma 4	Gemini 3.1 Flash-Lite	MiniMax M2.7	Claude Mythos	DeepSeek-V4-Pro	GPT-5.5	Kimi K2.6
AIME 2026AIME 2026	89,2 %	—	—	—	—	—	96,4 %
GPQA DiamondGPQA Diamond	84,3 %	86,9 %	—	94,5 %	90,1 %	93,6 %	90,5 %
LiveCodeBenchLiveCodeBench	80 %	72 %	—	—	93,5 %	—	89,6 %
MMLU-ProMMLU-Pro	85,2 %	—	—	—	87,5 %	—	—
Multilingual Massive Multitask Language UnderstandingMMMLU	88,4 %	—	—	92,7 %	—	—	—

Ergebnisse in Benchmarks

Benchmark auswählen

Darstellung der Rohdaten für den Benchmark AIME 2026. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Kimi K2.6	96,4 %
GLM-5.1	95,3 %
Gemma 4 31B	89,2 %

Vergleich von LLMs im Benchmark AIME 2026. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	94,5 %
Gemini 3.1 Pro	94,3 %
Claude Opus 4.7	94,2 %
GPT-5.5	93,6 %
GPT-5.4	92,8 %
Claude Opus 4.6	91,3 %
Kimi K2.6	90,5 %
DeepSeek-V4-Pro (Preview)	90,1 %
Claude Sonnet 4.6	89,9 %
Muse Spark	89,5 %
Kimi K2.5 (Thinking)	87,6 %
Gemini 3.1 Flash-Lite	86,9 %
GLM-5.1	86,2 %
GLM-5	86 %
GLM-4.7	85,7 %
MiniMax M2.5	85,2 %
Gemma 4 31B	84,3 %
MiniMax M2.1	83 %
GPT-5.4 nano	82,83 %
GPT-5.4 mini	81,57 %

Vergleich von LLMs im Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Gemini 3.1 Pro	2.887 %
DeepSeek-V4-Pro (Preview)	93,5 %
Kimi K2.6	89,6 %
DeepSeek-v3.2 Speciale	88,7 %
Kimi K2.5 (Thinking)	85 %
GLM-4.7	84,9 %
Qwen3.5-397B-A17B	83,6 %
DeepSeek-v3.2 Thinking	83,3 %
Kimi K2 Thinking	83,1 %
MiniMax-M2	83 %
GLM-4.6	82,8 %
Nemotron 3 Super	81,19 %
MiniMax M2.1	81 %
Muse Spark	80 %
Gemma 4 31B	80 %
GLM-4.5	72,9 %
Gemini 3.1 Flash-Lite	72 %
GLM-4.5 Air	70,7 %
Kimi K2 (0905)	53,7 %
Qwen3 30B A3B Instruct 2507	43,2 %

Vergleich von LLMs im Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark MMLU-Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
MiniMax M2.1	88 %
Qwen3.5-397B-A17B	87,8 %
DeepSeek-V4-Pro (Preview)	87,5 %
Kimi K2.5 (Thinking)	87,1 %
Grok-4	86,6 %
Gemma 4 31B	85,2 %
DeepSeek-R1-0528	85 %
Kimi K2 Thinking	84,6 %
GLM-4.5	84,6 %
Qwen3 235B A22B Thinking 2507	84,4 %
GLM-4.7	84,3 %
Nemotron 3 Super	83,73 %
MiniMax-M2	82 %
GLM-4.5 Air	81,4 %
Qwen3 30B A3B Instruct 2507	78,4 %
Gemma 3	67,5 %

Vergleich von LLMs im Benchmark MMLU-Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Multilingual Massive Multitask Language Understanding. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	92,7 %
Claude Opus 4.7	91,5 %
Gemma 4 31B	88,4 %

Vergleich von LLMs im Benchmark Multilingual Massive Multitask Language Understanding. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

‌
‌

Technologie & Daten

Technische Spezifikationen

Architektur	Dense-Transformer
Input Kontextlänge	262,14k
Output Kontextlänge	131,07k
Tokenizer	SentencePiece-Tokenizer

Besonderheiten

Multimodales Function Calling	Unterstützt nativ auch Bild-Input bei Function Calls.
Thinking Mode	Aktivierbarer Reasoning-Modus (enable_thinking=True)
Video-Inputs	Native Verarbeitung von Video-Input über Frame-Level-Reasoning

Vorteile & Nachteile

Vorteile

Hervorragende Benchmark Ergebnisse
Mit nur 31B Parametern ist Gemma 4 ein kleines LLM. Dennoch erreicht es in manchen Benchmarks bessere Ergebnisse, als Modelle mit 20x mehr Parametern, z.B. einen ELO von 1452 im Arena.ai Ranking vs. 1449 von Qwen 3.5 397B oder 1425 bei DeepSeek V3-2 Thinking.
Reasoning- und Coding-Fähigkeiten
Gemma 4 (31B) erreicht 89.2% in AIME 2026, 80.0% auf LiveCodeBench v6, 84.3% auf GPQA Diamond und einen Codeforces ELO von 2.150. Damit eignet sich das Modell auch für Coding-Aufgaben.
Vollständig Open Source unter Apache 2.0
Gemma 4 ist im Vergleich zum Vorgänger Gemma 3 uneingeschränkt kommerziell und ohne Lizenzgebühren nutzbar. Die Gewichte von Gemma 4 lassen sich HuggingFace herunterladen, sodass sich das Modell lokal ausführen lässt.
Kostenlos über Google AI Studio API
Zum Zeitpunkt der Veröffentlichung ist Gemma 4 kostenlos über die API von Google AI Studio abrufbar.
Breiter Framework-Support
Unterstützt transformers, llama.cpp, SGLang, Ollama, LM Studio, MLX, ONNX, Mistral.rs und weitere Frameworks.
Multimodal mit Bild- und Video-Inputs
Gemma 4 kann Text, Bilder und Videos nativ mit variablen Auflösungen und konfigurierbaren Token-Budgets als Inputs verarbeiten.

Nachteile

Kein Audio-Support im 31B-Modell
Audio-Input ist nur bei den kleineren Edge-Varianten (E2B, E4B) verfügbar, nicht bei der großen 31B-Dense Hauptversion.
Hoher Speicherbedarf für lokales Deployment
Um Gemma 4 (31B) in BF16 nutzen zu können, werden mindestens 61.4 GB RAM benötigt. Als Alternative werden quantisierte Versionen, z.B. Q4_K_M (ca. 18.7 GB RAM-Anforderung) oder die kleineren Versionen der Gemma-4 Familie als Alternativen angeboten.
Tooling + Community Aufbau notwendig
Bislang drehte sich das OSS-KI-Ökosystem hauptsächlich um chinesische Modelle. Entsprechend muss das Ökosystem rund um westliche OSS Modelle noch wachsen. Durch die neue Apache-2.0 Lizenzierung dürfte dies voraussichtlich aber rasch geschehen.

Vergleiche Gemma 4 mit anderen LLMs

Vergleiche Gemma 4 mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.

Entwickler	Modell⇅	Lizenz⇅	Parameter ⇅	Input-Tokens ⇅	Output-Tokens ⇅	Input-Preis ⇅	Output-Preis ⇅	Veröffentlichung
DeepSeek AI	DeepSeek-V4-Pro	MIT	1.600 Mrd.	1 Mio.	384k	$1.74	$3.48	24.04.2026
OpenAI	GPT-5.5	Proprietär	Unbekannt	1,05 Mio.	128k	$5.00	$30.00	23.04.2026
Moonshot AI	Kimi K2.6	MIT	1.000 Mrd.	262,14k	262,14k	$0.75	$3.50	20.04.2026
Anthropic	Claude Opus 4.7	Proprietär	Unbekannt	1 Mio.	128k	$5.00	$25.00	16.04.2026
Meta AI	Muse Spark	Proprietär	Unbekannt	262k	unbekannt	unbekannt	unbekannt	08.04.2026
Z.ai	GLM-5.1	MIT	744 Mrd.	202,75k	128k	$1.40	$4.40	07.04.2026
Anthropic	Claude Mythos	Proprietär	Unbekannt	1 Mio.	128k	$25.00	$125.00	07.04.2026
Google DeepMind	Gemma 4	Apache 2.0	30,7 Mrd.	262,14k	131,07k	$0.14	$0.40	02.04.2026
MiniMax	MiniMax M2.7	MIT	230 Mrd.	204,8k	131,07k	$0.30	$1.20	18.03.2026
OpenAI	GPT-5.4 nano	Proprietär	Unbekannt	400k	128k	$0.20	$1.25	17.03.2026

‌
Alle Modelle vergleichen

Provider & APIs

Du kannst Google DeepMind Gemma 4 über die API folgender Anbieter nutzen.

Das Modell ist derzeit bei keinen Anbietern verfügbar.