DeepSeek-V4-Pro (Preview) Modell-Übersicht

DeepSeek-V4-Pro (Preview) ist ein Flaggschiff-Modell von DeepSeek AI, das am 24. April 2026 veröffentlicht wurde. Mit 1,6 Billionen Gesamtparametern (49 Milliarden aktiv) in einer Mixture-of-Experts-Architektur und einem nativen 1-Million-Token-Kontextfenster gehört es zu den größten Open Weights Modellen. Das Modell kombiniert Compressed Sparse Attention (CSA) und Heavily Compressed Attention (HCA) zu einem hybriden Attention-Mechanismus, der bei 1M-Token-Kontext nur 27% der Inference-FLOPs und 10% des KV-Cache von DeepSeek-V3.2 benötigt. Bei der Nutzung gibt es drei verschiedene Reasoning-Modi. DeepSeek-V4-Pro sollte die Lücke zu Frontier-Modellen wie GPT-5.5 und Claude Opus 4.7 schließen, enttäusche allerdings und fiel in vielen Benchmarks sogar hinter andere Open Source Modelle wie z.B. Kimi-K2.6.

Playground API Dokumentation Hugging Face System Card Blog

Features

Tools

Websuche, Bildgenerierung, Computer Use und MCP-Server.

Multimodalität

Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.

Finetuning

Finetuning des Modells ist aktuell nicht möglich.

Details zum Modell

1 Mio. Token

384k Token

32.000 Mrd.

1.600 Mrd.

1,74 $

0,87 $

129,28k

805,33 GB

DeepSeek-V4-Pro (Preview) Benchmark Scores

Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.

DeepSeek-V4-Pro (Preview) Benchmark Übersicht

DeepSeek-V4-Pro (Preview) Performance im Vergleich zu anderen KI-Modellen

Benchmark	DeepSeek-V4-Pro (Preview)	DeepSeek-v3.2	GPT-5.5	Gemini 3.5 Flash	Muse Spark 1.1	GPT 5.6 Terra	GPT 5.6 Sol
Artificial Analysis Intelligence IndexLogik & Schlussfolgerung	44 Pkt.	—	—	55 Pkt.	—

Ergebnisse in Benchmarks

Benchmark auswählen

Darstellung der Rohdaten für den Benchmark Artificial Analysis Intelligence Index. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Fable 5	65 %
Claude Opus 4.8	61 %
GPT-5.6 Sol	58,9 %
GPT-5.6 Terra	55 %
Gemini 3.5 Flash	55 %
Grok 4.5	53,8 %
GPT-5.6 Luna	51,2 %
MiniMax M2.7	50 %
DeepSeek-V4-Pro (Preview)	44 %

Vergleich von LLMs im Benchmark Artificial Analysis Intelligence Index. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark BrowseComp. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.6 Sol	90,4 %
GPT-5.6 Terra	87,5 %
Claude Sonnet 5	84,7 %
GPT-5.5	84,4 %
Claude Opus 4.8	84,3 %
MiniMax-M3	83,52 %
DeepSeek-V4-Pro (Preview)	83,4 %
GPT-5.6 Luna	83,3 %
Kimi K2.6	83,2 %
Claude Opus 4.7	79,3 %
MiniMax M2.7	76,3 %
GLM-5.1	68 %

Vergleich von LLMs im Benchmark BrowseComp. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark GDPval-AA. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Fable 5	1.932 %
Claude Opus 4.8	1.890 %
GPT-5.6 Sol	1.747,8 %
Gemini 3.5 Flash	1.656 %
Claude Sonnet 5	1.618 %
GPT-5.6 Terra	1.593 %
GPT-5.6 Luna	1.591,8 %
DeepSeek-V4-Pro (Preview)	1.554 %
Grok 4.5	1.543 %
MiniMax M2.7	1.495 %
Muse Spark	1.444 %
Muse Spark 1.1	1.381 %

Vergleich von LLMs im Benchmark GDPval-AA. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Fugu Ultra	95,5 %
GPT-5.6 Sol	94,6 %
Claude Mythos Preview	94,5 %
Claude Opus 4.7	94,2 %
Claude Opus 4.8	93,6 %
GPT-5.5	93,6 %
Claude Fable 5	93,18 %
Grok 4.5	93,1 %
GPT-5.6 Terra	92,9 %
GPT-5.4	92,8 %
GPT-5.6 Luna	92,3 %
GLM-5.2	91,2 %
Kimi K2.6	90,5 %
DeepSeek-V4-Pro (Preview)	90,1 %
Muse Spark	89,5 %
Gemini 3.1 Flash-Lite	86,9 %
GLM-5.1	86,2 %
Gemma 4 31B	84,3 %
GPT-5.4 nano	82,83 %
GPT-5.4 mini	81,57 %

Vergleich von LLMs im Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Humanity's Last Exam. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	56,8 %
Muse Spark 1.1	52,2 %
Fugu Ultra	50 %
Claude Opus 4.8	49,8 %
GPT-5.6 Sol	47,2 %
Claude Opus 4.7	46,9 %
Claude Sonnet 5	43,2 %
Muse Spark	42,8 %
GPT-5.6 Terra	41,8 %
GPT-5.5	41,4 %
GLM-5.2	40,5 %
Grok 4.5	40,3 %
Gemini 3.5 Flash	40,2 %
DeepSeek-V4-Pro (Preview)	37,7 %
Kimi K2.6	34,7 %
GLM-5.1	31 %
GPT-5.4 nano	24,26 %
Gemma 4 31B	19,5 %
GPT-5.4 mini	18,32 %
Nemotron 3 Super	18,26 %

Vergleich von LLMs im Benchmark Humanity's Last Exam. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Gemini 3.1 Pro	2.887 %
DeepSeek-V4-Pro (Preview)	93,5 %
Fugu Ultra	93,2 %
Kimi K2.6	89,6 %
DeepSeek-v3.2 Speciale	88,7 %
GPT-5.6 Terra	85,93 %
Kimi K2.5 (Thinking)	85 %
GLM-4.7	84,9 %
Qwen3.5-397B-A17B	83,6 %
DeepSeek-v3.2 Thinking	83,3 %
Kimi K2 Thinking	83,1 %
MiniMax-M2	83 %
GLM-4.6	82,8 %
GPT-5.6 Sol	82,6 %
Nemotron 3 Super	81,19 %
MiniMax M2.1	81 %
Muse Spark	80 %
Gemma 4 31B	80 %
Gemini 3.1 Flash-Lite	72 %
Kimi K2 (0905)	53,7 %

Vergleich von LLMs im Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark MCP-Atlas. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Muse Spark 1.1	88,1 %
Gemini 3.5 Flash	83,6 %
Claude Fable 5	83,3 %
Claude Opus 4.8	82,2 %
Claude Opus 4.7	77,3 %
GLM-5.2	76,8 %
GPT-5.5	75,3 %
MiniMax-M3	74,2 %
DeepSeek-V4-Pro (Preview)	73,6 %
GLM-5.1	71,8 %
MiniMax M2.7	49,4 %

Vergleich von LLMs im Benchmark MCP-Atlas. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark MMLU-Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.6 Sol	89,1 %
MiniMax M2.1	88 %
Qwen3.5-397B-A17B	87,8 %
DeepSeek-V4-Pro (Preview)	87,5 %
Kimi K2.5 (Thinking)	87,1 %
GPT-5.6 Terra	86,66 %
Grok-4	86,6 %
Gemma 4 31B	85,2 %
DeepSeek-R1-0528	85 %
Kimi K2 Thinking	84,6 %
GLM-4.5	84,6 %
Qwen3 235B A22B Thinking 2507	84,4 %
GLM-4.7	84,3 %
Nemotron 3 Super	83,73 %
MiniMax-M2	82 %
GLM-4.5 Air	81,4 %
Qwen3 30B A3B Instruct 2507	78,4 %
Gemma 3	67,5 %

Vergleich von LLMs im Benchmark MMLU-Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark MMMLU. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	92,7 %
Claude Opus 4.7	91,5 %
DeepSeek-V4-Pro (Preview)	90,3 %
Gemma 4 31B	88,4 %

Vergleich von LLMs im Benchmark MMMLU. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SimpleQA. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
DeepSeek-V4-Pro (Preview)	57,9 %

Vergleich von LLMs im Benchmark SimpleQA. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SWE-bench Multilingual. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	87,3 %
Claude Opus 4.8	84,4 %
Claude Sonnet 5	78,3 %
Grok 4.5	78 %
Kimi K2.6	76,7 %
MiniMax M2.7	76,5 %
DeepSeek-V4-Pro (Preview)	76,2 %

Vergleich von LLMs im Benchmark SWE-bench Multilingual. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SWE-bench Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Fable 5	80 %
Claude Mythos Preview	77,8 %
Fugu Ultra	73,7 %
Claude Opus 4.8	69,2 %
Grok 4.5	64,7 %
GPT-5.6 Sol	64,6 %
Claude Opus 4.7	64,3 %
GPT-5.6 Terra	63,4 %
Claude Sonnet 5	63,2 %
GPT-5.6 Luna	62,7 %
GLM-5.2	62,1 %
Muse Spark 1.1	61,5 %
MiniMax-M3	59 %
GPT-5.5	58,6 %
Kimi K2.6	58,6 %
GLM-5.1	58,4 %
MiniMax M2.7	56,22 %
DeepSeek-V4-Pro (Preview)	55,4 %
Gemini 3.5 Flash	55,1 %
Muse Spark	52,4 %

Vergleich von LLMs im Benchmark SWE-bench Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SWE-bench Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.6 Sol	96,2 %
Claude Fable 5	95 %
Claude Mythos Preview	93,9 %
Claude Opus 4.8	88,6 %
Claude Opus 4.7	87,6 %
Claude Sonnet 5	85,2 %
Claude Opus 4.6	80,8 %
DeepSeek-V4-Pro (Preview)	80,6 %
Gemini 3.1 Pro	80,6 %
MiniMax-M3	80,5 %
Kimi K2.6	80,2 %
MiniMax M2.5	80,2 %
MiniMax M2.7	79,9 %
Claude Sonnet 4.6	79,6 %
GLM-5	77,8 %
Muse Spark	77,4 %
Kimi K2.5 (Thinking)	76,8 %
Qwen3.5-397B-A17B	76,4 %
GPT-5.6 Terra	75,2 %
MiniMax M2.1	74 %

Vergleich von LLMs im Benchmark SWE-bench Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Terminal-Bench 2.0. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.5	82,7 %
Claude Mythos Preview	82 %
GPT-5.3-Codex	77,3 %
GPT-5.4	75,1 %
Claude Opus 4.7	69,4 %
Gemini 3.1 Pro	68,5 %
DeepSeek-V4-Pro (Preview)	67,9 %
Kimi K2.6	66,7 %
Claude Opus 4.6	65,4 %
GLM-5.1	63,5 %
Claude Sonnet 4.6	59,1 %
Muse Spark	59 %
MiniMax M2.7	57 %
GLM-5	56,2 %
Qwen3.5-397B-A17B	52,5 %
MiniMax M2.5	51,7 %
Kimi K2.5 (Thinking)	50,8 %
GPT-5.4 nano	46,3 %
GPT-5.4 mini	38,2 %
Nemotron 3 Super	31 %

Vergleich von LLMs im Benchmark Terminal-Bench 2.0. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

‌
‌

Technologie & Daten

Technische Spezifikationen

Architektur	Sparse MoE-Transformer
Input Kontextlänge	1 Mio.
Output Kontextlänge	384k
Tokenizer	DeepSeek V4 Tokenizer (encoding_dsv4)

Besonderheiten

1 Mio. Token-Kontextfenster	DeepSeek V4 kann bis zu 1 Mio. Input-Tokens verarbeiten

Vorteile & Nachteile

Vorteile

Gute Benchmark Ergebnisse
DeepSeek V4 Pro erreicht 93.5% im LiveCodeBench (vor Gemini 3.1 Pro mit 91.7% und Claude Opus 4.7 mit 88.8%) sowie 80.6% bei SWE-Bench Verified mit nur ~14% der Kosten von GPT-5.5.
Größtes Open-Weights-Modell weltweit
DeepSeek V4 hat 1,6 Billionen Parameter und wurde vollständig unter MIT-Lizenz auf Hugging Face verfügbar gemacht. Das Modell lässt sich lokal deployen und ohne Internetverbindung verwenden, passende Hardware vorausgesetzt.
Drei wählbare Reasoning-Modi
Non-Think, Think High und Think Max erlauben pro Request die Wahl der Reasoning-Tiefe für mehr Einfluss auf Latenz und Tokenverbrauch.

Nachteile

DeepSeek V4 bleibt hinter den Erwartungen zurück
Sowohl in den Benchmarks, als auch in subjektiven Tests bleibt DeepSeek V4 hinter den (hohen) Erwartungen an das Modell zurück. Der Vorsprung führender (proprietärer) US-Modelle scheint sich zum Veröffentlichungszeitpunkt zu vergrößern und viele Open-Source Nutzer greifen eher auf Kimi-K2.6 oder GLM-5.1 zurück.
Kein Multimodal-Support
DeepSeek V4 ist aktuell ein rein textbasiertes LLM. Für die Verarbeitung von Bildern, Audio oder Video sind zusätzliche Modelle notwendig.

Vergleiche DeepSeek-V4-Pro (Preview) mit anderen LLMs

Vergleiche DeepSeek-V4-Pro (Preview) mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.

Entwickler	Modell⇅	Lizenz⇅	Parameter ⇅	Input-Tokens ⇅	Output-Tokens ⇅	Input-Preis ⇅	Output-Preis ⇅	Veröffentlichung
OpenAI	GPT 5.6 Sol	Proprietär	Unbekannt	1,05 Mio.	128k	5,00 $	30,00 $	09.07.2026
OpenAI	GPT 5.6 Terra	Proprietär	Unbekannt	1,05 Mio.	128k	2,50 $	15,00 $	09.07.2026
OpenAI	GPT 5.6 Luna	Proprietär	Unbekannt	1,05 Mio.	128k	1,00 $	6,00 $	09.07.2026
Meta AI	Muse Spark 1.1	Proprietär	Unbekannt	1,05 Mio.	1,05 Mio.	1,25 $	4,25 $	09.07.2026
xAI	Grok 4.5	Proprietär	Unbekannt	500k	500k	2,00 $	6,00 $	08.07.2026
Anthropic	Claude Sonnet 5	Proprietär	Unbekannt	1 Mio.	128k	3,00 $	15,00 $	30.06.2026
Sakana AI	Fugu Ultra	Proprietär	7 Mrd.	1 Mio.	1 Mio.	5,00 $	30,00 $	21.06.2026
Z.ai	GLM 5.2	MIT	753 Mrd.	1,05 Mio.	131,07k	1,40 $	4,40 $	16.06.2026
Anthropic	Claude Fable 5	Proprietär	Unbekannt	1 Mio.	128k	10,00 $	50,00 $	09.06.2026
DeepSeek AI	DeepSeek-V4-Pro	MIT	1.600 Mrd.	1 Mio.	384k	1,74 $	0,87 $	24.04.2026

‌
Alle Modelle vergleichen

Provider & APIs

Du kannst DeepSeek AI DeepSeek-V4-Pro (Preview) über die API folgender Anbieter nutzen.

Das Modell ist derzeit bei keinen Anbietern verfügbar.

‌
‌
‌

‌
‌
‌
‌
‌
‌
‌
‌
‌
‌
‌

DeepSeek-V4-Pro (Preview) Modell-Übersicht

Features

Tools

Multimodalität

Finetuning

Details zum Modell

DeepSeek-V4-Pro (Preview) Benchmark Scores

DeepSeek-V4-Pro (Preview) Benchmark Übersicht

Wissen & Sprache

Logik & Schlussfolgerung

Programmierung

Agentische Aufgaben

Cybersecurity

DeepSeek-V4-Pro (Preview) Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks

Technologie & Daten

Technische Spezifikationen

Besonderheiten

Vorteile & Nachteile

Vorteile

Nachteile

Vergleiche DeepSeek-V4-Pro (Preview) mit anderen LLMs

Provider & APIs

DeepSeek-V4-Pro (Preview) Benchmark Übersicht

Wissen & Sprache

Logik & Schlussfolgerung

Programmierung

Agentische Aufgaben

Cybersecurity

DeepSeek-V4-Pro (Preview) Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks