DeepSeek-V4-Pro
Veröffentlichung
April 2026
Knowledge Cutoff
Unbekannt
Parameter
1.600 Mrd.
Modellfamilie
DeepSeek-V4-Pro
MIT
Features
Tools
Websuche, Bildgenerierung, Computer Use und MCP-Server.
Multimodalität
Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.
Finetuning
Finetuning des Modells ist aktuell nicht möglich.
Details zum Modell
Max. Input
1 Mio. Token
Max. Output
Unbekannt
Trainingsdaten
32.000 Mrd.
Parameter
1.600 Mrd.
Input Preis
$1.74
Output Preis
$3.48
Vokabular
Unbekannt
Dateigröße
Unbekannt
DeepSeek-V4-Pro Benchmark Scores
Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.
Technologie & Daten
Technische Spezifikationen
| Architektur | Sparse MoE-Architektur mit 1,6T Gesamtparametern (49B aktiv), kombiniert mit hybridem Attention-Mechanismus aus Compressed Sparse Attention (CSA) und Heavily Compressed Attention (HCA) sowie Manifold-Constrained Hyper-Connections (mHC). |
|---|---|
| Input Kontextlänge | 1 Mio. |
| Output Kontextlänge | Unbekannt |
| Tokenizer | DeepSeek V4 Tokenizer (encoding_dsv4) |
Besonderheiten
| 1M-Token-Kontextfenster | Natives 1-Million-Token-Kontextfenster für Long-Context-Workflows mit ganzen Codebases oder umfangreichen Dokumenten. |
|---|---|
| Drei Reasoning-Modi | Non-Think (schnell), Think High (logische Analyse) und Think Max (volle Reasoning-Tiefe) – per Request umschaltbar. |
| Hybrid Attention (CSA + HCA) | Kombination aus Compressed Sparse Attention und Heavily Compressed Attention für massive Long-Context-Effizienz. |
| 128 parallele Function-Calls | Unterstützt bis zu 128 parallel ausgeführte Tool-Aufrufe pro Turn für agentische Workflows. |
| Manifold-Constrained Hyper-Connections | Verstärkte Residual-Connections für stabile Signal-Propagation über alle Layer. |
Vorteile & Nachteile
Vorteile
- Frontier-Coding-Performance zum Bruchteil des Preises93.5% auf LiveCodeBench (vor Gemini 3.1 Pro mit 91.7% und Claude Opus 4.7 mit 88.8%) sowie 80.6% auf SWE-Bench Verified bei nur ~14% der Kosten von GPT-5.5.
- Größtes Open-Weights-Modell weltweit1,6 Billionen Parameter unter MIT-Lizenz auf Hugging Face verfügbar – vollständig lokal deploybar mit vLLM, SGLang oder Huawei Ascend.
- 1-Million-Token-Kontext mit drastischer EffizienzsteigerungBei 1M-Kontext nur 27% FLOPs und 10% KV-Cache gegenüber DeepSeek-V3.2 – ermöglicht ökonomische Long-Context-Workloads.
- Drei wählbare Reasoning-ModiNon-Think, Think High und Think Max erlauben pro Request die optimale Balance zwischen Latenz, Kosten und Reasoning-Tiefe.
- Wettbewerbsfähig auf CodeforcesCodeforces-Rating von 3206 platziert das Modell auf etwa Rang 23 unter realen menschlichen Wettbewerbsteilnehmern.
Nachteile
- Kein Multimodal-SupportAktuell rein textbasiert – keine Verarbeitung von Bildern, Audio oder Video. Multimodale Fähigkeiten sind laut DeepSeek auf der Roadmap, aber noch nicht verfügbar.
- Schwächer als Frontier-Modelle bei HLE37.7% auf Humanity's Last Exam liegen unter GPT-5.5 (~41%), Claude Opus 4.7 (~40%) und Gemini 3.1 Pro (44.4%).
- Hohe Hardware-Anforderungen für lokales Deployment1,6T Parameter erfordern Datacenter-GPUs oder Multi-Node-Cluster – Consumer-Hardware reicht selbst mit FP4-Quantisierung nicht aus.
- Preview-StatusModell ist als Preview gelabelt; Stabilität, Tool-Calling-Konsistenz und finale Architektur können sich bis zur stabilen Version noch ändern.
- Schwächer bei UI-Generierung als Claude OpusDeepSeek V4-Pro produziert weniger dashboard-fertige UI-Outputs (Charts, Metric Cards, Datentabellen) als Claude Opus 4.x.
Vergleiche DeepSeek-V4-Pro mit anderen LLMs
Vergleiche DeepSeek-V4-Pro mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.
Provider & APIs
Du kannst DeepSeek AI DeepSeek-V4-Pro über die API folgender Anbieter nutzen.
Das Modell ist derzeit bei keinen Anbietern verfügbar.