Nemotron 3 Super Modell-Übersicht

Nemotron 3 Super ist ein Open-Weights-Modell von NVIDIA aus der Nemotron-3-Familie. Vorgestellt wurde Nemotron Super 3 auf der GTC 2026. Das LLM kombiniert eine Hybride Architektur aus Mamba-2-Layern, Transformer-Attention-Layern und Latent-Mixture-of-Experts (LatentMoE) zu einem 120B-Parameter-Modell, das 12B Parameter pro Token aktiviert. Nemotron 3 Super kann ein Kontextfenster von bis zu 1 Mio. Tokens verarbeiten und ist für den Einsatz als KI-Agent und für Multi-Step-Workflows optimiert.

Website Model Card Hugging Face Technischer Report Blog

Features

Tools

Websuche, Bildgenerierung, Computer Use und MCP-Server.

Multimodalität

Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.

Finetuning

Finetuning des Modells ist aktuell nicht möglich.

Details zum Modell

1,05 Mio. Token

32,77k Token

25.000 Mrd.

120,6 Mrd.

0,30 $

0,75 $

131,07k

230,25 GB

Nemotron 3 Super Benchmark Scores

Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.

Nemotron 3 Super Benchmark Übersicht

Nemotron 3 Super Performance im Vergleich zu anderen KI-Modellen

Benchmark	Nemotron 3 Super	GPT-5.4	GPT-5.4 mini	Claude Opus 5	Gemini 3.6 Flash	Gemini 3.5 Flash Lite	Laguna S 2.1
AIME 2025Logik & Schlussfolgerung	90,2 %	—	90,8 %	—	—	—	—
Humanity's Last ExamWissen & Sprache	18,3 %	—	18,3 %	56,3 %	38,3 %	17,5 %	—
LiveCodeBenchProgrammierung	81,2 %	—	—	89 %	—	—	—
MMLU-ProWissen & Sprache	83,7 %	—	—	Top 91,6 %	—	—	—
Terminal-Bench 2.0Programmierung	31 %	75,1 %	38,2 %	—	—	—	—
τ²-BenchAgentische Aufgaben	61,2 %	—	74,1 %	—	—	—	—

Ergebnisse in Benchmarks

Benchmark auswählen

Darstellung der Rohdaten für den Benchmark AIME 2025. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.2	100 %
GPT-5.2 Pro	100 %
GPT-5	99,6 %
GPT-5.4 nano	98,33 %
Kimi K2.5 (Thinking)	96,1 %
DeepSeek-v3.2 Speciale	96 %
GLM-4.7	95,7 %
Gemini 3 Pro	95 %
Kimi K2 Thinking	94,5 %
GPT-5.1	94 %
GLM-4.6	93,9 %
DeepSeek-v3.2 Thinking	93,1 %
GPT-5.4 mini	90,83 %
Nemotron 3 Super	90,21 %
Claude Sonnet 4.5	87 %
MiniMax M2.5	86,3 %
MiniMax M2.1	83 %
Claude Haiku 4.5	80,7 %
MiniMax-M2	78 %
Kimi K2 (0905)	49,5 %

Vergleich von LLMs im Benchmark AIME 2025. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Humanity's Last Exam. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Opus 5	56,3 %
Muse Spark 1.1	52,2 %
Fugu Ultra	50 %
Claude Opus 4.8	49,8 %
GPT-5.6 Sol	47,2 %
Claude Opus 4.7	46,9 %
Kimi K3	43,5 %
Claude Sonnet 5	43,2 %
Muse Spark	42,8 %
GPT-5.6 Terra	41,8 %
GPT-5.5	41,4 %
GLM-5.2	40,5 %
Grok 4.5	40,3 %
Gemini 3.5 Flash	40,2 %
Gemini 3.6 Flash	38,3 %
DeepSeek-V4-Pro (Preview)	37,7 %
Kimi K2.6	34,7 %
Inkling	29,7 %
Nemotron 3 Super	18,26 %
Gemini 3.5 Flash-Lite	17,5 %

Vergleich von LLMs im Benchmark Humanity's Last Exam. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Gemini 3.1 Pro	2.887 %
DeepSeek-V4-Pro (Preview)	93,5 %
Fugu Ultra	93,2 %
Kimi K2.6	89,6 %
Claude Opus 5	89,03 %
DeepSeek-v3.2 Speciale	88,7 %
GPT-5.6 Terra	85,93 %
Kimi K2.5 (Thinking)	85 %
GLM-4.7	84,9 %
Qwen3.5-397B-A17B	83,6 %
DeepSeek-v3.2 Thinking	83,3 %
Kimi K2 Thinking	83,1 %
MiniMax-M2	83 %
GLM-4.6	82,8 %
GPT-5.6 Sol	82,6 %
Nemotron 3 Super	81,19 %
MiniMax M2.1	81 %
Muse Spark	80 %
Gemma 4 31B	80 %
Gemini 3.1 Flash-Lite	72 %

Vergleich von LLMs im Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark MMLU-Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Opus 5	91,59 %
GPT-5.6 Sol	89,1 %
MiniMax M2.1	88 %
Qwen3.5-397B-A17B	87,8 %
DeepSeek-V4-Pro (Preview)	87,5 %
Kimi K2.5 (Thinking)	87,1 %
GPT-5.6 Terra	86,66 %
Grok-4	86,6 %
Gemma 4 31B	85,2 %
DeepSeek-R1-0528	85 %
Kimi K2 Thinking	84,6 %
GLM-4.5	84,6 %
Qwen3 235B A22B Thinking 2507	84,4 %
GLM-4.7	84,3 %
Nemotron 3 Super	83,73 %
MiniMax-M2	82 %
GLM-4.5 Air	81,4 %
Qwen3 30B A3B Instruct 2507	78,4 %
Gemma 3	67,5 %

Vergleich von LLMs im Benchmark MMLU-Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Terminal-Bench 2.0. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.5	82,7 %
Claude Mythos Preview	82 %
GPT-5.3-Codex	77,3 %
GPT-5.4	75,1 %
Claude Opus 4.7	69,4 %
Gemini 3.1 Pro	68,5 %
DeepSeek-V4-Pro (Preview)	67,9 %
Kimi K2.6	66,7 %
Claude Opus 4.6	65,4 %
GLM-5.1	63,5 %
Claude Sonnet 4.6	59,1 %
Muse Spark	59 %
MiniMax M2.7	57 %
GLM-5	56,2 %
Qwen3.5-397B-A17B	52,5 %
MiniMax M2.5	51,7 %
Kimi K2.5 (Thinking)	50,8 %
GPT-5.4 nano	46,3 %
GPT-5.4 mini	38,2 %
Nemotron 3 Super	31 %

Vergleich von LLMs im Benchmark Terminal-Bench 2.0. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark τ²-Bench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Opus 4.6	95,6 %
Gemini 3.1 Pro	95,1 %
Claude Sonnet 4.6	94,8 %
Claude Opus 4.5	93,55 %
Muse Spark	91,5 %
GPT-5.2	90,35 %
GLM-5	89,7 %
GPT-5.4 nano	88,38 %
GLM-4.7	87,4 %
MiniMax M2.1	87 %
Qwen3.5-397B-A17B	86,7 %
GPT-5.6 Terra	86,26 %
Gemini 3 Pro	85,4 %
DeepSeek-v3.2 Thinking	80,3 %
GPT-5.1	80,2 %
MiniMax-M2	77,2 %
Gemma 4 31B	76,9 %
GPT-5.4 mini	74,1 %
GLM-5.1	70,6 %
Nemotron 3 Super	61,15 %

Vergleich von LLMs im Benchmark τ²-Bench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

‌
‌

Technologie & Daten

Technische Spezifikationen

Architektur	Hybrid
Input Kontextlänge	1,05 Mio.
Output Kontextlänge	32,77k
Tokenizer	Proprietär

Besonderheiten

Latent Mixture-of-Experts (LatentMoE)	Komprimiert Tokens in einen latenten Raum vor dem Expert-Routing, wodurch 4x mehr Experten bei identischen Rechenkosten aktiviert werden können.
Multi-Token Prediction (MTP)	Sagt mehrere zukünftige Tokens in einem Forward-Pass vorher.
Konfigurierbares Reasoning	Stufen: deaktiviert, niedrig (low_effort) oder vollständig (enable_thinking).

Vorteile & Nachteile

Vorteile

Vollständig offenes LLM
NVIDIA veröffentlicht ausführliche Informationen und Details zum Trainingsprozess von Nemotron 3 Super. Es lassen sich sowohl die Model Weights, als auch Trainingssätze für eigene Modelle herunterladen.
Ideal für Forscher und Entwickler
Durch die Transparenz und veröffentlichten Datensätze dürfte Nemotron 3 Super insbesondere KI-Forscher begeistern.
Sehr hoher Throughput
NVIDIA Nemotron 3 Super erreicht im Vergleich zu GPT-OSS (120B) einen ca. 2,2x höheren Token-Throughput.
Gutes Preis-Leistungs-Verhältnis
Bei API Anbietern wie DeepInfra lässt sich Nemotron 3 Super bereits ab $0,10 / 1 Mio. Input- und $0,50 / 1 Mio. Output-Tokens nutzen. Außerdem lässt sich das Modell lokal deployen – ausreichende Hardware vorausgesetzt.

Nachteile

Sehr hohe Hardware-Anforderungen
Laut Angaben von NVIDIA werden mindestens 8x H100-80GB GPUs für ein BF16-Deployment empfohlen.
API-Anbieter begrenzen Kontextfenster
Die meisten API-Anbieter beschränken das Kontextfenster aktuell auf 262K Token statt der nativen 1 Mio. Tokens.
Keine Multimodalität
NVIDIA Nemotron 3 Super verarbeitet ausschließlich Text, keine Bild-, Audio- oder Video-Inhalte.
Neuartige Architektur mit begrenztem Ökosystem
Die Hybrid-Mamba-Transformer-LatentMoE-Architektur ist noch jung. Bewährte reine Transformer-MoE-Architekturen bieten breitere Tool-Unterstützung und mehr Stabilität.

Vergleiche Nemotron 3 Super mit anderen LLMs

Vergleiche Nemotron 3 Super mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.

Entwickler	Modell⇅	Lizenz⇅	Parameter ⇅	Input-Tokens ⇅	Output-Tokens ⇅	Input-Preis ⇅	Output-Preis ⇅	Veröffentlichung
Anthropic	Claude Opus 5	Proprietär	Unbekannt	1 Mio.	128k	5,00 $	25,00 $	24.07.2026
Google DeepMind	Gemini 3.5 Flash Lite	Proprietär	Unbekannt	1 Mio.	65,54k	0,30 $	2,50 $	21.07.2026
Google DeepMind	Gemini 3.6 Flash	Proprietär	Unbekannt	1 Mio.	64k	1,50 $	7,50 $	21.07.2026
Poolside	Laguna S 2.1	Open Model License	118 Mrd.	1,05 Mio.	131,07k	0,10 $	0,20 $	20.07.2026
Moonshot AI	Kimi K3	Unbekannt	2.800 Mrd.	1,05 Mio.	131,07k	3,00 $	15,00 $	16.07.2026
Thinking Machines Lab	Inkling	Apache 2.0	975 Mrd.	1 Mio.	256k	1,00 $	4,05 $	15.07.2026
OpenAI	GPT 5.6 Luna	Proprietär	Unbekannt	1,05 Mio.	128k	0,20 $	1,20 $	09.07.2026
OpenAI	GPT 5.6 Terra	Proprietär	Unbekannt	1,05 Mio.	128k	2,00 $	12,00 $	09.07.2026
OpenAI	GPT 5.6 Sol	Proprietär	Unbekannt	1,05 Mio.	128k	5,00 $	30,00 $	09.07.2026
NVIDIA	Nemotron 3 Super	Open Model License	120,6 Mrd.	1,05 Mio.	32,77k	0,30 $	0,75 $	11.03.2026

‌
Alle Modelle vergleichen

Provider & APIs

Du kannst NVIDIA Nemotron 3 Super über die API folgender Anbieter nutzen.

Das Modell ist derzeit bei keinen Anbietern verfügbar.

Nemotron 3 Super Modell-Übersicht

Features

Tools

Multimodalität

Finetuning

Details zum Modell

Nemotron 3 Super Benchmark Scores

Nemotron 3 Super Benchmark Übersicht

Wissen & Sprache

Logik & Schlussfolgerung

Programmierung

Agentische Aufgaben

Nemotron 3 Super Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks

Technologie & Daten

Technische Spezifikationen

Besonderheiten

Vorteile & Nachteile

Vorteile

Nachteile

Vergleiche Nemotron 3 Super mit anderen LLMs

Provider & APIs

Nemotron 3 Super Benchmark Übersicht

Wissen & Sprache

Logik & Schlussfolgerung

Programmierung

Agentische Aufgaben

Nemotron 3 Super Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks