Claude Opus 4.6 Modell-Übersicht

Claude Opus 4.6 ist ein Update von Claude Opus 4.5. Das Update verbessert insbesonderere das Instruction-Following von Agenten und Enterprise-Workflows, z.B. in Excel oder PowerPoint. Es ist das erste Opus Modell, das ein 1 Mio. Token großes Kontextfenster bietet, was insbesondere beim Coding deutliche spürbare Verbesserung mit sich bringen kann. Insbesondere im ARC-AGI 2 Benchmark und dem GDPVal-AA Elo-Score schafft Opus 4.6 deutliche Sprünge im Vergleich zu seinem Vorgänger und lässt die bisherigen Top-Modelle wie GPT-5.2 hinter sich. Das Pricing für <200k Token Kontext-Fenster bleibt identisch mit dem von Opus 4.5, allerdings wird der Preis bei >200k Token auf $10 / $37.50 pro Mio. Input / Output Token erhöht.

Playground API Dokumentation System Card Blog

Features

Tools

Websuche, Bildgenerierung, Computer Use und MCP-Server.

Multimodalität

Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.

Finetuning

Finetuning des Modells ist aktuell nicht möglich.

Details zum Modell

1 Mio. Token

128k Token

Unbekannt

$5.00

$25.00

Unbekannt

Claude Opus 4.6 Benchmark Scores

Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.

Claude Opus 4.6 Benchmark Übersicht

Claude Opus 4.6 Performance im Vergleich zu anderen KI-Modellen

Benchmark	Claude Opus 4.6	Claude Opus 4.5	Claude Sonnet 4.6	GPT-5.3-Codex	GLM-5	DeepSeek-V4-Pro	GPT-5.5
GPQA DiamondWissen & Sprache	91,3 %	87 %	89,9 %	—	86 %	90,1 %	93,6 %
SWE-bench VerifiedProgrammierung	80,8 %	80,9 %	79,6 %	—	77,8 %	80,6 %	—
τ²-BenchAgentische Aufgaben	Top 95,6 %	93,6 %	94,8 %	—	89,7 %	—	—

Ergebnisse in Benchmarks

Benchmark auswählen

Darstellung der Rohdaten für den Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	94,5 %
Gemini 3.1 Pro	94,3 %
Claude Opus 4.7	94,2 %
GPT-5.5	93,6 %
GPT-5.4	92,8 %
Claude Opus 4.6	91,3 %
Kimi K2.6	90,5 %
DeepSeek-V4-Pro (Preview)	90,1 %
Claude Sonnet 4.6	89,9 %
Muse Spark	89,5 %
Kimi K2.5 (Thinking)	87,6 %
Gemini 3.1 Flash-Lite	86,9 %
GLM-5.1	86,2 %
GLM-5	86 %
GLM-4.7	85,7 %
MiniMax M2.5	85,2 %
Gemma 4 31B	84,3 %
MiniMax M2.1	83 %
GPT-5.4 nano	82,83 %
GPT-5.4 mini	81,57 %

Vergleich von LLMs im Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SWE-bench Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	93,9 %
Claude Opus 4.7	87,6 %
Claude Opus 4.5	80,9 %
Claude Opus 4.6	80,8 %
DeepSeek-V4-Pro (Preview)	80,6 %
Gemini 3.1 Pro	80,6 %
Kimi K2.6	80,2 %
MiniMax M2.5	80,2 %
GPT-5.2	80 %
Claude Sonnet 4.6	79,6 %
GLM-5	77,8 %
Muse Spark	77,4 %
Kimi K2.5 (Thinking)	76,8 %
Qwen3.5-397B-A17B	76,4 %
GPT-5.1	76,3 %
Gemini 3 Pro	76,2 %
MiniMax M2.1	74 %
GLM-4.7	73,8 %
Kimi K2 Thinking	71,3 %
MiniMax-M2	69,4 %

Vergleich von LLMs im Benchmark SWE-bench Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark τ²-Bench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Opus 4.6	95,6 %
Gemini 3.1 Pro	95,1 %
Claude Sonnet 4.6	94,8 %
Claude Opus 4.5	93,55 %
Muse Spark	91,5 %
GPT-5.2	90,35 %
GLM-5	89,7 %
GPT-5.4 nano	88,38 %
GLM-4.7	87,4 %
MiniMax M2.1	87 %
Qwen3.5-397B-A17B	86,7 %
Gemini 3 Pro	85,4 %
DeepSeek-v3.2 Thinking	80,3 %
GPT-5.1	80,2 %
MiniMax-M2	77,2 %
Gemma 4 31B	76,9 %
Claude Haiku 4.5	76,6 %
GPT-5.4 mini	74,1 %
GLM-5.1	70,6 %
Nemotron 3 Super	61,15 %

Vergleich von LLMs im Benchmark τ²-Bench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

‌
‌

Technologie & Daten

Technische Spezifikationen

Architektur	Transformer-Architektur
Input Kontextlänge	1 Mio.
Output Kontextlänge	128k
Tokenizer	Claude Tokenizer

Besonderheiten

Adaptive Thinking	Extended Thinking (low, medium, high (Standard) und max.)
Agent Teams	Koordination mehrerer KI-Agenten untereinander
Context Compaction	Automatische Zusammenfassung langer Kontexte

Vorteile & Nachteile

Vorteile

Stärkstes Agentic Coding Modell
Mit 65.4% im Terminal-Bench 2.0 und 80.8% auf SWE-bench Verified gilt Claude Opus 4.6 als bestes Coding-LLM. Insbesondere beim Vibe Coding mit Claude Code erzielt Opus hervorragende Ergebnisse.
Optimiert für Agentic Workflows
Claude Opus 4.6 ist eines der besten Modelle für den Einsatz in KI-Agenten. Benchmark Scores wie 91.9% im τ-bench (Retail) oder 84.0% auf BrowseComp untermauern für uns das bereits subjektiv empfundene Gefühl.
Optimiert für Enterprise- und Office-Workflows
Opus 4.6 wurde für den Einsatz in Enterprise Workflows, z.B. mit der Microsoft Office Suite, optimiert und kann lange und komplexe Aufgaben in Excel oder PowerPoint autonom abarbeiten.
Größtes Kontextfenster für Opus-Modelle
Der Sprung in der Kapazität für maximal verarbeitbare Input-Tokens kann zu deutlichen Verbesserungen beim Arbeiten in großen Codebases oder mit ausführlichen Dokumentationen führen.

Nachteile

Sehr teuer
Selbst wenn die Opus-Modelle historisch betrachtet weniger Gesamttokens für das Ausführen von Aufgaben benötigten, wird Claude Opus 4.6 bei >200k Kontextfenster sehr kostenintensiv.
Proprietäres Modell ohne lokales Deployment
Claude Opus 4.6 ist ausschließlich über API oder Claude.ai verfügbar. Fine-tuning oder lokales Deployment ist nicht möglich.
Limits in der Nutzung
Tägliche und wöchentliche Limits für die Nutzung werden mit Opus-Modellen schnell erreicht. Besonders Pro-Abonnenten von Claude AI müssen häufig auf die teuren Max-Pläne upgraden.

Vergleiche Claude Opus 4.6 mit anderen LLMs

Vergleiche Claude Opus 4.6 mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.

Entwickler	Modell⇅	Lizenz⇅	Parameter ⇅	Input-Tokens ⇅	Output-Tokens ⇅	Input-Preis ⇅	Output-Preis ⇅	Veröffentlichung
DeepSeek AI	DeepSeek-V4-Pro	MIT	1.600 Mrd.	1 Mio.	384k	$1.74	$0.87	24.04.2026
OpenAI	GPT-5.5	Proprietär	Unbekannt	1,05 Mio.	128k	$5.00	$30.00	23.04.2026
Moonshot AI	Kimi K2.6	MIT	1.000 Mrd.	262,14k	262,14k	$0.75	$3.50	20.04.2026
Anthropic	Claude Opus 4.7	Proprietär	Unbekannt	1 Mio.	128k	$5.00	$25.00	16.04.2026
Meta AI	Muse Spark	Proprietär	Unbekannt	262k	unbekannt	unbekannt	unbekannt	08.04.2026
Z.ai	GLM-5.1	MIT	744 Mrd.	202,75k	128k	$1.40	$4.40	07.04.2026
Anthropic	Claude Mythos	Proprietär	Unbekannt	1 Mio.	128k	$25.00	$125.00	07.04.2026
Google DeepMind	Gemma 4	Apache 2.0	30,7 Mrd.	262,14k	131,07k	$0.14	$0.40	02.04.2026
MiniMax	MiniMax M2.7	MIT	230 Mrd.	204,8k	131,07k	$0.30	$1.20	18.03.2026
Anthropic	Claude Opus 4.6	Proprietär	Unbekannt	1 Mio.	128k	$5.00	$25.00	05.02.2026

‌
Alle Modelle vergleichen

Provider & APIs

Du kannst Anthropic Claude Opus 4.6 über die API folgender Anbieter nutzen.

Das Modell ist derzeit bei keinen Anbietern verfügbar.

Claude Opus 4.6 Modell-Übersicht

Features

Tools

Multimodalität

Finetuning

Details zum Modell

Claude Opus 4.6 Benchmark Scores

Claude Opus 4.6 Benchmark Übersicht

Wissen & Sprache

Programmierung

Agentische Aufgaben

Claude Opus 4.6 Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks

Technologie & Daten

Technische Spezifikationen

Besonderheiten

Vorteile & Nachteile

Vorteile

Nachteile

Vergleiche Claude Opus 4.6 mit anderen LLMs

Provider & APIs

Claude Opus 4.6 Benchmark Übersicht

Wissen & Sprache

Programmierung

Agentische Aufgaben

Claude Opus 4.6 Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks