Claude Mythos Modell-Übersicht

Claude Mythos Preview ist zum Zeitpunkt der Veröffentlichung das leistungsstärkstes Frontier-Modell von Anthropic und wurde am 7. April 2026 im Rahmen von Project Glasswing vorgestellt. Der zuvor geleakte interne Codename "Capybara" deutete bereits darauf hin, dass das Modell eine völlig neue Modellebene oberhalb der Opus-Reihe eröffnen könnte. Insbesondere durch das autonome Identifizieren von Software-Sicherheitslücken erregte Mythos auch in breiten Wirtschaftskreisen für Aufsehen. Anthropic plant ausdrücklich keine allgemeine Verfügbarkeit des Modells, sondern beschränkt den Zugang auf 12 ausgewählte Glasswing-Partner sowie über 40 etablierte Organisationen, die kritische Software-Infrastruktur betreiben.

Blog Project Glasswing AISI Einschätzung AWS Bedrock Vertex AI System Card

Features

Tools

Websuche, Bildgenerierung, Computer Use und MCP-Server.

Multimodalität

Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.

Finetuning

Finetuning des Modells ist aktuell nicht möglich.

Details zum Modell

1 Mio. Token

128k Token

Unbekannt

25,00 $

125,00 $

Unbekannt

Claude Mythos Benchmark Scores

Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.

Claude Mythos Benchmark Übersicht

Claude Mythos Performance im Vergleich zu anderen KI-Modellen

Benchmark	Claude Mythos	Claude Sonnet 4.6	Claude Opus 4.7	GLM-5.1	Muse Spark	Claude Opus 5	Gemini 3.6 Flash
GPQA DiamondWissen & Sprache	94,5 %	89,9 %	94,2 %	86,2 %

Ergebnisse in Benchmarks

Benchmark auswählen

Darstellung der Rohdaten für den Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Fugu Ultra	95,5 %
GPT-5.6 Sol	94,6 %
Claude Mythos Preview	94,5 %
Claude Opus 4.7	94,2 %
Claude Opus 4.8	93,6 %
GPT-5.5	93,6 %
Kimi K3	93,5 %
Claude Opus 5	93,43 %
Claude Fable 5	93,18 %
Grok 4.5	93,1 %
GPT-5.6 Terra	92,9 %
Gemini 3.6 Flash	92,8 %
GPT-5.6 Luna	92,3 %
GLM-5.2	91,2 %
Kimi K2.6	90,5 %
DeepSeek-V4-Pro (Preview)	90,1 %
Muse Spark	89,5 %
Inkling	87,2 %
GLM-5.1	86,2 %
Gemini 3.5 Flash-Lite	83,8 %

Vergleich von LLMs im Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Humanity's Last Exam. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	56,8 %
Claude Opus 5	56,3 %
Muse Spark 1.1	52,2 %
Fugu Ultra	50 %
Claude Opus 4.8	49,8 %
GPT-5.6 Sol	47,2 %
Claude Opus 4.7	46,9 %
Kimi K3	43,5 %
Claude Sonnet 5	43,2 %
Muse Spark	42,8 %
GPT-5.6 Terra	41,8 %
GPT-5.5	41,4 %
GLM-5.2	40,5 %
Grok 4.5	40,3 %
Gemini 3.5 Flash	40,2 %
Gemini 3.6 Flash	38,3 %
DeepSeek-V4-Pro (Preview)	37,7 %
Kimi K2.6	34,7 %
Inkling	29,7 %
Gemini 3.5 Flash-Lite	17,5 %

Vergleich von LLMs im Benchmark Humanity's Last Exam. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark MMMLU. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	92,7 %
Claude Opus 4.7	91,5 %
DeepSeek-V4-Pro (Preview)	90,3 %
Gemma 4 31B	88,4 %

Vergleich von LLMs im Benchmark MMMLU. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark OSWorld-Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Fable 5	85 %
Claude Opus 4.8	83,4 %
Gemini 3.6 Flash	83 %
Claude Sonnet 5	81,2 %
Muse Spark 1.1	80,8 %
Claude Mythos Preview	79,6 %
GPT-5.5	78,7 %
Gemini 3.5 Flash	78,4 %
Claude Opus 4.7	78 %
GPT-5.4	75 %
Gemini 3.5 Flash-Lite	74 %
Kimi K2.6	73,1 %
Claude Opus 4.6	72,7 %
Claude Sonnet 4.6	72,5 %
MiniMax-M3	70,06 %
Claude Opus 4.5	66,3 %
GPT-5.3-Codex	64,7 %
Claude Haiku 4.5	50,7 %
GPT-5.4 mini	42 %

Vergleich von LLMs im Benchmark OSWorld-Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SWE-bench Multilingual. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Opus 5	89,5 %
Claude Mythos Preview	87,3 %
Claude Opus 4.8	84,4 %
Laguna S 2.1	78,5 %
Claude Sonnet 5	78,3 %
Grok 4.5	78 %
Kimi K2.6	76,7 %
MiniMax M2.7	76,5 %
DeepSeek-V4-Pro (Preview)	76,2 %

Vergleich von LLMs im Benchmark SWE-bench Multilingual. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SWE-bench Multimodal. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Opus 5	59,4 %
Claude Mythos Preview	59 %
Claude Sonnet 5	28,1 %

Vergleich von LLMs im Benchmark SWE-bench Multimodal. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SWE-bench Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Fable 5	80 %
Claude Opus 5	79,2 %
Claude Mythos Preview	77,8 %
Fugu Ultra	73,7 %
Claude Opus 4.8	69,2 %
Grok 4.5	64,7 %
GPT-5.6 Sol	64,6 %
GPT-5.6 Terra	63,4 %
Claude Sonnet 5	63,2 %
GPT-5.6 Luna	62,7 %
GLM-5.2	62,1 %
Muse Spark 1.1	61,5 %
Laguna S 2.1	59,4 %
MiniMax-M3	59 %
Gemini 3.6 Flash	58,7 %
GPT-5.5	58,6 %
DeepSeek-V4-Pro (Preview)	55,4 %
Gemini 3.5 Flash	55,1 %
Inkling	54,3 %
Gemini 3.5 Flash-Lite	54,2 %

Vergleich von LLMs im Benchmark SWE-bench Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SWE-bench Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.6 Sol	96,2 %
Claude Opus 5	96 %
Claude Fable 5	95 %
Claude Mythos Preview	93,9 %
Claude Opus 4.8	88,6 %
Claude Opus 4.7	87,6 %
Claude Sonnet 5	85,2 %
Claude Opus 4.6	80,8 %
DeepSeek-V4-Pro (Preview)	80,6 %
Gemini 3.1 Pro	80,6 %
MiniMax-M3	80,5 %
Kimi K2.6	80,2 %
MiniMax M2.5	80,2 %
MiniMax M2.7	79,9 %
Claude Sonnet 4.6	79,6 %
GLM-5	77,8 %
Inkling	77,6 %
Muse Spark	77,4 %
Qwen3.5-397B-A17B	76,4 %
GPT-5.6 Terra	75,2 %

Vergleich von LLMs im Benchmark SWE-bench Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Terminal-Bench 2.0. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.5	82,7 %
Claude Mythos Preview	82 %
GPT-5.3-Codex	77,3 %
GPT-5.4	75,1 %
Claude Opus 4.7	69,4 %
Gemini 3.1 Pro	68,5 %
DeepSeek-V4-Pro (Preview)	67,9 %
Kimi K2.6	66,7 %
Claude Opus 4.6	65,4 %
GLM-5.1	63,5 %
Claude Sonnet 4.6	59,1 %
Muse Spark	59 %
MiniMax M2.7	57 %
GLM-5	56,2 %
Qwen3.5-397B-A17B	52,5 %
MiniMax M2.5	51,7 %
Kimi K2.5 (Thinking)	50,8 %
GPT-5.4 nano	46,3 %
GPT-5.4 mini	38,2 %
Nemotron 3 Super	31 %

Vergleich von LLMs im Benchmark Terminal-Bench 2.0. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

‌
‌

Technologie & Daten

Technische Spezifikationen

Architektur	Proprietärer Transformer
Input Kontextlänge	1 Mio.
Output Kontextlänge	128k
Tokenizer	Proprietärer Tokenizer

Besonderheiten

Autonomes Auffinden von Sicherheitslücken	Identifiziert und exploited eigenständig Zero-Day-Schwachstellen in Betriebssystemen, Browsern und Open-Source-Software.
Langzeit Inference-Scaling	Claude Mythos profitiert von Token-Budgets bis 100 Mio. Token, insbesondere bei mehrtägigen Cyber- und Coding-Agenten Aufgaben.
ASL-3 Safety Deployment	Wird unter Anthropics höchstem aktuellen AI Safety Level (ASL-3) mit zusätzlichen Deployment-Safeguards betrieben.

Vorteile & Nachteile

Vorteile

State-of-the-Art Coding Modell
Claude Mythos (Preview) erreicht 93,9 % im SWE-bench Verified, 77,8 % im SWE-bench Pro und 87,3 % im SWE-bench Multilingual Benchmark. Damit übertrifft es Claude Opus 4.6 im Schnitt um über 10 Prozentpunkte pro Benchmark.
Herausragendes mathematisches Reasoning
Den USAMO 2026 Benchmark sättigt Claude Mythos mit 97,6 %. Anthropic spricht von einem Sprung von 4,3x über der bisherigen Trendlinie.
Großer Abstand in Cybersecurity Benchmarks
Mit 83,1 % in CyberGym (vs. 66,6 % Opus 4.6 und 73,1 % bei Opus 4.7) und laut AISI 73 % Success-Rate in Expert-Level-CTFs, die zuvor von keinem Modell vor April 2025 gelöst wurden, gilt Claude Mythos als absolut führendes Modell für Cybersecurity Aufgaben.
Bestes Alignment der Anthropic-Historie
Trotz des neuen Leistungsniveaus bezeichnet Anthropic Claude Mythos als das bislang am besten ausgerichtete Modell.

Nachteile

Nicht öffentlich verfügbar
Anthropic plant nicht, Claude Mythos zu veröffentlichen. Der Zugang wird auf die 12 Partner aus dem Glasswing-Projekt und ca. 40 weitere Organisationen aus kritischer Software-Infrastruktur beschränkt.
Erhebliche Dual-Use-Risiken
Die offensiven Cyber-Capabilities sind so stark, dass Anthropic die Veröffentlichung insbesondere aus Sicherheitsgründen verhindert.

Vergleiche Claude Mythos mit anderen LLMs

Vergleiche Claude Mythos mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.

Entwickler	Modell⇅	Lizenz⇅	Parameter ⇅	Input-Tokens ⇅	Output-Tokens ⇅	Input-Preis ⇅	Output-Preis ⇅	Veröffentlichung
Anthropic	Claude Opus 5	Proprietär	Unbekannt	1 Mio.	128k	5,00 $	25,00 $	24.07.2026
Google DeepMind	Gemini 3.6 Flash	Proprietär	Unbekannt	1 Mio.	64k	1,50 $	7,50 $	21.07.2026
Google DeepMind	Gemini 3.5 Flash Lite	Proprietär	Unbekannt	1 Mio.	65,54k	0,30 $	2,50 $	21.07.2026
Poolside	Laguna S 2.1	Open Model License	118 Mrd.	1,05 Mio.	131,07k	0,10 $	0,20 $	20.07.2026
Moonshot AI	Kimi K3	Unbekannt	2.800 Mrd.	1,05 Mio.	131,07k	3,00 $	15,00 $	16.07.2026
Thinking Machines Lab	Inkling	Apache 2.0	975 Mrd.	1 Mio.	256k	1,00 $	4,05 $	15.07.2026
OpenAI	GPT 5.6 Sol	Proprietär	Unbekannt	1,05 Mio.	128k	5,00 $	30,00 $	09.07.2026
OpenAI	GPT 5.6 Terra	Proprietär	Unbekannt	1,05 Mio.	128k	2,50 $	15,00 $	09.07.2026
OpenAI	GPT 5.6 Luna	Proprietär	Unbekannt	1,05 Mio.	128k	1,00 $	6,00 $	09.07.2026
Anthropic	Claude Mythos	Proprietär	Unbekannt	1 Mio.	128k	25,00 $	125,00 $	07.04.2026

‌
Alle Modelle vergleichen

Provider & APIs

Du kannst Anthropic Claude Mythos über die API folgender Anbieter nutzen.

Das Modell ist derzeit bei keinen Anbietern verfügbar.

‌
‌
‌

‌
‌
‌
‌
‌
‌
‌
‌
‌
‌
‌

Claude Mythos Modell-Übersicht

Features

Tools

Multimodalität

Finetuning

Details zum Modell

Claude Mythos Benchmark Scores

Claude Mythos Benchmark Übersicht

Wissen & Sprache

Programmierung

Agentische Aufgaben

Claude Mythos Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks

Technologie & Daten

Technische Spezifikationen

Besonderheiten

Vorteile & Nachteile

Vorteile

Nachteile

Vergleiche Claude Mythos mit anderen LLMs

Provider & APIs

Claude Mythos Benchmark Übersicht

Wissen & Sprache

Programmierung

Agentische Aufgaben

Claude Mythos Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks