Fugu Ultra Modell-Übersicht

Fugu Ultra ist die leistungsorientierte Variante von Sakana Fugu, einem LLM-Orchestrierungs-Systems von Sakana AI. Fugu Ultra ist selbst kein Frontier-Modell sondern eher ein kleines LLM mit rund 7 Mrd. Parameter, das einen Pool externer Modelle als Agenten ansteuert, Aufgaben delegiert, Ergebnisse verifiziert und zusammenführt. Je nach Schwierigkeit routet der Orchestrierungs-Agent zwischen einem und drei Sub-Agenten, was die Qualität erhöhen, aber sich auch spürbar auf Kosten und Latenz auswirkt. Laut Sakana AI selbst liegt das System auf Augenhöhe mit Fable 5, Mythos Preview, Opus 4.8 und Gemini 3.1 Pro. Auf subjektiver Basis berichteten aber bereits am Tag der Veröffentlichung viele User, dass sie vom Output nicht überzeugt bzw. enttäuscht waren. Für schnellere, günstigere Anfragen wurde ein Schwestermodell Fugu (ohne Ultra) veröffentlicht.

Blog API Dokumentation Technical Report Website

Features

Tools

Websuche, Bildgenerierung, Computer Use und MCP-Server.

Multimodalität

Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.

Finetuning

Finetuning des Modells ist aktuell nicht möglich.

Details zum Modell

1 Mio. Token

Unbekannt

7 Mrd.

$5.00

$30.00

Unbekannt

Fugu Ultra Benchmark Scores

Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.

Fugu Ultra Benchmark Übersicht

Fugu Ultra Performance im Vergleich zu anderen KI-Modellen

Benchmark	Fugu Ultra	GLM 5.2	Claude Fable 5	MiniMax M3	Claude Opus 4.8	Gemini 3.5 Flash	DeepSeek-V4-Pro
GPQA DiamondWissen & Sprache	Top 95,5 %	91,2 %	93,2 %	—	93,6 %	—	90,1 %
LiveCodeBenchProgrammierung	93,2 %	—	—	—	—	—	93,5 %
LiveCodeBench ProProgrammierung	Top 90,8 %	—	—	—	—	—	—
MRCR v2Logik & Schlussfolgerung	Top 93,6 %	—	—	—	—	77,3 %	—
SWE-bench ProProgrammierung	73,7 %	62,1 %	Top 80 %	59 %	69,2 %	55,1 %	55,4 %
Terminal-Bench 2.1Programmierung	82,1 %	82,7 %	Top 84,3 %	66 %	74,6 %	76,2 %	—

Ergebnisse in Benchmarks

Benchmark auswählen

Darstellung der Rohdaten für den Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Fugu Ultra	95,5 %
Claude Mythos Preview	94,5 %
Gemini 3.1 Pro	94,3 %
Claude Opus 4.7	94,2 %
Claude Opus 4.8	93,6 %
GPT-5.5	93,6 %
Claude Fable 5	93,18 %
GPT-5.4	92,8 %
GLM-5.2	91,2 %
Kimi K2.6	90,5 %
DeepSeek-V4-Pro (Preview)	90,1 %
Claude Sonnet 4.6	89,9 %
Muse Spark	89,5 %
Gemini 3.1 Flash-Lite	86,9 %
GLM-5.1	86,2 %
GLM-5	86 %
MiniMax M2.5	85,2 %
Gemma 4 31B	84,3 %
GPT-5.4 nano	82,83 %
GPT-5.4 mini	81,57 %

Vergleich von LLMs im Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Gemini 3.1 Pro	2.887 %
DeepSeek-V4-Pro (Preview)	93,5 %
Fugu Ultra	93,2 %
Kimi K2.6	89,6 %
DeepSeek-v3.2 Speciale	88,7 %
Kimi K2.5 (Thinking)	85 %
GLM-4.7	84,9 %
Qwen3.5-397B-A17B	83,6 %
DeepSeek-v3.2 Thinking	83,3 %
Kimi K2 Thinking	83,1 %
MiniMax-M2	83 %
GLM-4.6	82,8 %
Nemotron 3 Super	81,19 %
MiniMax M2.1	81 %
Muse Spark	80 %
Gemma 4 31B	80 %
Gemini 3.1 Flash-Lite	72 %
GLM-4.5 Air	70,7 %
Kimi K2 (0905)	53,7 %
Qwen3 30B A3B Instruct 2507	43,2 %

Vergleich von LLMs im Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark LiveCodeBench Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Fugu Ultra	90,8 %

Vergleich von LLMs im Benchmark LiveCodeBench Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark MRCR v2. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Fugu Ultra	93,6 %
Gemini 3.5 Flash	77,3 %
Gemma 4 31B	66,4 %

Vergleich von LLMs im Benchmark MRCR v2. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SWE-bench Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Fable 5	80 %
Claude Mythos Preview	77,8 %
Fugu Ultra	73,7 %
Claude Opus 4.8	69,2 %
Claude Opus 4.7	64,3 %
GLM-5.2	62,1 %
MiniMax-M3	59 %
GPT-5.5	58,6 %
Kimi K2.6	58,6 %
GLM-5.1	58,4 %
MiniMax M2.7	56,22 %
DeepSeek-V4-Pro (Preview)	55,4 %
Gemini 3.5 Flash	55,1 %
Muse Spark	52,4 %

Vergleich von LLMs im Benchmark SWE-bench Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Terminal-Bench 2.1. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Fable 5	84,3 %
GLM-5.2	82,7 %
Fugu Ultra	82,1 %
Gemini 3.5 Flash	76,2 %
Claude Opus 4.8	74,6 %
MiniMax-M3	66 %
MiniMax M2.7	51,1 %

Vergleich von LLMs im Benchmark Terminal-Bench 2.1. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

‌
‌

Technologie & Daten

Technische Spezifikationen

Architektur	Orchestrator LLM
Input Kontextlänge	1 Mio.
Output Kontextlänge	1 Mio.
Tokenizer	unbekannt

Besonderheiten

Gelernte Orchestrierung	Entscheidet selbst, ob eine Anfrage direkt beantwortet oder an mehrere Spezialmodelle delegiert wird.
Rekursiver Agenten-Pool	1-3 Agenten
Integrierte Web-Suche	Built-in web_search-Tool
Steuerbares Reasoning-Budget	high, xhigh, max
API-Kompatibilität	OpenAI-kompatibel

Vorteile & Nachteile

Vorteile

Frontier-Niveau ohne eigenes Frontier-Modell
Statt ein riesiges Modell zu trainieren, orchestriert ein ~7B-Modell fremde Spitzenmodelle. Sakana AI gibt an, dass das System über Fugu-Ultra in Benchmarks wie GPQA-Diamond und LiveCodeBench v6 auf Augenhöhe mit Fable 5, Opus 4.8 und Gemini 3.1 Pro steht.
Sehr großes multimodales Kontextfenster
1 Mio. Token Kontext und Bild-Eingabe (Vision) decken lange Dokumente, Codebases und multimodale Aufgaben ab.
KI-Agenten out-of-the-Box
Tool-Calls, integrierte Web-Suche, strukturierte JSON-Ausgabe und steuerbares Reasoning sind ohne eigene Orchestrierungs-Logik nutzbar.

Nachteile

Teuer, besonders bei langem Kontext
Mit $5,00 / $30,00 pro 1 Mio. Input-/Output-Token liegt Ultra deutlich über dem günstigeren Schwestermodell Fugu; ab >272K Token verdoppeln sich die Preise sogar auf $10,00 / $45,00.
Intransparenter Agenten-Pool
Sakana legt nicht offen, welche Fremdmodelle Fugu im Hintergrund ansteuert. Das erschwert Reproduzierbarkeit, Datenschutz-Bewertung und schafft eine Abhängigkeit von Drittanbieter-Modellen.
Latenz und Variabilität durch Delegation
Das extra Routen an Sub-Agenten und mehrere zugehörige Verifikationsschritte kosten sehr viel Zeit. Ultra ist explizit auf Qualität statt Geschwindigkeit ausgelegt, die interaktive Nutzung macht deswegen eher weniger Spaß.
Bislang keine unabhängigen Tests
Nahezu alle Benchmark-Zahlen stammen vom Entwickler selbst und sind bislang kaum unabhängig verifiziert. Das Feedback der AI-Community war eher gemischt.

Vergleiche Fugu Ultra mit anderen LLMs

Vergleiche Fugu Ultra mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.

Entwickler	Modell⇅	Lizenz⇅	Parameter ⇅	Input-Tokens ⇅	Output-Tokens ⇅	Input-Preis ⇅	Output-Preis ⇅	Veröffentlichung
Sakana AI	Fugu Ultra	Proprietär	7 Mrd.	1 Mio.	1 Mio.	$5.00	$30.00	21.06.2026
Z.ai	GLM 5.2	MIT	753 Mrd.	1,05 Mio.	131,07k	$1.40	$4.40	16.06.2026
Anthropic	Claude Fable 5	Proprietär	Unbekannt	1 Mio.	128k	$10.00	$50.00	09.06.2026
MiniMax	MiniMax M3	Andere	Unbekannt	1 Mio.	512k	$0.60	$2.40	01.06.2026
Anthropic	Claude Opus 4.8	Proprietär	Unbekannt	1 Mio.	128k	$5.00	$25.00	28.05.2026
Google DeepMind	Gemini 3.5 Flash	Proprietär	Unbekannt	1,05 Mio.	65,54k	$1.50	$9.00	19.05.2026
DeepSeek AI	DeepSeek-V4-Pro	MIT	1.600 Mrd.	1 Mio.	384k	$1.74	$0.87	24.04.2026
OpenAI	GPT-5.5	Proprietär	Unbekannt	1,05 Mio.	128k	$5.00	$30.00	23.04.2026
Moonshot AI	Kimi K2.6	MIT	1.000 Mrd.	262,14k	262,14k	$0.75	$3.50	20.04.2026
Anthropic	Claude Opus 4.7	Proprietär	Unbekannt	1 Mio.	128k	$5.00	$25.00	16.04.2026

‌
Alle Modelle vergleichen

Provider & APIs

Du kannst Sakana AI Fugu Ultra über die API folgender Anbieter nutzen.

Token (in)
Unbekannt
Token (out)
Unbekannt
Latenz
Unbekannt
USD / 1M Input
$5.00
USD / 1M Output
$30.00
Throughput
Unbekannt

‌
‌
‌

Fugu Ultra Modell-Übersicht

Features

Tools

Multimodalität

Finetuning

Details zum Modell

Fugu Ultra Benchmark Scores

Fugu Ultra Benchmark Übersicht

Wissen & Sprache

Logik & Schlussfolgerung

Programmierung

Fugu Ultra Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks

Technologie & Daten

Technische Spezifikationen

Besonderheiten

Vorteile & Nachteile

Vorteile

Nachteile

Vergleiche Fugu Ultra mit anderen LLMs

Provider & APIs

Fugu Ultra Benchmark Übersicht

Wissen & Sprache

Logik & Schlussfolgerung

Programmierung

Fugu Ultra Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks