GPT-5.4 Modell-Übersicht

GPT-5.4 ist OpenAIs Nachfolger von GPT-5.2 und soll einen neuen, monatlichen, Modell-Update Zyklus bei OpenAI einleiten. GPT-5.4 erreicht insbesondere in Computer-Use Benchmarks neue Höchststände. Auch in Coding-Benchmarks scheint das generalisierte "Thinking"-Modell vorherige Codex-Modelle, wie z.B. GPT-5.3 Codex, zu überholen. Zudem unterstützt GPT-5.4 ein großes Kontextfenster mit bis zu 1 Mio. Tokens.

Playground API Dokumentation System Card Blog

Features

Tools

Websuche, Bildgenerierung, Computer Use und MCP-Server.

Multimodalität

Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.

Finetuning

Finetuning des Modells ist aktuell nicht möglich.

Details zum Modell

922k Token

128k Token

Unbekannt

$2.50

$15.00

Unbekannt

GPT-5.4 Benchmark Scores

Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.

GPT-5.4 Benchmark Übersicht

GPT-5.4 Performance im Vergleich zu anderen KI-Modellen

Benchmark	GPT-5.4	GPT-5.3-Codex	GPT-5.4 mini	Gemini 3.1 Flash-Lite	Nemotron 3 Super	DeepSeek-V4-Pro	GPT-5.5
FrontierMathLogik & Schlussfolgerung	27,1 %	—	—	—	—	—

Ergebnisse in Benchmarks

Benchmark auswählen

Darstellung der Rohdaten für den Benchmark FrontierMath. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.5	51,7 %
GPT-5.2 Pro	31,3 %
GPT-5.4	27,1 %
Claude Opus 4.6	22,9 %
GPT-5.2	18,8 %
Gemini 3 Pro	18,75 %
Gemini 3.1 Pro	16,7 %
GPT-5 Pro	14,6 %
GPT-5.1	12,5 %
GPT-5	12,5 %
Claude Sonnet 4.6	8,3 %
OpenAI o4-mini	6,25 %
Kimi K2.5 (Thinking)	4,2 %
Claude Opus 4.5	4,17 %
Claude Opus 4.1	4,17 %
GLM-5	2,1 %
DeepSeek-v3.2 Thinking	2,1 %
Grok-4 Heavy	2,08 %
OpenAI o3	2,08 %

Vergleich von LLMs im Benchmark FrontierMath. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	94,5 %
Gemini 3.1 Pro	94,3 %
Claude Opus 4.7	94,2 %
GPT-5.5	93,6 %
GPT-5.4	92,8 %
Claude Opus 4.6	91,3 %
Kimi K2.6	90,5 %
DeepSeek-V4-Pro (Preview)	90,1 %
Claude Sonnet 4.6	89,9 %
Muse Spark	89,5 %
Kimi K2.5 (Thinking)	87,6 %
Gemini 3.1 Flash-Lite	86,9 %
GLM-5.1	86,2 %
GLM-5	86 %
GLM-4.7	85,7 %
MiniMax M2.5	85,2 %
Gemma 4 31B	84,3 %
MiniMax M2.1	83 %
GPT-5.4 nano	82,83 %
GPT-5.4 mini	81,57 %

Vergleich von LLMs im Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark OSWorld-Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	79,6 %
GPT-5.5	78,7 %
Claude Opus 4.7	78 %
GPT-5.4	75 %
Kimi K2.6	73,1 %
Claude Opus 4.6	72,7 %
Claude Sonnet 4.6	72,5 %
Claude Opus 4.5	66,3 %
GPT-5.3-Codex	64,7 %
Claude Haiku 4.5	50,7 %
GPT-5.4 mini	42 %

Vergleich von LLMs im Benchmark OSWorld-Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Terminal-Bench 2.0. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.5	82,7 %
Claude Mythos Preview	82 %
GPT-5.3-Codex	77,3 %
GPT-5.4	75,1 %
Claude Opus 4.7	69,4 %
Gemini 3.1 Pro	68,5 %
DeepSeek-V4-Pro (Preview)	67,9 %
Kimi K2.6	66,7 %
Claude Opus 4.6	65,4 %
GLM-5.1	63,5 %
Claude Sonnet 4.6	59,1 %
Muse Spark	59 %
GLM-5	56,2 %
Qwen3.5-397B-A17B	52,5 %
MiniMax M2.5	51,7 %
Kimi K2.5 (Thinking)	50,8 %
MiniMax M2.1	47,9 %
GPT-5.4 nano	46,3 %
GPT-5.4 mini	38,2 %
Nemotron 3 Super	31 %

Vergleich von LLMs im Benchmark Terminal-Bench 2.0. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

‌
‌

Technologie & Daten

Technische Spezifikationen

Architektur	Transformer-Architektur
Input Kontextlänge	922k
Output Kontextlänge	128k
Tokenizer	Proprietärer OpenAI Tokenizer

Besonderheiten

Native Computer Use	Erstes allgemeines OpenAI-Modell mit nativen Fähigkeiten, einen Computer zu bedienen.
Tool Search	Intelligente Tool-Suche, analog zu Claude AI.
Großes Kontextfenster	Unterstützt bis zu 1 Mio. Token Kontextfenster

Vorteile & Nachteile

Vorteile

Neues SOTA Computer Use Modell
Mit 75,0% im OSWorld-Verified Benchmark übertrifft GPT-5.4 die menschliche Leistung und gilt als neues State-of-the-Art Computer Use Modell.
Größtes Kontextfenster von OpenAI
1.05M Token Kontextfenster, mehr als doppelt so groß wie GPT-5.2 (400K). Damit überholt es auch Konkurrenzmodelle wie Claude Opus 4.6, die solche Kontextfenster aktuell nur in der Beta anbieten.
Führendes LLM in vielen Benchmarks
GPT-5.4 setzt sich an die Spitze vieler aktuell relevanter Benchmarks, u.a. erreicht es im GDPval Benchmark 87,3% auf Spreadsheet-Modellierung, was auf wertschaffende Nutzung in vielen Enterprise Bereichen hindeutet.
Deutlich weniger faktische Fehler
Laut eigenen Angaben von OpenAI macht GPT-5-4 33% weniger falsche Einzelaussagen und 18% weniger fehlerhafte Antworten insgesamt, gegenüber GPT-5.2.
Gutes Preis-/Leistungs-Verhältnis
Mit $2,50/$15,00 pro 1 Mio. Input-/Output-Tokens ist GPT-5.4 nur halb so teuer wie Opus 4.6 und eher vergleichbar mit Sonnet 4.6.

Nachteile

Proprietäres Modell
Viele Informationen zum Training oder den Gewichten von GPT-5.4 sind unbekannt. Außerdem lässt sich GPT-5-4 nur über OpenAIs API oder ChatGPT nutzen, es ist kein lokales Deployment möglich.
Neigung zur Aufgabenerweiterung
Die Kritik, die häufig an Claude Opus Modellen geäußert wurde, hallt nun auch bei GPT-5-4 auf. Das Modelle tendiert dazu, Aufgaben über den eigentlichen Prompt hinaus zu erweitern und Aufgaben vorab als erledigt zu markieren, noch bevor sie vollständig abgeschlossen wurden.
GPT-5.4 Pro Version sehr teuer
GPT-5.4 Pro ist eine Version von GPT-5.4, die vermutlich über parallele Test-Time-Compute Ausführung mehrere Antworten auf einen Prompt generiert und die beste davon auswählt. Das Pro-Modell kostet $30/$180 pro 1 Mio. Token und gehört damit zu den teuersten LLMs überhaupt.
Aufpreis bei langem Kontext
Bei Prompts mit über 272k Input-Tokens verdoppeln sich die Input-Kosten und die Output-Kosten steigen um 50%.

Vergleiche GPT-5.4 mit anderen LLMs

Vergleiche GPT-5.4 mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.

Entwickler	Modell⇅	Lizenz⇅	Parameter ⇅	Input-Tokens ⇅	Output-Tokens ⇅	Input-Preis ⇅	Output-Preis ⇅	Veröffentlichung
DeepSeek AI	DeepSeek-V4-Pro	MIT	1.600 Mrd.	1 Mio.	384k	$1.74	$0.87	24.04.2026
OpenAI	GPT-5.5	Proprietär	Unbekannt	1,05 Mio.	128k	$5.00	$30.00	23.04.2026
Moonshot AI	Kimi K2.6	MIT	1.000 Mrd.	262,14k	262,14k	$0.75	$3.50	20.04.2026
Anthropic	Claude Opus 4.7	Proprietär	Unbekannt	1 Mio.	128k	$5.00	$25.00	16.04.2026
Meta AI	Muse Spark	Proprietär	Unbekannt	262k	unbekannt	unbekannt	unbekannt	08.04.2026
Z.ai	GLM-5.1	MIT	744 Mrd.	202,75k	128k	$1.40	$4.40	07.04.2026
Anthropic	Claude Mythos	Proprietär	Unbekannt	1 Mio.	128k	$25.00	$125.00	07.04.2026
Google DeepMind	Gemma 4	Apache 2.0	30,7 Mrd.	262,14k	131,07k	$0.14	$0.40	02.04.2026
MiniMax	MiniMax M2.7	MIT	230 Mrd.	204,8k	131,07k	$0.30	$1.20	18.03.2026
OpenAI	GPT-5.4	Proprietär	Unbekannt	922k	128k	$2.50	$15.00	05.03.2026

‌
Alle Modelle vergleichen

Provider & APIs

Du kannst OpenAI GPT-5.4 über die API folgender Anbieter nutzen.

Das Modell ist derzeit bei keinen Anbietern verfügbar.

‌
‌
‌

‌
‌
‌
‌
‌
‌
‌
‌
‌
‌
‌

GPT-5.4 Modell-Übersicht

Features

Tools

Multimodalität

Finetuning

Details zum Modell

GPT-5.4 Benchmark Scores

GPT-5.4 Benchmark Übersicht

Wissen & Sprache

Logik & Schlussfolgerung

Programmierung

Agentische Aufgaben

GPT-5.4 Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks

Technologie & Daten

Technische Spezifikationen

Besonderheiten

Vorteile & Nachteile

Vorteile

Nachteile

Vergleiche GPT-5.4 mit anderen LLMs

Provider & APIs

GPT-5.4 Benchmark Übersicht

Wissen & Sprache

Logik & Schlussfolgerung

Programmierung

Agentische Aufgaben

GPT-5.4 Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks