GLM-5.1 Modell-Übersicht

GLM-5.1 ist das aktualisierte Open-Source-Flaggschiff von Z.ai (ehemals Zhipu AI), veröffentlicht am 7. April 2026. Das Modell baut auf der 744-Milliarden-Parameter-MoE-Architektur seines Vorgängers GLM-5 auf und wurde gezielt durch reines Post-Training auf den Einsatz als KI-Agent optimiert. GLM-5.1 kann bis zu 8 Stunden am Stück autonom an einer einzigen Coding-Aufgabe arbeiten und dabei rund 1.700 Iterationen aus Planung, Ausführung, Bugfixing und Strategie-Anpassung durchlaufen. Mit 58,4% auf SWE-Bench Pro führt es zum Zeitpunkt der Veröffentlichung die Open-Source-Modelle im Bereich der Software-Entwicklung an und erreicht Benchmark Scores, die sich mit Opus-4.6 vergleichen lassen.

Playground API Dokumentation Hugging Face Blog

Features

Tools

Websuche, Bildgenerierung, Computer Use und MCP-Server.

Multimodalität

Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.

Finetuning

Finetuning des Modells ist aktuell nicht möglich.

Details zum Modell

202,75k Token

128k Token

Unbekannt

744 Mrd.

$1.40

$4.40

154,88k

1404,19 GB

GLM-5.1 Benchmark Scores

Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.

GLM-5.1 Benchmark Übersicht

AIME 2026

BrowseComp

CyberGym

GPQA Diamond

HMMT 2025

MCP-Atlas

SWE-bench Pro

TB 2.0

Vending-Bench 2

τ²-Bench

GLM-5.1 Performance im Vergleich zu anderen Modellen

Benchmark	GLM-5.1	GLM-5	Claude Mythos	Muse Spark	DeepSeek-V4-Pro	GPT-5.5	Kimi K2.6
AIME 2026AIME 2026	95,3 %	—	—	—	—	—	—
BrowseCompBrowseComp	68 %	—	—	—	—	—	—
CyberGymCyberGym	68,7 %	—	—	—	—	—	—
GPQA DiamondGPQA Diamond	86,2 %	86 %	—	—	—	—	—
HMMT 2025HMMT 2025	94 %	—	—	—	—	—	—
MCP-AtlasMCP-Atlas	71,8 %	—	—	—	—	—	—
SWE-bench ProSWE-bench Pro	58,4 %	—	—	—	—	—	—
Terminal-Bench 2.0TB 2.0	63,5 %	56,2 %	—	—	—	—	—
Vending-Bench 2Vending-Bench 2	5.634,4 USD	—	—	—	—	—	—
τ²-Benchτ²-Bench	70,6 %	89,7 %	—	—	—	—	—

Ergebnisse in Benchmarks

Benchmark auswählen

Darstellung der Rohdaten für den Benchmark AIME 2026. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GLM-5.1	95,3 %
Gemma 4 31B	89,2 %

Vergleich von LLMs im Benchmark AIME 2026. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark BrowseComp. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GLM-5.1	68 %

Vergleich von LLMs im Benchmark BrowseComp. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark CyberGym. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GLM-5.1	68,7 %

Vergleich von LLMs im Benchmark CyberGym. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Gemini 3.1 Pro	94,3 %
Gemini 3 Deep Think	93,8 %
GPT-5.2 Pro	93,2 %
GPT-5.4	92,8 %
GPT-5.2	92,4 %
Claude Opus 4.6	91,3 %
Claude Sonnet 4.6	89,9 %
Kimi K2.5 (Thinking)	87,6 %
Claude Opus 4.5	87 %
Gemini 3.1 Flash-Lite	86,9 %
GLM-5.1	86,2 %
GLM-5	86 %
GLM-4.7	85,7 %
DeepSeek-v3.2 Speciale	85,7 %
MiniMax M2.5	85,2 %
Gemma 4 31B	84,3 %
MiniMax M2.1	83 %
GPT-5.4 nano	82,83 %
DeepSeek-v3.2 Thinking	82,4 %
GPT-5.4 mini	81,57 %

Vergleich von LLMs im Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark HMMT 2025. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GLM-5.1	94 %

Vergleich von LLMs im Benchmark HMMT 2025. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark MCP-Atlas. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GLM-5.1	71,8 %

Vergleich von LLMs im Benchmark MCP-Atlas. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SWE-bench Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GLM-5.1	58,4 %

Vergleich von LLMs im Benchmark SWE-bench Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Terminal-Bench 2.0. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.3-Codex	77,3 %
GPT-5.4	75,1 %
Gemini 3.1 Pro	68,5 %
Claude Opus 4.6	65,4 %
GLM-5.1	63,5 %
Claude Opus 4.5	59,3 %
Claude Sonnet 4.6	59,1 %
GLM-5	56,2 %
Qwen3.5-397B-A17B	52,5 %
MiniMax M2.5	51,7 %
Kimi K2.5 (Thinking)	50,8 %
MiniMax M2.1	47,9 %
Kimi K2 Thinking	47,1 %
DeepSeek-v3.2 Thinking	46,4 %
GPT-5.4 nano	46,3 %
MiniMax-M2	46,3 %
GLM-4.7	41 %
GPT-5.4 mini	38,2 %
Nemotron 3 Super	31 %

Vergleich von LLMs im Benchmark Terminal-Bench 2.0. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Vending-Bench 2. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GLM-5.1	5.634,41 %

Vergleich von LLMs im Benchmark Vending-Bench 2. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark τ²-Bench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Opus 4.6	95,6 %
Gemini 3.1 Pro	95,1 %
Claude Sonnet 4.6	94,8 %
Claude Opus 4.5	93,55 %
GPT-5.2	90,35 %
GLM-5	89,7 %
GPT-5.4 nano	88,38 %
GLM-4.7	87,4 %
MiniMax M2.1	87 %
Qwen3.5-397B-A17B	86,7 %
Gemini 3 Pro	85,4 %
DeepSeek-v3.2 Thinking	80,3 %
GPT-5.1	80,2 %
MiniMax-M2	77,2 %
Gemma 4 31B	76,9 %
Claude Haiku 4.5	76,6 %
GLM-4.6	75,9 %
GPT-5.4 mini	74,1 %
GLM-5.1	70,6 %
Nemotron 3 Super	61,15 %

Vergleich von LLMs im Benchmark τ²-Bench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

‌
‌

Technologie & Daten

Technische Spezifikationen

Architektur	Sparse-MoE-Architektur
Input Kontextlänge	202,75k
Output Kontextlänge	128k
Tokenizer	GLM Tokenizer

Besonderheiten

8-Stunden autonomes Coding	In Demos wurden bis zu 1.700 Iterationen ohne menschliches Eingreifen erreicht.
Training ohne NVIDIA Hardware	Laut Z.AI wurde GLM-5 / GLM-5.1 auf ca. 100.000 Huawei Ascend 910B NPUs trainiert, ohne NVIDIA Grafikchips. Geopolitisch stellt dies einen relevanten Meilenstein für Chinas KI-Souveränität dar.

Vorteile & Nachteile

Vorteile

Starkes Open-Source Coding Modell
GLM-5.1 erreicht 58,4% in SWE-Bench Pro und führt damit die Open-Source-Modellen an. Speziell in diesem Benchmark übertrifft GLM-5.1 auch GPT-5.4, Claude Opus 4.6 und Gemini 3.1 Pro.
Sehr gute Ergebnisse in Agentischen Benchmarks
Im Terminal-Bench 2.0 erzielt GLM-5.1 63,5% Laut Z.ai erreicht GLM-5.1 rund 94,6% der Coding-Performance von Claude Opus 4.6 – zu einem deutlich niedrigerem Preis.
Open Weights unter MIT-Lizenz
GLM-5.1 ist vollständig open-source und lässt sich auf Hugging Face für freie kommerzielle Nutzung herunterladen. Mit den Gewichten lässt sich das Modell lokal auf eigener Hardware deployen.
Native Coding-Agent-Kompatibilität
Direkte Integration in Claude Code, OpenCode, Cline, Roo Code und weiteren Agent-Frameworks ohne zusätzliche Anforderungen.

Nachteile

Kein multimodaler Input
GLM-5.1 ist ein reines Text-Modell ohne Computer-Vision oder Audio- oder Video-Verarbeitung. Zum Analysieren von Bildern sind andere Modelle notwendig.
Sehr hohe Hardware-Anforderungen
In BF-16 Präzision benötigt GLM-5-1 ca. 1.490 GB Speicher. Lokales Deployment erfordert entsprechend teure Multi-GPU-Server Setups, es werden mind. 8 GPUs empfohlen.
Preiserhöhung gegenüber GLM-5
Die Token-Preise von GLM-5.1 sind rund 10% höher als bei GLM-5 ($1,40/$4,40 statt $1,00/$3,20). Zu Peak-Zeiten (14:00-18:00 Beijing Time; 8:00-12:00 Uhr in Deutschland), erhebt Z.AI einen "Peak-Multiplikator", der die Kosten um 3x erhöht.

Vergleiche GLM-5.1 mit anderen LLMs

Vergleiche GLM-5.1 mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.

Entwickler	Modell⇅	Lizenz⇅	Parameter ⇅	Input-Tokens ⇅	Output-Tokens ⇅	Input-Preis ⇅	Output-Preis ⇅	Veröffentlichung
DeepSeek AI	DeepSeek-V4-Pro	MIT	1.600 Mrd.	1 Mio.	unbekannt	$1.74	$3.48	24.04.2026
OpenAI	GPT-5.5	Proprietär	Unbekannt	1,05 Mio.	128k	$5.00	$30.00	23.04.2026
Moonshot AI	Kimi K2.6	Andere	1.000 Mrd.	262,14k	32,77k	$0.95	$4.00	20.04.2026
Anthropic	Claude Opus 4.7	Proprietär	Unbekannt	1 Mio.	128k	$5.00	$25.00	16.04.2026
Z.ai	GLM-5.1	MIT	744 Mrd.	202,75k	128k	$1.40	$4.40	07.04.2026
Anthropic	Claude Mythos	Proprietär	Unbekannt	1 Mio.	128k	$25.00	$125.00	07.04.2026
Google DeepMind	Gemma 4	Apache 2.0	30,7 Mrd.	262,14k	131,07k	$0.14	$0.40	02.04.2026
MiniMax	MiniMax M2.7	MIT	230 Mrd.	204,8k	131,07k	$0.30	$1.20	18.03.2026
OpenAI	GPT-5.4 nano	Proprietär	Unbekannt	400k	128k	$0.20	$1.25	17.03.2026
OpenAI	GPT-5.4 mini	Proprietär	Unbekannt	400k	128k	$0.75	$4.50	17.03.2026

‌
Alle Modelle vergleichen

Provider & APIs

Du kannst Z.ai GLM-5.1 über die API folgender Anbieter nutzen.

Das Modell ist derzeit bei keinen Anbietern verfügbar.