GLM-4.6 Modell-Übersicht

GLM-4.6 ist das neueste Flaggschiff-Modell von Zhipu AI (Z.ai), das am 30. September 2025 veröffentlicht wurde. GLM-4.6 ist ein Open-Weights-Modell, das sich vor allem für den Coding-Einsatz eignet. Insgesamt verfügt das Modell über 355B Parameter mit einer MoE-Architektur, bei der für jedes Token 32B der Parameter aktiviert werden. In Benchmarks zieht GLM-4.6 mit proprietären Modellen wie Claude Sonnet 4 gleich, bei deutlich reduzierten Kosten. Dazu wurde GLM-4.6 auf effizienteren Token-Output optimiert und generiert bei besseren Ergebnissen ca. 15% weniger Tokens, als das Vorgängermodell GLM-4.5.

Playground API Referenz Blog Hugging Face

Features

Tools

Websuche, Bildgenerierung, Computer Use und MCP-Server.

Multimodalität

Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.

Finetuning

Finetuning des Modells ist aktuell nicht möglich.

Details zum Modell

200k Token

128k Token

Unbekannt

355 Mrd.

0,60 $

2,00 $

Unbekannt

664,57 GB

GLM-4.6 Benchmark Scores

Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.

GLM-4.6 Benchmark Übersicht

GLM-4.6 Performance im Vergleich zu anderen KI-Modellen

Benchmark	GLM-4.6	GLM-4.5 Air	GLM-4.7	Claude Sonnet 4.5	Claude Haiku 4.5	Muse Spark 1.1	GPT 5.6 Terra
AIME 2025Logik & Schlussfolgerung	93,9 %	—	95,7 %	87 %

Ergebnisse in Benchmarks

Benchmark auswählen

Darstellung der Rohdaten für den Benchmark AIME 2025. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.2	100 %
GPT-5.2 Pro	100 %
GPT-5	99,6 %
GPT-5.4 nano	98,33 %
Kimi K2.5 (Thinking)	96,1 %
DeepSeek-v3.2 Speciale	96 %
GLM-4.7	95,7 %
Gemini 3 Pro	95 %
Kimi K2 Thinking	94,5 %
GPT-5.1	94 %
GLM-4.6	93,9 %
DeepSeek-v3.2 Thinking	93,1 %
GPT-5.4 mini	90,83 %
Nemotron 3 Super	90,21 %
Claude Sonnet 4.5	87 %
MiniMax M2.5	86,3 %
MiniMax M2.1	83 %
Claude Haiku 4.5	80,7 %
MiniMax-M2	78 %
Kimi K2 (0905)	49,5 %

Vergleich von LLMs im Benchmark AIME 2025. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Humanity's Last Exam. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	56,8 %
Muse Spark 1.1	52,2 %
Fugu Ultra	50 %
Claude Opus 4.8	49,8 %
GPT-5.6 Sol	47,2 %
Claude Opus 4.7	46,9 %
Claude Sonnet 5	43,2 %
Muse Spark	42,8 %
GPT-5.6 Terra	41,8 %
GPT-5.5	41,4 %
GLM-5.2	40,5 %
Grok 4.5	40,3 %
Gemini 3.5 Flash	40,2 %
DeepSeek-V4-Pro (Preview)	37,7 %
Kimi K2.6	34,7 %
GLM-5.1	31 %
GPT-5.4 nano	24,26 %
Gemma 4 31B	19,5 %
GPT-5.4 mini	18,32 %
GLM-4.6	17,2 %

Vergleich von LLMs im Benchmark Humanity's Last Exam. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Gemini 3.1 Pro	2.887 %
DeepSeek-V4-Pro (Preview)	93,5 %
Fugu Ultra	93,2 %
Kimi K2.6	89,6 %
DeepSeek-v3.2 Speciale	88,7 %
GPT-5.6 Terra	85,93 %
Kimi K2.5 (Thinking)	85 %
GLM-4.7	84,9 %
Qwen3.5-397B-A17B	83,6 %
DeepSeek-v3.2 Thinking	83,3 %
Kimi K2 Thinking	83,1 %
MiniMax-M2	83 %
GLM-4.6	82,8 %
GPT-5.6 Sol	82,6 %
Nemotron 3 Super	81,19 %
MiniMax M2.1	81 %
Muse Spark	80 %
Gemma 4 31B	80 %
Gemini 3.1 Flash-Lite	72 %
Kimi K2 (0905)	53,7 %

Vergleich von LLMs im Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SWE-bench Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.6 Sol	96,2 %
Claude Fable 5	95 %
Claude Mythos Preview	93,9 %
Claude Opus 4.8	88,6 %
Claude Opus 4.7	87,6 %
Claude Sonnet 5	85,2 %
Claude Opus 4.6	80,8 %
DeepSeek-V4-Pro (Preview)	80,6 %
Gemini 3.1 Pro	80,6 %
MiniMax-M3	80,5 %
Kimi K2.6	80,2 %
MiniMax M2.5	80,2 %
MiniMax M2.7	79,9 %
Claude Sonnet 4.6	79,6 %
GLM-5	77,8 %
Muse Spark	77,4 %
Kimi K2.5 (Thinking)	76,8 %
Qwen3.5-397B-A17B	76,4 %
GPT-5.6 Terra	75,2 %
GLM-4.6	68 %

Vergleich von LLMs im Benchmark SWE-bench Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark τ²-Bench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Opus 4.6	95,6 %
Gemini 3.1 Pro	95,1 %
Claude Sonnet 4.6	94,8 %
Claude Opus 4.5	93,55 %
Muse Spark	91,5 %
GPT-5.2	90,35 %
GLM-5	89,7 %
GPT-5.4 nano	88,38 %
GLM-4.7	87,4 %
MiniMax M2.1	87 %
Qwen3.5-397B-A17B	86,7 %
GPT-5.6 Terra	86,26 %
Gemini 3 Pro	85,4 %
DeepSeek-v3.2 Thinking	80,3 %
GPT-5.1	80,2 %
Gemma 4 31B	76,9 %
GLM-4.6	75,9 %
GPT-5.4 mini	74,1 %
GLM-5.1	70,6 %
Nemotron 3 Super	61,15 %

Vergleich von LLMs im Benchmark τ²-Bench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

‌
‌

Technologie & Daten

Technische Spezifikationen

Architektur	Mixture-of-Experts
Input Kontextlänge	200k
Output Kontextlänge	128k
Tokenizer	GLM Tokenizer

Besonderheiten

Thinking Mode	Hybrider Thinking-Modus
Open Source (MIT-Lizenz)	Kommerzielle Nutzung möglich
GLM Coding Plan	Claude-Level-Performance für $3/Monat
Veröffentlichte Test-Trajectories	Alle 74 CC-Bench-Evaluationen mit vollständigen Logs öffentlich auf Hugging Face

Vorteile & Nachteile

Vorteile

Herausragende Preis-Leistung
GLM-4.6 ist ca. 90% günstiger als Claude Sonnet 4.5 bei nahezu gleicher Performance.
Open Source
Die MIT-Lizenz ermöglicht kommerzielle Nutzung und freies Finetuning. Außerdem stehen Quantisierte Versionen von GLM-4.6 zur Verfügung.
Exzellente Coding-Performance
GLM-4.6 erreicht Platz #1 auf LiveCodeBench v6 (82,8%) und überzeugt auch in realen Coding-Umgebungen mit produktionsreifen Ergebnissen.
Effizienter Output
GLM-4.6 komprimiert Inhalte im Output und verbraucht dadurch 15% weniger Tokens als das Vorgängermodell GLM-4.5 bei gleichen Aufgaben.

Nachteile

Keine Multimodalität
GLM-4.6 ist kein multimodales Modell und kann nur Text-Inputs verarbeiten.
Schwächen bei akademischem Reasoning
GLM-4.6 scheint hauptsächlich auf den Coding-Einsatz optimiert zu sein. Im GPQA Benchmark, der z.B. Wissen in Naturwissenschaften testet, erreicht es bei Veröffentlichung nur Platz #15.
Hohe Hardware-Anforderungen
GLM-4.6 ist ein großes Sprachmodell. Lokales Deployment ist fast unmöglich / nur mit sehr langsamen Token-Throughput möglich.

Vergleiche GLM-4.6 mit anderen LLMs

Vergleiche GLM-4.6 mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.

Entwickler	Modell⇅	Lizenz⇅	Parameter ⇅	Input-Tokens ⇅	Output-Tokens ⇅	Input-Preis ⇅	Output-Preis ⇅	Veröffentlichung
OpenAI	GPT 5.6 Sol	Proprietär	Unbekannt	1,05 Mio.	128k	5,00 $	30,00 $	09.07.2026
OpenAI	GPT 5.6 Terra	Proprietär	Unbekannt	1,05 Mio.	128k	2,50 $	15,00 $	09.07.2026
OpenAI	GPT 5.6 Luna	Proprietär	Unbekannt	1,05 Mio.	128k	1,00 $	6,00 $	09.07.2026
Meta AI	Muse Spark 1.1	Proprietär	Unbekannt	1,05 Mio.	1,05 Mio.	1,25 $	4,25 $	09.07.2026
xAI	Grok 4.5	Proprietär	Unbekannt	500k	500k	2,00 $	6,00 $	08.07.2026
Anthropic	Claude Sonnet 5	Proprietär	Unbekannt	1 Mio.	128k	3,00 $	15,00 $	30.06.2026
Sakana AI	Fugu Ultra	Proprietär	7 Mrd.	1 Mio.	1 Mio.	5,00 $	30,00 $	21.06.2026
Z.ai	GLM 5.2	MIT	753 Mrd.	1,05 Mio.	131,07k	1,40 $	4,40 $	16.06.2026
Anthropic	Claude Fable 5	Proprietär	Unbekannt	1 Mio.	128k	10,00 $	50,00 $	09.06.2026
Z.ai	GLM-4.6	MIT	355 Mrd.	200k	128k	0,60 $	2,00 $	30.09.2025

‌
Alle Modelle vergleichen

Provider & APIs

Du kannst Z.ai GLM-4.6 über die API folgender Anbieter nutzen.

Das Modell ist derzeit bei keinen Anbietern verfügbar.

‌
‌
‌

‌
‌
‌
‌
‌
‌
‌
‌
‌
‌
‌

GLM-4.6 Modell-Übersicht

Features

Tools

Multimodalität

Finetuning

Details zum Modell

GLM-4.6 Benchmark Scores

GLM-4.6 Benchmark Übersicht

Wissen & Sprache

Logik & Schlussfolgerung

Programmierung

Agentische Aufgaben

GLM-4.6 Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks

Technologie & Daten

Technische Spezifikationen

Besonderheiten

Vorteile & Nachteile

Vorteile

Nachteile

Vergleiche GLM-4.6 mit anderen LLMs

Provider & APIs

GLM-4.6 Benchmark Übersicht

Wissen & Sprache

Logik & Schlussfolgerung

Programmierung

Agentische Aufgaben

GLM-4.6 Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks