Kimi K2.6 Modell-Übersicht

Kimi K2.6 ist ein Open-Weights LLM mit 1 Billion Parametern und einer Mixture-of-Experts-Architektur (32 Milliarden Parameter aktiv pro Token). Als direkter Nachfolger von Kimi K2.5 wurde K2.6 auf das langfristige Arbeiten an mehrstündigen Aufgaben als KI-Agent optimiert. Kimi K2.6 ist ein multimodales LLM (Text, Bild, Video). Für das Arbeiten mit KI-Agenten bietet der Entwickler Moonshot AI eine "Agent-Swarm-Technologie" an, mit der bis zu 300 Sub-Agenten parallel an einer Aufgabe arbeiten können. In Benchmarks erreicht K2.6 ähnliche Scores wie GPT-5.4 und Claude Opus 4.6.

Playground API Dokumentation Hugging Face Blog

Features

Tools

Websuche, Bildgenerierung, Computer Use und MCP-Server.

Multimodalität

Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.

Finetuning

Finetuning des Modells ist aktuell nicht möglich.

Details zum Modell

262,14k Token

Unbekannt

1.000 Mrd.

$0.75

$3.50

163,84k

554,30 GB

Kimi K2.6 Benchmark Scores

Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.

Kimi K2.6 Benchmark Übersicht

Kimi K2.6 Performance im Vergleich zu anderen KI-Modellen

Benchmark	Kimi K2.6	Kimi K2.5	Claude Opus 4.7	GPT-5.5	DeepSeek-V4-Pro	Muse Spark	GLM-5.1
AIME 2026Logik & Schlussfolgerung	Top 96,4 %	—	—	—	—	—	95,3 %
BrowseCompWissen & Sprache	83,2 %	—	79,3 %	Top 84,4 %	83,4 %	—	68 %
GPQA DiamondWissen & Sprache	90,5 %	87,6 %	94,2 %	93,6 %	90,1 %	89,5 %	86,2 %
HMMT 2025Logik & Schlussfolgerung	92,7 %	—	—	—	—	—	Top 94 %
LiveCodeBenchProgrammierung	89,6 %	85 %	—	—	93,5 %	80 %	—
MMMU-ProMultimodalität	79,4 %	—	—	Top 81,2 %	—	80,4 %	—
SWE-bench MultilingualProgrammierung	76,7 %	—	—	—	76,2 %	—	—
SWE-bench VerifiedProgrammierung	80,2 %	76,8 %	87,6 %	—	80,6 %	77,4 %	—

Ergebnisse in Benchmarks

Benchmark auswählen

Darstellung der Rohdaten für den Benchmark AIME 2026. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Kimi K2.6	96,4 %
GLM-5.1	95,3 %
Gemma 4 31B	89,2 %

Vergleich von LLMs im Benchmark AIME 2026. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark BrowseComp. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.5	84,4 %
DeepSeek-V4-Pro (Preview)	83,4 %
Kimi K2.6	83,2 %
Claude Opus 4.7	79,3 %
GLM-5.1	68 %

Vergleich von LLMs im Benchmark BrowseComp. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	94,5 %
Gemini 3.1 Pro	94,3 %
Claude Opus 4.7	94,2 %
GPT-5.5	93,6 %
GPT-5.4	92,8 %
Claude Opus 4.6	91,3 %
Kimi K2.6	90,5 %
DeepSeek-V4-Pro (Preview)	90,1 %
Claude Sonnet 4.6	89,9 %
Muse Spark	89,5 %
Kimi K2.5 (Thinking)	87,6 %
Gemini 3.1 Flash-Lite	86,9 %
GLM-5.1	86,2 %
GLM-5	86 %
GLM-4.7	85,7 %
MiniMax M2.5	85,2 %
Gemma 4 31B	84,3 %
MiniMax M2.1	83 %
GPT-5.4 nano	82,83 %
GPT-5.4 mini	81,57 %

Vergleich von LLMs im Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark HMMT 2025. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GLM-5.1	94 %
Kimi K2.6	92,7 %

Vergleich von LLMs im Benchmark HMMT 2025. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Gemini 3.1 Pro	2.887 %
DeepSeek-V4-Pro (Preview)	93,5 %
Kimi K2.6	89,6 %
DeepSeek-v3.2 Speciale	88,7 %
Kimi K2.5 (Thinking)	85 %
GLM-4.7	84,9 %
Qwen3.5-397B-A17B	83,6 %
DeepSeek-v3.2 Thinking	83,3 %
Kimi K2 Thinking	83,1 %
MiniMax-M2	83 %
GLM-4.6	82,8 %
Nemotron 3 Super	81,19 %
MiniMax M2.1	81 %
Muse Spark	80 %
Gemma 4 31B	80 %
GLM-4.5	72,9 %
Gemini 3.1 Flash-Lite	72 %
GLM-4.5 Air	70,7 %
Kimi K2 (0905)	53,7 %
Qwen3 30B A3B Instruct 2507	43,2 %

Vergleich von LLMs im Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark MMMU-Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.5	81,2 %
Muse Spark	80,4 %
Kimi K2.6	79,4 %
Gemma 4 31B	76,9 %

Vergleich von LLMs im Benchmark MMMU-Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SWE-bench Multilingual. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	87,3 %
Kimi K2.6	76,7 %
DeepSeek-V4-Pro (Preview)	76,2 %

Vergleich von LLMs im Benchmark SWE-bench Multilingual. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SWE-bench Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	93,9 %
Claude Opus 4.7	87,6 %
Claude Opus 4.5	80,9 %
Claude Opus 4.6	80,8 %
DeepSeek-V4-Pro (Preview)	80,6 %
Gemini 3.1 Pro	80,6 %
Kimi K2.6	80,2 %
MiniMax M2.5	80,2 %
GPT-5.2	80 %
Claude Sonnet 4.6	79,6 %
GLM-5	77,8 %
Muse Spark	77,4 %
Kimi K2.5 (Thinking)	76,8 %
Qwen3.5-397B-A17B	76,4 %
GPT-5.1	76,3 %
Gemini 3 Pro	76,2 %
MiniMax M2.1	74 %
GLM-4.7	73,8 %
Kimi K2 Thinking	71,3 %
MiniMax-M2	69,4 %

Vergleich von LLMs im Benchmark SWE-bench Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

‌
‌

Technologie & Daten

Technische Spezifikationen

Architektur	MoE-Transformer
Input Kontextlänge	262,14k
Output Kontextlänge	262,14k
Tokenizer	Proprietärer Tokenizer

Besonderheiten

Agent Swarm 2.0	Ermöglicht lange autonome Workflows mit einer Vielzahl an Sub-Agenten
Preserve Thinking Mode	Behält Reasoning-Ketten über mehrere Turns hinweg, anstatt sie zurückzusetzen.
Native Video-Verarbeitung	Verarbeitet Videos (mp4, mov, avi, webm, 3gpp u.a.) bis 2K-Auflösung direkt im selben Modell.

Vorteile & Nachteile

Vorteile

SOTA Open Weights Modell
Kimi-K2.6 gehört zum Zeitpunkt der Veröffentlichung zu den führenden Open Weights LLMs. In Benchmarks liegt es knapp vor GLM-5.1, deutlich vor DeepSeek V4 Pro und gleichauf mit MiMo-2.5.
Beliebtes OpenClawd Modell
Kimi-K2.6 lässt sich lokal ausführen und wird gleichzeitig bei guter Leistung und Token-Throughput über eine Cloud-API angeboten. Damit ist das Modell beliebt unter OpenClawd oder Pi.dev Nutzern.
Native Multimodalität
K2.6 ist das erste Kimi-LLM mit nativer Video-Unterstützung. Zusätzlich können auch Audio- und Bildinputs nativ verarbeitet werden.
Open Weights unter Modified MIT
Kimi-K2.6 lässt sich vollständig von HuggingFace herunterladen und lokal deployen (ca. 594 GB Modellgröße).
Wettbewerbsfähige API-Preise
Mit $0.95/$4.00 pro Million Tokens über die offizielle Moonshot API (und teils günstigerem Pricing über andere Inferenz-Anbieter), bietet Kimi-K2.6 fast die Leistung von proprietären SOTA-Modellen zu einem deutlich günstigerem Pricing.

Nachteile

Hohe Hardware-Anforderungen
Wer Kimi-K2.6 lokal deployen möchte, benötigt teure Hardware. Empfohlen werden mindestens 4× H100-GPUs oder vergleichbare Datacenter-Hardware.
Web-Search nicht mit Thinking-Modus kompatibel
Die integrierte Web-Suche ist temporär (zum Zeitpunkt unseres Kimi-K2.6 Tests) nicht mit dem Thinking-Modus kombinierbar.
Sehr junges Modell
Erst seit 20. April 2026 verfügbar, Community-Feedback und Production-Erfahrungen noch begrenzt.

Vergleiche Kimi K2.6 mit anderen LLMs

Vergleiche Kimi K2.6 mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.

Entwickler	Modell⇅	Lizenz⇅	Parameter ⇅	Input-Tokens ⇅	Output-Tokens ⇅	Input-Preis ⇅	Output-Preis ⇅	Veröffentlichung
DeepSeek AI	DeepSeek-V4-Pro	MIT	1.600 Mrd.	1 Mio.	384k	$1.74	$0.87	24.04.2026
OpenAI	GPT-5.5	Proprietär	Unbekannt	1,05 Mio.	128k	$5.00	$30.00	23.04.2026
Moonshot AI	Kimi K2.6	MIT	1.000 Mrd.	262,14k	262,14k	$0.75	$3.50	20.04.2026
Anthropic	Claude Opus 4.7	Proprietär	Unbekannt	1 Mio.	128k	$5.00	$25.00	16.04.2026
Meta AI	Muse Spark	Proprietär	Unbekannt	262k	unbekannt	unbekannt	unbekannt	08.04.2026
Z.ai	GLM-5.1	MIT	744 Mrd.	202,75k	128k	$1.40	$4.40	07.04.2026
Anthropic	Claude Mythos	Proprietär	Unbekannt	1 Mio.	128k	$25.00	$125.00	07.04.2026
Google DeepMind	Gemma 4	Apache 2.0	30,7 Mrd.	262,14k	131,07k	$0.14	$0.40	02.04.2026
MiniMax	MiniMax M2.7	MIT	230 Mrd.	204,8k	131,07k	$0.30	$1.20	18.03.2026
OpenAI	GPT-5.4 nano	Proprietär	Unbekannt	400k	128k	$0.20	$1.25	17.03.2026

‌
Alle Modelle vergleichen

Provider & APIs

Du kannst Moonshot AI Kimi K2.6 über die API folgender Anbieter nutzen.

Das Modell ist derzeit bei keinen Anbietern verfügbar.

Kimi K2.6 Modell-Übersicht

Features

Tools

Multimodalität

Finetuning

Details zum Modell

Kimi K2.6 Benchmark Scores

Kimi K2.6 Benchmark Übersicht

Wissen & Sprache

Logik & Schlussfolgerung

Programmierung

Multimodalität

Kimi K2.6 Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks

Technologie & Daten

Technische Spezifikationen

Besonderheiten

Vorteile & Nachteile

Vorteile

Nachteile

Vergleiche Kimi K2.6 mit anderen LLMs

Provider & APIs

Kimi K2.6 Benchmark Übersicht

Wissen & Sprache

Logik & Schlussfolgerung

Programmierung

Multimodalität

Kimi K2.6 Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks