Kimi K2.5 ist ein multimodales LLM von Moonshot AI, das auf Basis von Kimi-K2-Base entwickelt wurde. K2.5 unterstützt Computer-Vision und Audio-Input und wurde für den Einsatz in agentischen Systemen trainiert. Besonders hervorzuheben ist die Agent Swarm-Technologie, die bis zu 100 Sub-Agenten koordinieren und bis zu 1.500 Tool-Aufrufe parallel ausführen kann.
Kimi K2.5 ist ein multimodales LLM von Moonshot AI, das auf Basis von Kimi-K2-Base entwickelt wurde. K2.5 unterstützt Computer-Vision und Audio-Input und wurde für den Einsatz in agentischen Systemen trainiert. Besonders hervorzuheben ist die Agent Swarm-Technologie, die bis zu 100 Sub-Agenten koordinieren und bis zu 1.500 Tool-Aufrufe parallel ausführen kann.
Websuche, Bildgenerierung, Computer Use und MCP-Server.
Multimodalität
Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.
Finetuning
Finetuning des Modells ist aktuell nicht möglich.
Details zum Modell
Max. Input
256k Token
Max. Output
96k Token
Trainingsdaten
15.000 Mrd.
Parameter
1.000 Mrd.
Input Preis
$0.60
Output Preis
$3.00
Vokabular
160k
Dateigröße
554,30 GB
Kimi K2.5 Benchmark Scores
Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.
Technologie & Daten
Technische Spezifikationen
Architektur
Sparse MoE-Architektur
Input Kontextlänge
256k
Output Kontextlänge
96k
Tokenizer
Proprietär
Besonderheiten
Agent Swarm
Koordiniert bis zu 100 Sub-Agenten
Hybrides Reasoning
Thinking- & Instant-Mode
Native Multimodalität
Nativ auf Vision-Language-Tokens trainiert
Vorteile & Nachteile
Vorteile
SOTA-Open Weights Coding Modell
Kimi K2.5 erreicht Coding-Benchmark Scores, die teilweise über denen proprietärer Modelle wie GPT-5.2 oder Claude Opus 4.5 liegen.
Neue "Agent Swarm" Orchestration
Bis zu 100 parallele Sub-Agenten und 1.500 Tool-Aufrufe ermöglichen hohe Effizienzsteigerungen.
Open Weights MIT-Lizenz
Weights sind vollständig open-source und lassen sich auf HuggingFace herunterladen.
Gutes Preis- / Leistungsverhältnis
Mit $0,60/$3,00 pro Million Tokens deutlich günstiger als vergleichbare Frontier-Modelle.
Nachteile
Hohe Hardware-Anforderungen
Die "große" Version mit 595 GB Modellgröße erfordert Multi-GPU-Setups für lokales Deployment.
Primär für Chinesisch/Englisch optimiert
Performance in anderen Sprachen wie deutsch kann variieren, da Tokenizer und Training auf CN/EN fokussiert sind.
Vergleiche Kimi K2.5 mit anderen LLMs
Vergleiche Kimi K2.5 mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.
Du kannst Moonshot AI Kimi K2.5 über die API folgender Anbieter nutzen.
Das Modell ist derzeit bei keinen Anbietern verfügbar.
Kimi K2.5 Benchmark Übersicht
Überblick über die Leistungsfähigkeit des Modells in verschiedenen Benchmark-Tests.
Serie
Logik & Schlussfolgerung (min 0 / max 100)
Wissenschaft (min 0 / max 100)
Wissen & Sprache (min 0 / max 100)
Programmierung (min 0 / max 100)
Agentisch (min 0 / max 100)
Moonshot AI Kimi K2.5
63.099999999999994
88.85
87.1
80.9
50.8
Überblick über die Leistungsfähigkeit des Modells in verschiedenen Benchmark-Tests.
Ergebnisse in Benchmarks
Darstellung der Rohdaten für den Benchmark American Invitational Mathematics Examination 2025. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell
Score
Grok-4 Heavy
100 %
GPT-5.2
100 %
GPT-5.2 Pro
100 %
Grok-4
98,8 %
GPT-5 Pro
96,7 %
Kimi K2.5 (Thinking)
96,1 %
DeepSeek-v3.2 Speciale
96 %
GLM-4.7
95,7 %
Vergleich von LLMs im Benchmark American Invitational Mathematics Examination 2025. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Darstellung der Rohdaten für den Benchmark Graduate-Level Google-Proof Q&A Benchmark - Diamond Subset. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell
Score
Gemini 3 Deep Think
93,8 %
GPT-5.2 Pro
93,2 %
GPT-5.2
92,4 %
GPT-5 Pro
88,4 %
GPT-5.1
88,1 %
Kimi K2.5 (Thinking)
87,6 %
GPT-5
87,3 %
Claude Opus 4.5
87 %
Vergleich von LLMs im Benchmark Graduate-Level Google-Proof Q&A Benchmark - Diamond Subset. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Darstellung der Rohdaten für den Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell
Score
DeepSeek-v3.2 Speciale
88,7 %
Kimi K2.5 (Thinking)
85 %
GLM-4.7
84,9 %
DeepSeek-v3.2 Thinking
83,3 %
Kimi K2 Thinking
83,1 %
Vergleich von LLMs im Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Darstellung der Rohdaten für den Benchmark MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell
Score
Kimi K2.5 (Thinking)
90,1 %
Vergleich von LLMs im Benchmark MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Darstellung der Rohdaten für den Benchmark MMLU-Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell
Score
MiniMax M2.1
88 %
Kimi K2.5 (Thinking)
87,1 %
Grok-4
86,6 %
DeepSeek-R1-0528
85 %
GLM-4.5
84,6 %
Vergleich von LLMs im Benchmark MMLU-Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Darstellung der Rohdaten für den Benchmark SWE-bench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell
Score
Claude Opus 4.5
80,9 %
GPT-5.2
80 %
Claude Sonnet 4.5
77,2 %
Kimi K2.5 (Thinking)
76,8 %
GPT-5.1
76,3 %
Gemini 3 Pro
76,2 %
Vergleich von LLMs im Benchmark SWE-bench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Kimi K2.5 lässt sich über Kimi.com teste. Das Pricing über die API ist deutlich günstiger, als bei westlichen US-Modellen.
Das chinesische KI-Unternehmen Moonshot AI hat mit Kimi K2.5 ein Open-Source-Sprachmodell veröffentlicht, das in mehreren Benchmarks mit den besten proprietären Modellen von OpenAI, Anthropic und Google mithalten kann. Außerdem bringt Kimi K2.5 eine technische Neuerung mit: Ein "Agent Swarm"-System, über das Kimi bis zu 100 autonome Sub-Agenten parallel orchestrieren kann.
Mit dem Release von Kimi-K2.5 schließen chinesische Modelle erneut zu den bislang führenden US-Modellen von vor 2-3 Monaten auf. Während OpenAI, Anthropic und Google ihre leistungsstärksten Modelle hinter geschlossenen APIs halten, liegt der Vorteil in vielen chinesischen Modellen darin, dass sich die Gewichte der Modelle herunterladen lassen und damit lokal ausführbar gemacht werden. So auch bei Kimi-K2.5.
Mixture-of-Experts Architektur mit 1 Bio. Parametern
Kimi K2.5 basiert auf einer Mixture-of-Experts-Architektur (MoE), bei der von insgesamt einer Billion Parametern nur 32 Milliarden pro Anfrage aktiviert werden. Das ermöglicht eine hohe Leistung bei vergleichsweise geringem Rechenaufwand. Das Modell lässt sich auf Hugging Face herunterladen und über Programme wie z.B. LM Studio ausführen.
Agent Swarm: Wenn 100 KI-Agenten gleichzeitig arbeiten
Eine Innovation steckt hinter dem Begriff der "Agent Swarms", der von Moonshot AI mit der Veröffentlichung von Kimi-K2.5 eingeführt wurde. Herkömmliche KI-Systeme (z.B. einfache Chats in ChatGPT) arbeiten Aufgaben sequenziell ab. In agentischen KI-Systemen können hingegen viele (bei K2.5 bis zu 100) Sub-Agenten parallel an einer Aufgabe arbeiten. Durch KI-Agenten können also entweder Aufgaben beschleunigt oder auch ihre Qualität und die Halluzinationsraten optimiert werden.
Im direkten Vergleich zu "einfachen" LLM Outputs können Agentische Systeme deutlich besseren Output erzeugen.
In der Praxis bedeutet das, dass Kimi dutzende Webseiten für eine Recherche gleichzeitig analysieren kann. Auch beim Coding erweisen sich Agenten-Systeme als äußerst nützlich. Jüngst erreichte Anthropic mit Claude Code und Opus 4.5 einen Durchbruch, indem Claude mit mehreren Agenten parallel an einer Codebase arbeiten kann und so eine neue Qualitätsstufe des Vibe Codings ermöglichte.
Mit "Kimi Code" bietet Moonshot AI zudem ein dediziertes Coding-Produkt an, das in direkter Konkurrenz zu Coding-IDEs (GitHub Copilot oder Cursor) und Terminal-Applikationen wie Claude Code oder ChatGPT Codex steht.
KI-Newsletter
Verpassen Sie keine wichtigen KI-Entwicklungen. Wöchentlich die relevantesten News direkt in Ihr Postfach.
Kimi K2.5 Benchmark-Ergebnisse: Auf Augenhöhe mit SOTA-Modellen
Die von Moonshot AI veröffentlichten Benchmark-Zahlen zeigen, dass Kimi K2.5 (Thinking) in verschiedenen Coding- und Reasoning-Benchmarks Werte auf dem Niveau von führenden Modellen wie Gemini 3 Pro oder GPT-5.2 erreichen kann:
Auf dem unabhängigen LM Arena Leaderboard, das auf Vergleichen durch Nutzer basiert, muss sich Kimi K2.5 erst noch beweisen. Erfahrungsgemäß weicht die subjektiv empfundene Qualität häufig von reinen Benchmark-Scores ab.
Kimi-K2.5 Preise
Moonshot AI macht das Modell unter einer modifizierten MIT-Lizenz als Open Source verfügbar. Als Entwickler kannst du Kimi K2.5 über Hugging Face herunterladen oder über Drittanbieter wie OpenRouter nutzen. Die Preise liegen dort bei $0,60 / $3,00 für je 1 Mio. Input / Output Tokens. Das ist deutlich günstiger als bei proprietären Alternativen:
Modell
Input-Preis
Output-Preis
Kimi-K2 (Thinking)
$0,60
$3,00
Claude Opus 4.5
$5,00
$25,00
Gemini 3 Pro
$2,00
$12,00
GPT-5.2
$1,75
$14,00
Dabei muss man jedoch einberechnen, wie viele Tokens die Modelle jeweils für das Erreichen eines Ziels benötigen. Durch den Compaction-Modus verbraucht Opus 4.5 beispielsweise im Schnitt deutlich weniger Tokens als z.B. GPT-5.2, was das Modell – trotz höherer Token-Preise – zum Erledigen von Aufgaben günstiger machen kann.
Vorteile
Open Source
Vollständige Transparenz und lokale Nutzung möglich
Günstiger Preis
Deutlich günstiger als vergleichbare proprietäre Modelle
Agent Swarm
Neuartige Multi-Agenten-Koordination für komplexe Aufgaben
Großes Kontextfenster
Bis zu 256K Tokens in der Thinking-Variante
Nachteile
Nicht vollständig verifiziert
Viele Benchmark-Angaben stammen nur vom Hersteller
Datenschutzfragen
Keine Informationen zu DSGVO-Konformität für EU-Nutzer
Junges Ökosystem
Weniger Integrationen und Community-Support als bei etablierten Anbietern
Einordnung: Mit Kimi-K2.5 schließen Chinesische Modelle auf
Die Veröffentlichung von Kimi K2.5 zeigt, dass chinesische KI-Unternehmen trotz US-Exportbeschränkungen für Rechenchips weiterhin konkurrenzfähige Modelle entwickeln können. Chinesische Modelle hinken aktuell ca. 3 Monate hinter den US-Modellen hinterher, das Risiko für US-Entwickler, dass sich diese Lücke schließen könnte, bleibt also ein realistisches Szenario. Die Open-Source-Strategie chinesischer Entwickler lässt sich inzwischen als bewusste Differenzierung gegenüber den geschlossenen Ökosystemen von OpenAI und Anthropic bewerten.
Ob Kimi K2.5 die Erwartungen erfüllt und auch wirklich von Usern genutzt wird, wird sich in den kommenden Wochen zeigen. Die Download-Zahlen auf Hugging Face und das große Interesse auf der Plattform X deuten zumindest auf eine starke Resonanz in der Entwickler-Community hin.
Für uns europäische Nutzer bleibt die Frage offen, inwiefern der politische Bias, der in chinesischen Modellen eintrainiert wird, ein Ausschlusskriterium sein könnte, oder ob dieser Punkt durch die Open Weights ausgeglichen wird.