Qwen3
Veröffentlichung
Juli 2025
Knowledge Cutoff
Juni 2025
Parameter
235 Mrd.
Modellfamilie
Qwen3
Apache 2.0
Features
Tools
Websuche, Bildgenerierung, Computer Use und MCP-Server.
Multimodalität
Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.
Finetuning
Finetuning des Modells ist aktuell nicht möglich.
Details zum Modell
Max. Input
262,14k Token
Max. Output
81,92k Token
Trainingsdaten
36.000 Mrd.
Parameter
235 Mrd.
Input Preis
$0.13
Output Preis
$0.60
Vokabular
151,94k
Dateigröße
437,90 GB
Qwen3 235B A22B Thinking 2507 Benchmark Scores
Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.
Technologie & Daten
Technische Spezifikationen
Architektur | Mixture-of-Experts Transformer |
---|---|
Input Kontextlänge | 262,14k |
Output Kontextlänge | 81,92k |
Tokenizer | Qwen3 BPE (ChatML) |
Besonderheiten
Besonderheit 1 | Thinking-only Modus |
---|---|
Besonderheit 2 | Erweiterbarer Kontext |
Besonderheit 3 | Agentic Tool-Use |
Versionen | 235B, 32B, 30B, 14B, 8B, 4B, 1.7B, 0.6B |
Vorteile & Nachteile
Vorteile
- Open Weight Modelle, lokal ausführbarDie gesamte Qwen 3 Modellfamilie wird komplett inklusive offener Gewichtungen veröffentlicht und kann beliebig nach-trainiert werden. Außerdem lassen sich die Qwen 3 Modelle über Apps wie Ollama oder LM Studio lokal und ohne Internetverbindung nutzen.
- Großzügige LizenzenMit Apache-2.0 gewährt Alibaba Entwicklern viel Spielraum für die kommerzielle Nutzung der Qwen 3 Modelle.
- Dynamischer "Thinking" ModusFür die größeren Qwen3-Modelle lassen sich verschiedene "Thinking" Stufen definieren, die die Qualität der Outputs verbessern.
- Starke Benchmark-Performances der kleinen ModelleInsbesondere die kleinen Modelle, rund um Qwen3-30B-A3B erzielen beeindruckende Ergebnisse, die in größeren Benchmarks mit Modellen wie DeepSeekV3 und GPT-4o mithalten können.
- Gutes Instruction FollowingNach ersten Einschätzungen scheinen die Qwen 3 Modelle gut im Instruction Following zu sein.
Nachteile
- Keine native MultimodalitätQwen 3 ist nativ keine multimodale Modellfamilie. Die Modelle lassen sich von Haus aus also nicht für Computer Vision o.ä. nutzen.
- Eingeschränktes KontextfensterJe nach Inferenz-Anbieter beträgt das native Kontextfenster von Qwen3 auch in den großen Modellen max. 262k Tokens.
Vergleiche Qwen3 235B A22B Thinking 2507 mit anderen LLMs
Vergleiche Qwen3 235B A22B Thinking 2507 mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.
Provider & APIs
Du kannst Alibaba Qwen3 235B A22B Thinking 2507 über die API folgender Anbieter nutzen.
Das Modell ist derzeit bei keinen Anbietern verfügbar.