Gemini 3.5 Flash Modell-Übersicht

Gemini 3.5 Flash wurde als erstes Modell der Gemini-3.5-Familie von Google DeepMind am 19.05.2026 vorgestellt. Gemini 3.5 Flash erreicht beinahe die Reasoning- und Coding-Kapazitäten von der großen Gemini 3.1 Pro Version, ist dabei aber deutlich günstiger und schneller. Das Modell wurde für das Coding und den Einsatz als KI-Agent ausgelegt und überzeugt v.a. durch das gute Preis- / Leistungsverhältnis.

Playground API Dokumentation System Card Blog

Features

Tools

Websuche, Bildgenerierung, Computer Use und MCP-Server.

Multimodalität

Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.

Finetuning

Finetuning des Modells ist aktuell nicht möglich.

Details zum Modell

1,05 Mio. Token

65,54k Token

Unbekannt

1,50 $

9,00 $

Unbekannt

Gemini 3.5 Flash Benchmark Scores

Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.

Gemini 3.5 Flash Benchmark Übersicht

Gemini 3.5 Flash Performance im Vergleich zu anderen KI-Modellen

Benchmark	Gemini 3.5 Flash	Gemma 4	DeepSeek-V4-Pro	Claude Opus 4.8	Kimi K3	Inkling	Muse Spark 1.1
ARC-AGI-2Logik & Schlussfolgerung	72,1 %	—	—	—	—	—

Ergebnisse in Benchmarks

Benchmark auswählen

Darstellung der Rohdaten für den Benchmark ARC-AGI-2. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.5	85 %
Gemini 3.1 Pro	77,1 %
Gemini 3.5 Flash	72,1 %
Claude Opus 4.6	68,8 %
GPT-5.6 Sol	67,1 %
Claude Sonnet 4.6	58,3 %
GPT-5.2 Pro	54,2 %
GPT-5.2	52,9 %
Gemini 3 Deep Think	45,1 %
Muse Spark	42,5 %
Claude Opus 4.5	37,6 %
GPT-5.6 Terra	37,5 %
Gemini 3 Pro	31,1 %
Grok-4	15,9 %
GPT-5.6 Luna	7,4 %

Vergleich von LLMs im Benchmark ARC-AGI-2. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Artificial Analysis Intelligence Index. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Fable 5	65 %
Claude Opus 4.8	61 %
GPT-5.6 Sol	58,9 %
Kimi K3	57 %
GPT-5.6 Terra	55 %
Gemini 3.5 Flash	55 %
Grok 4.5	53,8 %
GPT-5.6 Luna	51,2 %
MiniMax M2.7	50 %
DeepSeek-V4-Pro (Preview)	44 %
Inkling	41 %

Vergleich von LLMs im Benchmark Artificial Analysis Intelligence Index. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark GDPval-AA. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Fable 5	1.932 %
Claude Opus 4.8	1.890 %
GPT-5.6 Sol	1.747,8 %
Gemini 3.5 Flash	1.656 %
Claude Sonnet 5	1.618 %
GPT-5.6 Terra	1.593 %
GPT-5.6 Luna	1.591,8 %
DeepSeek-V4-Pro (Preview)	1.554 %
Grok 4.5	1.543 %
MiniMax M2.7	1.495 %
Muse Spark	1.444 %
Muse Spark 1.1	1.381 %
Inkling	1.238 %

Vergleich von LLMs im Benchmark GDPval-AA. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Humanity's Last Exam. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	56,8 %
Muse Spark 1.1	52,2 %
Fugu Ultra	50 %
Claude Opus 4.8	49,8 %
GPT-5.6 Sol	47,2 %
Claude Opus 4.7	46,9 %
Kimi K3	43,5 %
Claude Sonnet 5	43,2 %
Muse Spark	42,8 %
GPT-5.6 Terra	41,8 %
GPT-5.5	41,4 %
GLM-5.2	40,5 %
Grok 4.5	40,3 %
Gemini 3.5 Flash	40,2 %
DeepSeek-V4-Pro (Preview)	37,7 %
Kimi K2.6	34,7 %
GLM-5.1	31 %
Inkling	29,7 %
Gemma 4 31B	19,5 %
GPT-5.4 mini	18,32 %

Vergleich von LLMs im Benchmark Humanity's Last Exam. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark MCP-Atlas. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Muse Spark 1.1	88,1 %
Kimi K3	84,2 %
Gemini 3.5 Flash	83,6 %
Claude Fable 5	83,3 %
Claude Opus 4.8	82,2 %
Claude Opus 4.7	77,3 %
GLM-5.2	76,8 %
GPT-5.5	75,3 %
MiniMax-M3	74,2 %
Inkling	74,1 %
DeepSeek-V4-Pro (Preview)	73,6 %
GLM-5.1	71,8 %
MiniMax M2.7	49,4 %

Vergleich von LLMs im Benchmark MCP-Atlas. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark MMMU-Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Fable 5	89,31 %
Gemini 3.5 Flash	83,6 %
GPT-5.6 Sol	83 %
Kimi K3	81,6 %
GPT-5.5	81,2 %
GPT-5.6 Terra	80,7 %
Grok 4.5	80,4 %
Muse Spark	80,4 %
Kimi K2.6	79,4 %
GPT-5.6 Luna	78,4 %
MiniMax-M3	78,1 %
Gemma 4 31B	76,9 %
Inkling	73,5 %

Vergleich von LLMs im Benchmark MMMU-Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark MRCR v2. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Fugu Ultra	93,6 %
GPT-5.6 Sol	91,5 %
GPT-5.6 Terra	89,6 %
Gemini 3.5 Flash	77,3 %
Gemma 4 31B	66,4 %
Muse Spark 1.1	54,1 %
GPT-5.6 Luna	41,3 %

Vergleich von LLMs im Benchmark MRCR v2. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark OSWorld-Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Fable 5	85 %
Claude Opus 4.8	83,4 %
Claude Sonnet 5	81,2 %
Muse Spark 1.1	80,8 %
Claude Mythos Preview	79,6 %
GPT-5.5	78,7 %
Gemini 3.5 Flash	78,4 %
Claude Opus 4.7	78 %
GPT-5.4	75 %
Kimi K2.6	73,1 %
Claude Opus 4.6	72,7 %
Claude Sonnet 4.6	72,5 %
MiniMax-M3	70,06 %
Claude Opus 4.5	66,3 %
GPT-5.3-Codex	64,7 %
Claude Haiku 4.5	50,7 %
GPT-5.4 mini	42 %

Vergleich von LLMs im Benchmark OSWorld-Verified. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark SWE-bench Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Fable 5	80 %
Claude Mythos Preview	77,8 %
Fugu Ultra	73,7 %
Claude Opus 4.8	69,2 %
Grok 4.5	64,7 %
GPT-5.6 Sol	64,6 %
Claude Opus 4.7	64,3 %
GPT-5.6 Terra	63,4 %
Claude Sonnet 5	63,2 %
GPT-5.6 Luna	62,7 %
GLM-5.2	62,1 %
Muse Spark 1.1	61,5 %
MiniMax-M3	59 %
GPT-5.5	58,6 %
Kimi K2.6	58,6 %
GLM-5.1	58,4 %
DeepSeek-V4-Pro (Preview)	55,4 %
Gemini 3.5 Flash	55,1 %
Inkling	54,3 %
Muse Spark	52,4 %

Vergleich von LLMs im Benchmark SWE-bench Pro. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark Terminal-Bench 2.1. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
GPT-5.6 Sol	88,8 %
Kimi K3	88,3 %
GPT-5.6 Terra	87,4 %
GPT-5.6 Luna	84,7 %
Claude Fable 5	84,3 %
Grok 4.5	83,3 %
GLM-5.2	82,7 %
Fugu Ultra	82,1 %
Claude Sonnet 5	80,4 %
Muse Spark 1.1	80 %
Gemini 3.5 Flash	76,2 %
Claude Opus 4.8	74,6 %
MiniMax-M3	66 %
Inkling	63,8 %
MiniMax M2.7	51,1 %

Vergleich von LLMs im Benchmark Terminal-Bench 2.1. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

‌
‌

Technologie & Daten

Technische Spezifikationen

Architektur	Multimodaler Transformer
Input Kontextlänge	1,05 Mio.
Output Kontextlänge	65,54k
Tokenizer	Proprietärer Gemini Tokenizer

Besonderheiten

Dynamic Thinking	Konfigurierbares Reasoning-System
Combined Tool Use	Mehrere Tools in einer Anfrage, inkl. Google Search, Google Maps, File Search, Code Execution etc.

Vorteile & Nachteile

Vorteile

Starke Ergebnisse in Agentic Benchmarks
Gemini 3.5 Flash erreicht in Agentischen Benchmarks sehr gute Ergebnisse. 83,6% in MCP Atlas, 76,2% auf Terminal-Bench 2.1 und 1656 Elo in GDPval-AA. Übertrifft Gemini-3.1 Pro also deutlich, trotz der kleineren Größe.
Sehr hohe Geschwindigkeit
Gemini 3.5 Flash ist bis zu 4x schneller als vergleichbare Frontier-Modelle, was den Token-Output pro Sekunde angeht.
Sehr gutes Preis- / Leistungsverhältnis
Mit $1.50/$9.00 pro 1 Mio. Tokens ist Gemini 3.5 Flash rund 40% günstiger als Gemini 3.1 Pro und ca. 66% günstiger als GPT-5.5. Context Caching reduziert den Preis für betroffene Inputs um weitere 90%.
Großes Kontextfenster
Mit 1 Mio. Tokens maximalem Kontextfenster übertrifft Gemini 3.5 Flash Modelle vermutlich ähnlicher Größe, wie Claude Sonnet 4.6, um ein Weites.

Nachteile

Schwächer bei reiner Long-Context-Retrieval & Reasoning
Long-Context-Retrieval Benchmarks wie MRCR v2 zeigen die Schwächen des kleineren Modells auf. Mit 1 Mio. Kontextfenster erreicht Gemini 3.5 Flash nur 26,6%, bei 128k Kontextfenster 77,3% (vs. 84,9% bei Gemini 3.1 Pro). Auch bei reinen Reasoning-Benchmarks wie GPQA Diamond und Humanity's Last Exam (40,2%) führt weiterhin Gemini 3.1 Pro.
Preisanstieg im Vergleich zu Gemini 3.0 Flash
Mit $1.50/$9.00 rund 3x teurer als Gemini 3 Flash (Preview). Ähnliche Preissteigerungen konnten auch bei OpenAI und Anthropic beobachtet werden, allerdings nicht in dieser Höhe.
Viele Tokens zum Lösen von Aufgaben notwendig
Gemini 3.5 Flash benötigt vergleichsweise viele Output-Tokens (ca. 73 Mio. im AA Intelligence-Index-Benchmark vs. ~35 Mio. Durchschnitt), was letztendlich zu höheren Gesamtkosten bei komplexeren Aufgaben führt.
Proprietäres KI-Modell ohne Open Weights
Wie andere Modelle aus der Gemini-Reihe auch, hat Google DeepMind keine Weights für 3.5-Flash veröffentlicht. Schade, da das Modell sicherlich für Fine-Tuning interessant gewesen wäre. Als Alternativen kann man auf Gemma 4 (kleineres Modell) oder Minimax-M3 zurückgreifen.

Vergleiche Gemini 3.5 Flash mit anderen LLMs

Vergleiche Gemini 3.5 Flash mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.

Entwickler	Modell⇅	Lizenz⇅	Parameter ⇅	Input-Tokens ⇅	Output-Tokens ⇅	Input-Preis ⇅	Output-Preis ⇅	Veröffentlichung
Moonshot AI	Kimi K3	Unbekannt	2.800 Mrd.	1,05 Mio.	131,07k	3,00 $	15,00 $	16.07.2026
Thinking Machines Lab	Inkling	Apache 2.0	975 Mrd.	1 Mio.	256k	1,00 $	4,05 $	15.07.2026
OpenAI	GPT 5.6 Sol	Proprietär	Unbekannt	1,05 Mio.	128k	5,00 $	30,00 $	09.07.2026
OpenAI	GPT 5.6 Terra	Proprietär	Unbekannt	1,05 Mio.	128k	2,50 $	15,00 $	09.07.2026
OpenAI	GPT 5.6 Luna	Proprietär	Unbekannt	1,05 Mio.	128k	1,00 $	6,00 $	09.07.2026
Meta AI	Muse Spark 1.1	Proprietär	Unbekannt	1,05 Mio.	1,05 Mio.	1,25 $	4,25 $	09.07.2026
xAI	Grok 4.5	Proprietär	Unbekannt	500k	500k	2,00 $	6,00 $	08.07.2026
Anthropic	Claude Sonnet 5	Proprietär	Unbekannt	1 Mio.	128k	3,00 $	15,00 $	30.06.2026
Sakana AI	Fugu Ultra	Proprietär	7 Mrd.	1 Mio.	1 Mio.	5,00 $	30,00 $	21.06.2026
Google DeepMind	Gemini 3.5 Flash	Proprietär	Unbekannt	1,05 Mio.	65,54k	1,50 $	9,00 $	19.05.2026

‌
Alle Modelle vergleichen

Provider & APIs

Du kannst Google DeepMind Gemini 3.5 Flash über die API folgender Anbieter nutzen.

Das Modell ist derzeit bei keinen Anbietern verfügbar.

‌
‌
‌

‌
‌
‌
‌
‌
‌
‌
‌
‌
‌
‌

Gemini 3.5 Flash Modell-Übersicht

Features

Tools

Multimodalität

Finetuning

Details zum Modell

Gemini 3.5 Flash Benchmark Scores

Gemini 3.5 Flash Benchmark Übersicht

Wissen & Sprache

Logik & Schlussfolgerung

Programmierung

Multimodalität

Agentische Aufgaben

Gemini 3.5 Flash Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks

Technologie & Daten

Technische Spezifikationen

Besonderheiten

Vorteile & Nachteile

Vorteile

Nachteile

Vergleiche Gemini 3.5 Flash mit anderen LLMs

Provider & APIs

Gemini 3.5 Flash Benchmark Übersicht

Wissen & Sprache

Logik & Schlussfolgerung

Programmierung

Multimodalität

Agentische Aufgaben

Gemini 3.5 Flash Performance im Vergleich zu anderen KI-Modellen

Ergebnisse in Benchmarks