Gemini 3.1 Flash-Lite Modell-Übersicht

Gemini 3.1 Flash-Lite ist ein kleines, schnelles und kostengünstiges LLM aus der Gemini 3.1 Modellfamilie. Wie auch das größere Gemini 3.1 Pro basiert Gemini 3.1 Flash-Lite auf der Gemini 3 Pro-Architektur. Es ist optimiert für häufig wiederholende Anwendungsfälle oder Aufgaben mit hohen Anforderungen an niedrige Latenzen. Im Vergleich zum Vorgänger Gemini 2.5 Flash-Lite ist 3.1 Flash-Lite ca. 2,5x so schnell um das erste Token zu generieren und hat insgesamt eine ca. 45 % höherere Output-Geschwindigkeit. Damit eignet sich Flash-Lite besonders gut für realtime Übersetzungen, schnelle, Klassifikationsaufgaben und den Einsatz in low-latency (Agenten-)Workflows.

API Dokumentation Vertex AI Docs Model Card Blog

Features

Tools

Websuche, Bildgenerierung, Computer Use und MCP-Server.

Multimodalität

Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.

Finetuning

Finetuning des Modells ist aktuell nicht möglich.

Details zum Modell

1,05 Mio. Token

65,54k Token

Unbekannt

$0.25

$1.50

Unbekannt

Gemini 3.1 Flash-Lite Benchmark Scores

Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.

Gemini 3.1 Flash-Lite Benchmark Übersicht

Wissen & Sprache

GPQA Diamond

Programmierung

LiveCodeBench

Gemini 3.1 Flash-Lite Performance im Vergleich zu anderen KI-Modellen

Benchmark	Gemini 3.1 Flash-Lite	Gemini 3.1 Pro	Gemma 4	Claude Sonnet 4.6	GPT-5.4	Claude Fable 5	MiniMax M3
GPQA DiamondWissen & Sprache	86,9 %	94,3 %	84,3 %	89,9 %

Ergebnisse in Benchmarks

Benchmark auswählen

Darstellung der Rohdaten für den Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Claude Mythos Preview	94,5 %
Gemini 3.1 Pro	94,3 %
Claude Opus 4.7	94,2 %
Claude Opus 4.8	93,6 %
GPT-5.5	93,6 %
Claude Fable 5	93,18 %
GPT-5.4	92,8 %
Claude Opus 4.6	91,3 %
Kimi K2.6	90,5 %
DeepSeek-V4-Pro (Preview)	90,1 %
Claude Sonnet 4.6	89,9 %
Muse Spark	89,5 %
Kimi K2.5 (Thinking)	87,6 %
Gemini 3.1 Flash-Lite	86,9 %
GLM-5.1	86,2 %
GLM-5	86 %
MiniMax M2.5	85,2 %
Gemma 4 31B	84,3 %
GPT-5.4 nano	82,83 %
GPT-5.4 mini	81,57 %

Vergleich von LLMs im Benchmark GPQA Diamond. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

Darstellung der Rohdaten für den Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.
Modell	Score
Gemini 3.1 Pro	2.887 %
DeepSeek-V4-Pro (Preview)	93,5 %
Kimi K2.6	89,6 %
DeepSeek-v3.2 Speciale	88,7 %
Kimi K2.5 (Thinking)	85 %
GLM-4.7	84,9 %
Qwen3.5-397B-A17B	83,6 %
DeepSeek-v3.2 Thinking	83,3 %
Kimi K2 Thinking	83,1 %
MiniMax-M2	83 %
GLM-4.6	82,8 %
Nemotron 3 Super	81,19 %
MiniMax M2.1	81 %
Muse Spark	80 %
Gemma 4 31B	80 %
GLM-4.5	72,9 %
Gemini 3.1 Flash-Lite	72 %
GLM-4.5 Air	70,7 %
Kimi K2 (0905)	53,7 %
Qwen3 30B A3B Instruct 2507	43,2 %

Vergleich von LLMs im Benchmark LiveCodeBench. Der niedrigste Score im Benchmark ist 0 % und der höchste Score ist 100 %.

‌
‌

Technologie & Daten

Technische Spezifikationen

Architektur	Transformer
Input Kontextlänge	1,05 Mio.
Output Kontextlänge	65,54k
Tokenizer	Google SentencePiece Tokenizer

Besonderheiten

Anpassbare Thinking Levels	Vier Reasoning-Stufen: Minimal, Low, Medium und High.
Search Grounding	Integrierte Google-Suche
Code Execution	Natives Ausführen von Code innerhalb der API-Umgebung.

Vorteile & Nachteile

Vorteile

Extrem kosteneffizient
Mit nur $0,25/ 1 Mio. Input- und $1,50 / Mio. Output-Tokens ist Gemini 3.1 Flash-Lite ca. 8x günstiger als Gemini 3.1 Pro und lässt sich für viele reale Anwendungsfälle nutzen.
Hohe Geschwindigkeit
Laut Angaben von Google DeepMind erreicht Gemini 3.1 Flash-Lite bis zu 363 Token pro Sekunde. Kombiniert mit der schnellen Time-to-First-Token Geschwindigkeit lässt sich das Modell damit hervorragend für Low-Latency-Apps verwenden.
1M Token Kontextfenster
Mit bis zu 1 Million Token (multimodalem) Kontext kann Gemini 3.1 Flash-Lite große Kontexte verarbeiten.
Starke multimodale Fähigkeiten
3.1 Flash-Lite verarbeitet Text, Bilder, Audio, Video und PDFs. Dabei erreicht es in vielen Multimodal-Benchmarks starke Ergebnisse (VideoMMMU: 84,8 %, MMMU-Pro: 76,8 %).

Nachteile

Preview-Version
Wie von Google bereits bekannt, wird auch Gemini 3.1 Flash-Lite zunächst als Preview-Version veröffentlicht. Änderungen an der API oder der erwarteten Output-Qualität ist damit möglich.
Nur bis zu 64k Text-Output
Trotz multimodaler Eingabe beschränkt sich die Ausgabe von Gemini 3.1 Flash-Lite auf eher niedrige 64k Token Text-Output.
Proprietäres Modell
Das Modell ist ausschließlich über Googles APIs nutzbar und kann nicht lokal betrieben werden. Auch Fine-Tuning von Gemini 3.1 Flash-Lite ist nicht möglich.

Vergleiche Gemini 3.1 Flash-Lite mit anderen LLMs

Vergleiche Gemini 3.1 Flash-Lite mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.

Entwickler	Modell⇅	Lizenz⇅	Parameter ⇅	Input-Tokens ⇅	Output-Tokens ⇅	Input-Preis ⇅	Output-Preis ⇅	Veröffentlichung
Anthropic	Claude Fable 5	Proprietär	Unbekannt	1 Mio.	128k	$10.00	$50.00	09.06.2026
MiniMax	MiniMax M3	Andere	Unbekannt	1 Mio.	512k	$0.60	$2.40	01.06.2026
Anthropic	Claude Opus 4.8	Proprietär	Unbekannt	1 Mio.	128k	$5.00	$25.00	28.05.2026
Google DeepMind	Gemini 3.5 Flash	Proprietär	Unbekannt	1,05 Mio.	65,54k	$1.50	$9.00	19.05.2026
DeepSeek AI	DeepSeek-V4-Pro	MIT	1.600 Mrd.	1 Mio.	384k	$1.74	$0.87	24.04.2026
OpenAI	GPT-5.5	Proprietär	Unbekannt	1,05 Mio.	128k	$5.00	$30.00	23.04.2026
Moonshot AI	Kimi K2.6	MIT	1.000 Mrd.	262,14k	262,14k	$0.75	$3.50	20.04.2026
Anthropic	Claude Opus 4.7	Proprietär	Unbekannt	1 Mio.	128k	$5.00	$25.00	16.04.2026
Meta AI	Muse Spark	Proprietär	Unbekannt	262k	unbekannt	unbekannt	unbekannt	08.04.2026
Google DeepMind	Gemini 3.1 Flash-Lite	Proprietär	Unbekannt	1,05 Mio.	65,54k	$0.25	$1.50	03.03.2026

‌
Alle Modelle vergleichen

Provider & APIs

Du kannst Google DeepMind Gemini 3.1 Flash-Lite über die API folgender Anbieter nutzen.

Das Modell ist derzeit bei keinen Anbietern verfügbar.

‌
‌
‌

‌
‌
‌
‌
‌
‌
‌
‌
‌
‌
‌