Gemini 3.1 Flash-Lite
Gemini 3.1 Flash-Lite Modell-Übersicht
Gemini 3.1 Flash-Lite ist ein kleines, schnelles und kostengünstiges LLM aus der Gemini 3.1 Modellfamilie. Wie auch das größere Gemini 3.1 Pro basiert Gemini 3.1 Flash-Lite auf der Gemini 3 Pro-Architektur. Es ist optimiert für häufig wiederholende Anwendungsfälle oder Aufgaben mit hohen Anforderungen an niedrige Latenzen. Im Vergleich zum Vorgänger Gemini 2.5 Flash-Lite ist 3.1 Flash-Lite ca. 2,5x so schnell um das erste Token zu generieren und hat insgesamt eine ca. 45 % höherere Output-Geschwindigkeit. Damit eignet sich Flash-Lite besonders gut für realtime Übersetzungen, schnelle, Klassifikationsaufgaben und den Einsatz in low-latency (Agenten-)Workflows.
Features
Tools
Websuche, Bildgenerierung, Computer Use und MCP-Server.
Multimodalität
Das Modell kann Text, Bilder, Audio und PDFs als Input verarbeiten.
Finetuning
Finetuning des Modells ist aktuell nicht möglich.
Details zum Modell
Gemini 3.1 Flash-Lite Benchmark Scores
Im KI-Kontext bezeichnet Performance die Leistungsfähigkeit eines Modells in Bereichen wie Sprachverständnis, Logik oder Programmierung – gemessen anhand standardisierter Benchmarks zur objektiven Vergleichbarkeit.
Technologie & Daten
Technische Spezifikationen
| Architektur | Transformer |
|---|---|
| Input Kontextlänge | 1,05 Mio. |
| Output Kontextlänge | 65,54k |
| Tokenizer | Google SentencePiece Tokenizer |
Besonderheiten
| Anpassbare Thinking Levels | Vier Reasoning-Stufen: Minimal, Low, Medium und High. |
|---|---|
| Search Grounding | Integrierte Google-Suche |
| Code Execution | Natives Ausführen von Code innerhalb der API-Umgebung. |
Vorteile & Nachteile
Vorteile
- Extrem kosteneffizientMit nur $0,25/ 1 Mio. Input- und $1,50 / Mio. Output-Tokens ist Gemini 3.1 Flash-Lite ca. 8x günstiger als Gemini 3.1 Pro und lässt sich für viele reale Anwendungsfälle nutzen.
- Hohe GeschwindigkeitLaut Angaben von Google DeepMind erreicht Gemini 3.1 Flash-Lite bis zu 363 Token pro Sekunde. Kombiniert mit der schnellen Time-to-First-Token Geschwindigkeit lässt sich das Modell damit hervorragend für Low-Latency-Apps verwenden.
- 1M Token KontextfensterMit bis zu 1 Million Token (multimodalem) Kontext kann Gemini 3.1 Flash-Lite große Kontexte verarbeiten.
- Starke multimodale Fähigkeiten3.1 Flash-Lite verarbeitet Text, Bilder, Audio, Video und PDFs. Dabei erreicht es in vielen Multimodal-Benchmarks starke Ergebnisse (VideoMMMU: 84,8 %, MMMU-Pro: 76,8 %).
Nachteile
- Preview-VersionWie von Google bereits bekannt, wird auch Gemini 3.1 Flash-Lite zunächst als Preview-Version veröffentlicht. Änderungen an der API oder der erwarteten Output-Qualität ist damit möglich.
- Nur bis zu 64k Text-OutputTrotz multimodaler Eingabe beschränkt sich die Ausgabe von Gemini 3.1 Flash-Lite auf eher niedrige 64k Token Text-Output.
- Proprietäres ModellDas Modell ist ausschließlich über Googles APIs nutzbar und kann nicht lokal betrieben werden. Auch Fine-Tuning von Gemini 3.1 Flash-Lite ist nicht möglich.
Vergleiche Gemini 3.1 Flash-Lite mit anderen LLMs
Vergleiche Gemini 3.1 Flash-Lite mit anderen Sprachmodellen anhand wichtiger Metriken wie Kontextgröße, Parameteranzahl, Preisen und Benchmark-Leistung.
Provider & APIs
Du kannst Google DeepMind Gemini 3.1 Flash-Lite über die API folgender Anbieter nutzen.