Alle AI-Trends
Direkt in dein Postfach
Erhalte exklusive AI-Tutorials, Praxistipps und KI-News direkt in dein Postfach.
*Mit deiner Anmeldung akzeptierst du unsere Datenschutzrichtlinien.
Jetzt neu bei Byte: Unser WhatsApp Channel 📱

Terminal-Bench 2.1

Veröffentlichung
Januar 2026
Bestes Modell
Score-Bereich
0 – 100 %
Modelle getestet
4
ProgrammierungAgentische Aufgaben
Experte

Terminal-Bench 2.1 — Übersicht

Terminal-Bench 2.1 ist ein "Agentic-Benchmark" mit 89 schwer lösbaren Aufgaben aus realen, containerisierten Umgebungen. Jede Aufgabe besitzt eine eigene Docker-Umgebung, eine von Menschen geschriebene Referenzlösung und deterministische Tests, die den finalen Zustand der Lösung prüfen (Outcome-basierte pass@1-Bewertung). Getestet wird, wie zuverlässig autonome KI-Agenten echte End-to-End-Aufgaben aus den Bereichen Software-Development, Systemadministration, Machine Learning und Cybersecurity im Terminal selbstständig abschließen können. Version 2.1 ist eine Überarbeitung von Terminal-Bench 2.0, bei der rund 28 der 89 Aufgaben (ca. 30 %) ausgebessert wurden, um Bugs, fehlerhafte Verifier und Reward-Hacking-Schwachstellen zu beheben. v2.1 hat also keinen neuen Datensatz im Vergleich zu v2.0.

Terminal-Bench 2.1 Leaderboard

Ranking aller getesteten Modelle im Terminal-Bench 2.1 Benchmark, sortiert nach Score.



Beispielaufgaben aus dem Terminal-Bench 2.1 Benchmark

Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im Terminal-Bench 2.1 Benchmark vorkommen.

Set up an Nginx web server with advanced request logging and custom configurations, including installing the Nginx web server.

Nginx wird installiert und mit der geforderten erweiterten Request-Logging- und benutzerdefinierten Konfiguration eingerichtet; die deterministischen Tests prüfen den laufenden Server und das korrekte Logging-Verhalten.

Create a python package called vectorops, then build this package and set up a pypi server on port 8080 locally which also hosts this package.

Das Paket 'vectorops' wird erstellt und gebaut, und ein lokaler PyPI-Server auf Port 8080 hostet das Paket erfolgreich (durch die Tests installier-/abrufbar).

Fix the incomplete proof of addition commutativity in the file plus_comm.v, which contains a partial Coq proof that needs to be completed.

Der Coq-Beweis der Kommutativität der Addition in plus_comm.v wird vervollständigt und vom Coq-Compiler fehlerfrei verifiziert.

Write a function to parallelize n asynchronous jobs and properly execute each job's cleanup code on keyboard interrupt.

Eine Funktion parallelisiert n asynchrone Jobs und führt bei einem Keyboard-Interrupt (SIGINT) zuverlässig den jeweiligen Cleanup-Code jedes Jobs aus.

Rewrite a given legacy COBOL program in Python, preserving its behavior.

Die Python-Portierung erzeugt für alle Test-Eingaben identische Ausgaben wie das ursprüngliche COBOL-Programm (geprüft über identische Input-Output-Mappings).