Alle AI-Trends
Direkt in dein Postfach
Erhalte exklusive AI-Tutorials, Praxistipps und KI-News direkt in dein Postfach.
*Mit deiner Anmeldung akzeptierst du unsere Datenschutzrichtlinien.
Jetzt neu bei Byte: Unser WhatsApp Channel 📱

Arena.ai

Veröffentlichung
April 2023
Bestes Modell
Unbekannt
Score-Bereich
Unbekannt
Modelle getestet
Unbekannt
Logik & SchlussfolgerungProgrammierungWissen & SpracheAnleitung & KreativitätMultimodalität
Mittel

Arena.ai — Übersicht

Arena.ai (ehemals "LMArena" oder "LMSYS Chatbot Arena") ist eine Community-basierte Benchmark-Plattform für grosse Sprachmodelle. Auf Arena.ai können menschliche Nutzer Prompts an die Evaluierungsplattform stellen. Im Gegenzug werden zwei Outputs verschiedener, nicht bekannter LLMs ausgegeben, die von dem Nutzer in Gewinner und Verlierer bewertet werden. Die gesammelten Stimmen werden mittels eines Bradley-Terry-Modells zu Elo-ähnlichen Bewertungen aggregiert und in einem öffentlichen Leaderboard dargestellt. Seit dem Start im April 2023 hat die Plattform mehr als 6 Millionen User-Votes gesammelt und mehr als 400 unterschiedliche Modelle bewertet.

Arena Leaderboard

Ranking aller getesteten Modelle im Arena.ai Benchmark, sortiert nach Score.

Beispielaufgaben aus dem Arena.ai Benchmark

Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im Arena.ai Benchmark vorkommen.

Develop a snowman game similar to the Hangman game but draws a snowman figure standing on the snow instead of a hangman.

Users vote for the model that provides a better Python implementation of the snowman game. No single correct answer; evaluation is based on human preference.

Write a python function that prints a christmas tree in the form of a triangle of asterisks, where the only input is size.

Users compare two model-generated Python functions and vote for the implementation that produces a correctly formatted, centered Christmas tree of asterisks.

Which film came out first, Blind Shaft or The Mask Of Fu Manchu?

The Mask of Fu Manchu (1932) came out first. Blind Shaft was released in 2003. Users vote for the model that provides the more accurate and helpful response.

Solve the integral $\int_{-\infty}^{+\infty} exp(-x^2) dx$ step-by-step with detailed explanation.

The result is sqrt(pi). Users vote for the model that provides a more complete, clear, and mathematically correct step-by-step derivation.

tell me how to make a hydroponic nutrient solution at home to grow lettuce with precise amount of each nutrient

Users compare two model responses providing detailed hydroponic nutrient recipes and vote for the one with more precise, practical, and scientifically accurate instructions.