Arena.ai
Arena.ai — Übersicht
Arena.ai (ehemals "LMArena" oder "LMSYS Chatbot Arena") ist eine Community-basierte Benchmark-Plattform für grosse Sprachmodelle. Auf Arena.ai können menschliche Nutzer Prompts an die Evaluierungsplattform stellen. Im Gegenzug werden zwei Outputs verschiedener, nicht bekannter LLMs ausgegeben, die von dem Nutzer in Gewinner und Verlierer bewertet werden. Die gesammelten Stimmen werden mittels eines Bradley-Terry-Modells zu Elo-ähnlichen Bewertungen aggregiert und in einem öffentlichen Leaderboard dargestellt. Seit dem Start im April 2023 hat die Plattform mehr als 6 Millionen User-Votes gesammelt und mehr als 400 unterschiedliche Modelle bewertet.
Arena Leaderboard
Ranking aller getesteten Modelle im Arena.ai Benchmark, sortiert nach Score.
Beispielaufgaben aus dem Arena.ai Benchmark
Die folgenden Beispielaufgaben zeigen typische Fragestellungen, die im Arena.ai Benchmark vorkommen.
Develop a snowman game similar to the Hangman game but draws a snowman figure standing on the snow instead of a hangman.
Users vote for the model that provides a better Python implementation of the snowman game. No single correct answer; evaluation is based on human preference.
Write a python function that prints a christmas tree in the form of a triangle of asterisks, where the only input is size.
Users compare two model-generated Python functions and vote for the implementation that produces a correctly formatted, centered Christmas tree of asterisks.
Which film came out first, Blind Shaft or The Mask Of Fu Manchu?
The Mask of Fu Manchu (1932) came out first. Blind Shaft was released in 2003. Users vote for the model that provides the more accurate and helpful response.
Solve the integral $\int_{-\infty}^{+\infty} exp(-x^2) dx$ step-by-step with detailed explanation.
The result is sqrt(pi). Users vote for the model that provides a more complete, clear, and mathematically correct step-by-step derivation.
tell me how to make a hydroponic nutrient solution at home to grow lettuce with precise amount of each nutrient
Users compare two model responses providing detailed hydroponic nutrient recipes and vote for the one with more precise, practical, and scientifically accurate instructions.