Benchmarks, ehrlich

KI-Coding-Agent-Benchmarks

Benchmarks sind ein echtes Signal für Fähigkeit - und leicht zu missbrauchen. Diese Seite erklärt, wie wir autonome Coding-Agenten messen, was die Standard-Benchmarks erfassen und was nicht, und wie CodeCourier Ergebnisse berichtet: nur Zahlen, die wir reproduzieren können und hinter denen wir stehen.

Methodik zuerst, keine Vanity-ScoresReproduzierbar oder nicht veröffentlicht
Wie wir benchmarken

Was wir messen, und was es bedeutet

Wir evaluieren gegen zwei öffentliche, anerkannte Benchmarks. Jeder testet etwas Echtes an der Fähigkeit eines Agents, Engineering-Arbeit zu leisten, und jeder hat Grenzen, die man verstehen sollte, bevor man irgendeinen Score liest.

SWE-bench Verified

Ein menschlich validierter Satz echter GitHub-Issues aus Open-Source-Projekten. Ein Agent erhält das Issue und das Repository und muss einen Patch produzieren; die Aufgabe gilt nur als gelöst, wenn die Änderung die projekteigenen Tests bestehen lässt. Er misst, ob ein Agent echte Bugs in echtem Code fixen kann, nicht ob er ein Quiz besteht - das Nächste, was das Feld an einer aussagekräftigen Prüfung für einen KI-Software-Engineer hat.

Terminal-Bench

Ein Benchmark für Agenten, die über ein Terminal arbeiten - Befehle ausführen, Output prüfen und in einer echten Shell-Umgebung auf ein Ziel hin iterieren. Er ergänzt SWE-bench, indem er operative, werkzeugnutzende Kompetenz testet statt nur Patch-Erzeugung, was für einen Agenten zählt, der seine eigene Arbeit aufsetzen, bauen und verifizieren muss.

Reproduzierbar oder es erscheint nicht

Jede Zahl, die wir veröffentlichen, kommt mit der exakten Methodik, dem Datum und dem genutzten Scaffold. Ist ein Ergebnis nicht reproduzierbar, steht es nicht auf dieser Seite.

Das Scaffold zählt so viel wie das Modell

Ein Score spiegelt ein ganzes System wider - wie der Agent Kontext sammelt, plant und iteriert - nicht nur das zugrundeliegende Modell. Zwei Produkte auf demselben Modell können sehr unterschiedlich scoren, eine Zahl beschreibt also ein System, kein Modell.

Gleiches mit Gleichem, oder gar nicht

Pass@1 versus mehrere Versuche, welches Subset, welches Datum, welches Tooling - alles ändert die Zahl. Wir vergleichen Gleiches mit Gleichem und benennen die Bedingungen, oder wir vergleichen nicht.

CodeCouriers Ergebnisse

Was wir berichten, und wann

Wir gehen bei Benchmarks bewusst vor. Statt mit einer Schlagzeilen-Prozentzahl zu führen, veröffentlichen wir hier verifizierte, reproduzierbare Ergebnisse, sobald unsere Läufe abgeschlossen sind - jeweils mit voller Methodik, Datum und Scaffold, sodass jede:r es prüfen kann. Dieser Abschnitt listet die Kategorien, gegen die wir berichten; die Zahlen landen hier, sobald sie gemessen und unabhängig verifizierbar sind.

Wir haben uns entschieden, keinen Benchmark-Score zu drucken, den wir noch nicht reproduzieren und unabhängig verifizieren können. Eine unverifizierte Zahl zu veröffentlichen wäre Marketing, keine Messung. Die Tabelle unten zeigt die Kategorien, gegen die wir berichten werden - jeder Status liest sich als Verifizierung ausstehend, und nichts hier ist ein gemessenes Ergebnis. Sobald eine Zahl reproduzierbar ist, erscheint sie hier mit ihrer vollen Methodik.

Benchmark
Was er misst
Status
SWE-bench Verified
Echte GitHub-Issues lösen, sodass die projekteigenen Tests bestehen
Unabhängige Verifizierung ausstehend
Terminal-Bench
Operative, werkzeugnutzende Kompetenz in einer echten Shell-Umgebung
Unabhängige Verifizierung ausstehend
Zuverlässigkeit auf echter Codebase
Tickets sicher auf privaten, unordentlichen Repositories schließen - der Benchmark, der für dich am meisten zählt
Unabhängige Verifizierung ausstehend

Diese Tabelle ist Methodik, keine gemessenen Ergebnisse. Die Zeilen sind die Kategorien, gegen die wir berichten; keine Zeile enthält einen Score. Verifizierte Zahlen werden hier ergänzt, sobald Läufe abgeschlossen sind und unabhängig reproduziert werden können.

Die breitere Landschaft

Wo das Feld heute steht

Fähigkeiten bewegen sich wöchentlich und Scores veralten schnell, daher frieren wir keine Wettbewerber-Prozentzahlen in diese Seite ein. Für aktuelle Stände geh zur Quelle: das offizielle Leaderboard und die eigenen datierten, veröffentlichten Zahlen jedes Anbieters.

Das offizielle SWE-bench-Leaderboard

Das kanonische öffentliche Ranking von Agenten auf SWE-bench und SWE-bench Verified, gepflegt von den Autoren des Benchmarks. Es ist der richtige Ort, um live aktuelle Stände zu sehen, statt einer Zahl, die in einen Artikel kopiert wurde und nächsten Monat falsch sein wird.

SWE-bench-Leaderboard öffnen

Die eigenen veröffentlichten Ergebnisse jedes Anbieters

Für einen bestimmten Agenten - Devin, Claude Code, OpenAI Codex, Cursor, GitHub Copilot, OpenHands und andere - prüfe die Seite des jeweiligen Anbieters auf dessen aktuellste, datierte Zahlen und Methodik. Wir nennen Wettbewerber nur, um fair zu vergleichen, und wir zitieren keine Prozentzahlen, die wir nicht verifizieren können.

Stand Juni 2026. Behandle jede Benchmark-Zahl - hier oder anderswo - als datierte Momentaufnahme und prüfe das Live-Leaderboard und die Seite jedes Anbieters auf aktuelle Zahlen.

FAQ

Fragen zu Agent-Benchmarks

Warum zeigt diese Seite keinen CodeCourier-Benchmark-Score?
Weil wir keine Zahl veröffentlichen, die wir noch nicht reproduzieren und unabhängig verifizieren können. Eine Benchmark-Zahl ohne offengelegte Methodik, Datum und festes Scaffold ist Marketing, keine Messung. Wir veröffentlichen hier verifizierte, reproduzierbare Ergebnisse, sobald unsere Läufe abgeschlossen sind - jeweils mit der vollen Methodik, sodass jede:r es prüfen kann. Zuverlässigkeit und Sicherheit auf deiner echten Codebase zählen für uns mehr als eine Leaderboard-Prozentzahl.
Was ist SWE-bench Verified und warum es nutzen?
SWE-bench Verified ist ein menschlich validiertes Subset von SWE-bench, bei dem Ingenieure bestätigten, dass jede Aufgabe gut spezifiziert und lösbar ist. Es existiert, weil das ursprüngliche Vollset mehrdeutige oder unmögliche Aufgaben enthielt, die rohe Scores irreführend machten. Stand Juni 2026 ist es die Zahl, die die meisten Anbieter berichten, weil es das sauberere, fairere Maß ist. Lies unseren vollen Explainer auf der Seite Was ist SWE-bench.
Warum zitiert ihr keine SWE-bench-Scores von Wettbewerbern?
Weil sie sich schnell bewegen und jede konkrete Prozentzahl in einem Artikel rasch veraltet. Der ehrliche Ansatz ist, dich auf die aktuellen, datierten Zahlen jedes Anbieters und auf das offizielle Leaderboard zu verweisen, statt eine Zahl zu fossilisieren, die nächsten Monat falsch sein wird. Wir nennen Wettbewerber nur, um fair zu vergleichen, nie um eine Befürwortung zu suggerieren.
Bedeutet ein hoher Benchmark-Score, dass ein Agent produktionsreif ist?
Nein. Ein hoher Score ist notwendig, aber nicht hinreichend. SWE-bench sagt nichts über Isolation, sicheres Scheitern, Auditierbarkeit oder den Fit mit dem Workflow deines Teams. Ein großartiger Score mit schlechter Isolation und ohne Audit-Trail ist kein produktionsreifer Agent. Behandle die Zahl als einen Input und wäge sie dagegen ab, wie sich der Agent auf deinem eigenen unordentlichen Repository verhält.
Wie werden CodeCouriers veröffentlichte Ergebnisse reproduzierbar sein?
Jede Zahl, die wir veröffentlichen, nennt den exakten Benchmark und das Subset, das Datum, das Modell und das genutzte Scaffold, sodass ein:e unabhängige:r Leser:in es unter denselben Bedingungen erneut ausführen kann. Lässt sich ein Ergebnis so nicht reproduzieren, veröffentlichen wir es nicht.
Jenseits des Leaderboards

Sieh, wie CodeCourier Tickets auf deiner Codebase schließt

14 Tage kostenlos · keine Kreditkarte

Stellen Sie Ihren ersten KI-Ingenieur ein.
Bis zum Mittag live.

5 Minuten Onboarding. Erster PR innerhalb einer Stunde. Jederzeit kündbar.