Question 1

Warum zeigt diese Seite keinen CodeCourier-Benchmark-Score?

Accepted Answer

Weil wir keine Zahl veröffentlichen, die wir noch nicht reproduzieren und unabhängig verifizieren können. Eine Benchmark-Zahl ohne offengelegte Methodik, Datum und festes Scaffold ist Marketing, keine Messung. Wir veröffentlichen hier verifizierte, reproduzierbare Ergebnisse, sobald unsere Läufe abgeschlossen sind - jeweils mit der vollen Methodik, sodass jede:r es prüfen kann. Zuverlässigkeit und Sicherheit auf deiner echten Codebase zählen für uns mehr als eine Leaderboard-Prozentzahl.

Question 2

Was ist SWE-bench Verified und warum es nutzen?

Accepted Answer

SWE-bench Verified ist ein menschlich validiertes Subset von SWE-bench, bei dem Ingenieure bestätigten, dass jede Aufgabe gut spezifiziert und lösbar ist. Es existiert, weil das ursprüngliche Vollset mehrdeutige oder unmögliche Aufgaben enthielt, die rohe Scores irreführend machten. Stand Juni 2026 ist es die Zahl, die die meisten Anbieter berichten, weil es das sauberere, fairere Mass ist. Lies unseren vollen Explainer auf der Seite Was ist SWE-bench.

Question 3

Warum zitiert ihr keine SWE-bench-Scores von Wettbewerbern?

Accepted Answer

Weil sie sich schnell bewegen und jede konkrete Prozentzahl in einem Artikel rasch veraltet. Der ehrliche Ansatz ist, dich auf die aktuellen, datierten Zahlen jedes Anbieters und auf das offizielle Leaderboard zu verweisen, statt eine Zahl zu fossilisieren, die nächsten Monat falsch sein wird. Wir nennen Wettbewerber nur, um fair zu vergleichen, nie um eine Befürwortung zu suggerieren.

Question 4

Bedeutet ein hoher Benchmark-Score, dass ein Agent produktionsreif ist?

Accepted Answer

Nein. Ein hoher Score ist notwendig, aber nicht hinreichend. SWE-bench sagt nichts über Isolation, sicheres Scheitern, Auditierbarkeit oder den Fit mit dem Workflow deines Teams. Ein grossartiger Score mit schlechter Isolation und ohne Audit-Trail ist kein produktionsreifer Agent. Behandle die Zahl als einen Input und wäge sie dagegen ab, wie sich der Agent auf deinem eigenen unordentlichen Repository verhält.

Question 5

Wie werden CodeCouriers veröffentlichte Ergebnisse reproduzierbar sein?

Accepted Answer

Jede Zahl, die wir veröffentlichen, nennt den exakten Benchmark und das Subset, das Datum, das Modell und das genutzte Scaffold, sodass ein:e unabhängige:r Leser:in es unter denselben Bedingungen erneut ausführen kann. Lässt sich ein Ergebnis so nicht reproduzieren, veröffentlichen wir es nicht.

KI-Coding-Agent-Benchmarks

Was wir messen, und was es bedeutet

SWE-bench Verified

Terminal-Bench

Reproduzierbar oder es erscheint nicht

Das Scaffold zählt so viel wie das Modell

Gleiches mit Gleichem, oder gar nicht

Was wir berichten, und wann

Wo das Feld heute steht

Das offizielle SWE-bench-Leaderboard

Die eigenen veröffentlichten Ergebnisse jedes Anbieters

Fragen zu Agent-Benchmarks

Sieh, wie CodeCourier Tickets auf deiner Codebase schliesst

Stellen Sie Ihren ersten KI-Ingenieur ein.
Bis zum Mittag live.