SWE-bench ist ein Benchmark, der testet, ob KI-Systeme echte Software-Engineering-Issues lösen können. Er nimmt tausende tatsächlicher GitHub-Issues und ihrer zugehörigen Fixes aus Open-Source-Projekten, übergibt dem Modell das Issue und das Repository und prüft, ob der vorgeschlagene Patch des Modells die bestehenden Tests des Projekts bestehen lässt. Kurz: er misst, ob eine KI echte Bugs in echtem Code fixen kann, nicht ob sie ein Quiz besteht. Das macht ihn zum Nächsten, was das Feld an einer aussagekräftigen Prüfung für einen KI-Software-Engineer hat.
Dieser Guide erklärt, was SWE-bench misst, was SWE-bench Verified ist und warum es existiert, wie man die Scores liest, ohne sich täuschen zu lassen, und - genauso wichtig - was der Benchmark nicht erfasst. Es ist ein grundlegender Eintrag in unserem Glossar und die konzeptionelle Basis für eine künftige Benchmarks-Seite.
Was SWE-bench tatsächlich misst
Ältere KI-Coding-Benchmarks testeten isolierte Funktionen: "schreibe eine Funktion, die X tut." Echtes Engineering ist nicht so. Echtes Engineering ist "hier ist ein Bug-Report und eine große bestehende Codebase - finde heraus, wo das Problem liegt, und fixe es, ohne etwas anderes kaputtzumachen."
SWE-bench wurde gebaut, um genau dieses schwerere Ding zu testen. Jede Aufgabe gibt dem Modell:
- Ein echtes GitHub-Issue, das ein Problem beschreibt.
- Das volle Repository beim Commit vor dem Fix.
- Die bestehende Test-Suite des Projekts.
Das Modell muss einen Patch produzieren. Der Patch wird dann durch Ausführen der Tests bewertet: eine Aufgabe gilt nur als gelöst, wenn die Änderung des Modells die relevanten Tests bestehen lässt, ohne den Rest kaputtzumachen. Deshalb wird SWE-bench respektiert - Erfolg wird durch tatsächliche Testausführung verifiziert, nicht dadurch, dass ein Mensch rät, ob die Antwort plausibel aussieht. Es ist das Benchmark-Pendant der echten Issue-to-PR-Schleife: Issue lesen, Code ändern, mit Tests beweisen.
SWE-bench Verified: das sauberere Subset
Das ursprüngliche SWE-bench hatte ein Problem. Einige seiner Aufgaben waren mehrdeutig, unzureichend spezifiziert oder faktisch unmöglich - der Test würde nie bestehen, egal wie gut der Fix war, oder das Issue enthielt nicht genug Information, um es zu lösen. Das machte rohe Scores irreführend, weil ein Modell für Aufgaben bestraft werden konnte, die niemand lösen konnte.
SWE-bench Verified wurde geschaffen, um das zu beheben. Es ist ein kuratiertes, menschlich validiertes Subset - einige hundert Aufgaben - bei dem Ingenieure bestätigten, dass jedes Problem gut spezifiziert und wirklich lösbar ist. Stand Juni 2026 ist SWE-bench Verified die Zahl, die die meisten Anbieter und Forscher berichten, gerade weil es das fairere, sauberere Maß ist. Wenn du heute eine "SWE-bench"-Prozentzahl zitiert siehst, meint sie fast immer SWE-bench Verified - und wenn nicht steht, welche, ist das ein Grund nachzufragen.
Es gibt auch verwandte und erweiterte Benchmarks im Ökosystem (multimodale und mehrsprachige Varianten und andere Agent-Benchmarks wie Terminal-Bench), was zeigt, wie schnell sich dieser Evaluations-Bereich entwickelt. Das Prinzip ist dasselbe: Agenten an realistischen, verifizierbaren Aufgaben testen.
Wie man SWE-bench-Scores liest, ohne getäuscht zu werden
Das ist der wichtigste Teil, weil Benchmark-Zahlen leicht missbraucht werden.
- Scores veralten schnell. Fähigkeiten sind stark gestiegen und steigen weiter. Jede konkrete Prozentzahl in jedem Artikel - auch diesem - ist eine Momentaufnahme. Behandle veröffentlichte Zahlen als Richtwert und prüfe für aktuelle Zahlen die Seite des Anbieters.
- Das Scaffold zählt so viel wie das Modell. Ein Score hängt nicht nur vom zugrundeliegenden Modell ab, sondern vom Agent-"Scaffold" drumherum - wie es Kontext sammelt, plant und iteriert. Zwei Produkte mit demselben Modell können sehr unterschiedlich scoren. Eine SWE-bench-Zahl beschreibt also ein System, nicht nur ein Modell.
- Bedingungen variieren. Pass@1 versus mehrere Versuche, welches Subset, welches Datum, welches Tooling - alles ändert die Zahl. Vergleiche Gleiches mit Gleichem, oder vergleiche nicht.
- Ein hoher Score ist notwendig, nicht hinreichend. Er sagt dir, dass ein Agent echte Fixes kann. Er sagt nicht, dass er auf deiner Codebase zuverlässig, sicher oder auditierbar sein wird.
Deshalb zitieren wir in unserem Content bewusst keine konkreten Wettbewerber-SWE-bench-Prozentzahlen. Der ehrliche Ansatz ist, dich auf die aktuellen, datierten Zahlen jedes Anbieters zu verweisen, statt eine Zahl zu fossilisieren, die nächsten Monat falsch sein wird. Das ist dasselbe Ehrlichkeitsprinzip, das wir über unser Ranking der 15 besten KI-Coding-Agenten hinweg anwenden.
Was SWE-bench nicht misst
Ein Benchmark ist eine Taschenlampe, kein Flutlicht. SWE-bench Verified beleuchtet eine wichtige Sache - kann der Agent echte Issues fixen - und lässt vieles im Dunkeln. Was er nicht erfasst, ist oft genau das, was entscheidet, ob ein Agent in Produktion nutzbar ist:
- Isolation und Sicherheit. Läuft der Agent in einer wegwerfbaren Code-Sandbox oder gegen deine Live-Systeme? SWE-bench sagt dazu nichts.
- Sicheres Scheitern. Wenn der Agent eine Aufgabe nicht lösen kann, eskaliert er ehrlich oder mergt er selbstbewusst etwas Falsches? Diese Zuverlässigkeitseigenschaft ist für einen Pass/Fail-Score unsichtbar, aber in Produktion kritisch.
- Auditierbarkeit. Kann ein Mensch sehen, was der Agent getan hat und warum? Ein Leaderboard interessiert das nicht; ein Team schon.
- Workflow-Fit. Issue-getriebene Aufnahme, Review-Gates, Analytics, Integration mit deinem Tracker und deiner CI - nichts davon wird gebenchmarkt, doch all das bestimmt den realen Wert.
- Deine Codebase. SWE-bench nutzt bestimmte Open-Source-Projekte. Dein unordentliches, privates, eigenwilliges Repository ist der einzige Benchmark, der für dich wirklich zählt.
Deshalb ist ein großartiger SWE-bench-Score mit schlechter Isolation und ohne Audit-Trail kein produktionsreifer Agent. Der Score ist ein Input; Zuverlässigkeit, Sicherheit und Fit sind der Rest. CodeCouriers Design lehnt sich stark auf die Teile, die Benchmarks übersehen: jeder Lauf ist in einer Sandbox isoliert, der Agent scheitert sicher und eskaliert, und die Arbeit ist über Issue Sessions und Analytics auditierbar.
Wie CodeCourier über Benchmarks denkt
Unsere Haltung ist einfach und, wie wir finden, die ehrliche. Benchmarks wie SWE-bench Verified sind ein nützliches, echtes Signal für Fähigkeit, und wir nehmen sie als einen Input ernst. Aber wir machen daraus keine Marketing-Trophäe. Wo wir Zahlen berichten, nennen wir die exakte Methodik, das Datum und das Scaffold, sodass sie reproduzierbar sind - und wir veröffentlichen keine Zahlen, die wir nicht selbst gemessen haben oder hinter denen wir nicht stehen können. Eine dedizierte, transparent berichtete Benchmarks-Seite ist auf unserer Roadmap, auf diesem Prinzip gebaut.
Der tiefere Punkt: was dir wichtig sein sollte, ist nicht, wo ein Agent auf einem Leaderboard sitzt, sondern ob er die Tickets, die du ihm gibst, auf deiner Codebase zuverlässig und sicher schließt. Das ist die Messlatte, an der wir uns selbst messen.
Um weiterzugehen, sieh, wie die Schleife funktioniert, in Was ist ein KI-Software-Engineer, die Sicherheitsschicht in Was ist eine Code-Sandbox und die volle Landschaft in unserem Ranking der 15 besten KI-Coding-Agenten. Um Optionen zu vergleichen, besuche den Vergleichs-Hub; wenn du bereit bist, sieh dir die Preise an.
FAQ: Was ist SWE-bench
Was ist SWE-bench?
SWE-bench ist ein Benchmark, der testet, ob KI-Systeme echte Software-Engineering-Issues lösen können. Er zieht tausende tatsächlicher GitHub-Issues und ihrer zugehörigen Fixes aus Open-Source-Python-Projekten, gibt dem Modell das Issue und das Repository und prüft, ob der Patch des Modells die Tests des Projekts bestehen lässt. Er misst echte Bugfix-Fähigkeit, kein Multiple-Choice-Trivia.
Was ist SWE-bench Verified?
SWE-bench Verified ist ein kuratiertes, menschlich validiertes Subset von SWE-bench (einige hundert Aufgaben), bei dem Ingenieure bestätigten, dass jedes Problem gut spezifiziert und lösbar ist. Es entstand, weil das ursprüngliche Vollset einige mehrdeutige oder unmögliche Aufgaben enthielt, die Scores irreführend machten. Stand Juni 2026 ist SWE-bench Verified die Zahl, die die meisten Anbieter berichten, weil es das sauberere, fairere Maß ist.
Was ist 2026 ein guter SWE-bench-Score?
Scores sind schnell gestiegen und variieren je nach Modell, Scaffold und Datum, sodass jede konkrete Zahl schnell veraltet. Die ehrliche Antwort ist, veröffentlichte Prozentzahlen als Richtwert zu behandeln und für aktuelle Zahlen die Seite jedes Anbieters zu prüfen, statt einer Zahl in einem Artikel zu vertrauen. Wichtiger als die Schlagzeilen-Prozentzahl ist, wie der Score zustande kam und ob er die echte Zuverlässigkeit des Agents widerspiegelt.
Sind SWE-bench-Scores verlässlich für die Wahl eines KI-Coding-Agenten?
Teilweise. Ein höherer SWE-bench-Verified-Score ist ein positives Signal, dass ein Agent echte Fixes kann, aber der Benchmark sagt nichts über Isolation, Security, Auditierbarkeit, Team-Workflow oder Zuverlässigkeit auf deiner eigenen Codebase. Nutze ihn als einen Input unter mehreren und wäge ihn dagegen ab, wie sich der Agent auf deinem tatsächlichen unordentlichen Repository verhält. Siehe unser Ranking der 15 besten KI-Coding-Agenten für die vollständigeren Kriterien.
Was misst SWE-bench nicht?
Vieles. Er misst nicht, ob der Agent in einer isolierten Sandbox läuft, ob er sicher scheitert, wenn er eine Aufgabe nicht lösen kann, ob seine Arbeit auditierbar ist, wie er mit mehrdeutigen Tickets umgeht oder wie er in den Workflow eines Teams passt. Er fokussiert zudem auf eine bestimmte Sprache und Aufgabenform. Ein großartiger Benchmark-Score mit schlechter Isolation und ohne Audit-Trail ist kein produktionsreifer Agent.
Veröffentlicht CodeCourier SWE-bench-Scores?
Wir behandeln Benchmarks als einen ehrlichen Input, keine Marketing-Trophäe. Wo wir Zahlen berichten, nennen wir die exakte Methodik, das Datum und das Scaffold, sodass sie reproduzierbar sind, und wir veröffentlichen keine Zahlen, hinter denen wir nicht stehen können oder die wir nicht selbst gemessen haben. Unsere Haltung ist, dass Zuverlässigkeit und Sicherheit auf deiner echten Codebase mehr zählen als eine Leaderboard-Prozentzahl. Eine dedizierte Benchmarks-Seite ist auf unserer Roadmap.