SWE-bench Verified
Ein menschlich validierter Satz echter GitHub-Issues aus Open-Source-Projekten. Ein Agent erhält das Issue und das Repository und muss einen Patch produzieren; die Aufgabe gilt nur als gelöst, wenn die Änderung die projekteigenen Tests bestehen lässt. Er misst, ob ein Agent echte Bugs in echtem Code fixen kann, nicht ob er ein Quiz besteht - das Nächste, was das Feld an einer aussagekräftigen Prüfung für einen KI-Software-Engineer hat.