Willkommen zu den CodeCourier Q1 2026 Release Notes. Neunzig Tage, 47 Auslieferungen, drei Deprecations, zwei Dinge, die wir wieder zurückgezogen haben. Das ist das definitive AI-Agent- Produktupdate für das Quartal - jedes relevante Workflow-Builder- Update, jede Persona-Forking-Verbesserung, jede Sprint-Chain-AI- Fähigkeit, die wir im Q4-2025-Recap versprochen haben, dazu eine lange Liste Plattformarbeit, die es nicht auf die Startseite schafft, aber die Zahlen bewegt. Lies von oben nach unten - oder spring in den Abschnitt, der für dein Team zählt.
Q1 war unser größtes Quartal nach reinem Output und unser langweiligstes nach Narrativ. Wir haben nicht pivotiert. Wir haben nichts umbenannt. Wir haben die Januar-Roadmap pünktlich ausgeliefert, und die durable agent memory updates landeten ohne einen einzigen Sev-1. Das ist der Bericht.
1. TL;DR - die zehn wichtigsten Ships im Überblick
Wenn du sonst nichts liest, lies das hier. Die zehn Änderungen, die diese Woche am wahrscheinlichsten verändern, wie dein Team CodeCourier nutzt.
- Workflow Builder v2 - Branching, Conditional Steps und Retry-Policies pro Node. Autoring-Zeit in der Kundentelemetrie um 51% gesunken.
- Persona Forking - git-artige Versionierung für jede Persona, atomares Promote, A/B-Evaluation nebeneinander.
- Sprint Chains GA - bis zu 75 Issue Sessions pro Sprint verketten, mit Dependency-Ordering und Pause-on-Review-Gates.
- Contexts v3 Retrieval - 38% besseres Recall@10 auf unserem internen Eval-Set; neue project- und persona-scoped Indexe.
- Asynchrone Issue Sessions - aus GitHub, Linear oder Jira anstoßen und weggehen; der Agent öffnet einen PR, wenn er fertig ist.
- Sandbox-Kaltstarts bei 220 ms - von 380 ms (Median), mit neuen GPU-Runtimes (L4, A10G) in Private Preview.
- SOC 2 Type II abgeschlossen - Berichte unter NDA für Enterprise verfügbar, EU-Datenresidenz live in Frankfurt.
- Audit-Log-Export - jede Agentenaktion streamt nach Splunk, Datadog oder beliebiges SIEM über S3-kompatible Sink.
- Neun neue Integrationen - Linear, GitHub Issues, Jira, Slack, Sentry, PagerDuty, Notion, Vercel, 1Password.
- Replay-Timeline + Cost-View - jeden Run zeitlich durchscrubben und pro Run, pro Workflow, pro Projekt die Kosten mit einem Klick sehen.
Der Rest dieses Posts geht jeden Punkt einzeln durch, verlinkt auf die Produktseite, und endet mit dem, was wir zurückgezogen haben und was in Q2 kommt.
2. Workflow Builder v2 - Branching, Conditions, Retries
Der Workflow Builder bekam dieses Quartal die meiste Aufmerksamkeit aller Surfaces. Wir haben den alten Node-Editor entsorgt und ihn von Grund auf neu gebaut - rund um die drei Dinge, die Kunden seit Launch fordern: Conditional Branching, deklaratives Error-Retry und eine Debug-Story, die kein JSON-Lesen verlangt.
Was wir ausgeliefert haben
- Conditional Steps. Jede Node kann einen Guard- Ausdruck deklarieren. Wertet der Guard zu false aus, wird der Schritt übersprungen und der Workflow läuft weiter. Guards stehen in einer kleinen typisierten DSL - keine Turing-Vollständigkeit, keine RCE-Angriffsfläche.
- Branching. Eine Node kann mehrere ausgehende Edges mit sich gegenseitig ausschließenden Bedingungen haben. Die erste passende gewinnt. Das beerdigt das "Dispatch-per-String- Switch"-Pattern, das v1 plagte.
- Retry-Policies pro Node. Konfiguriere Versuche, Backoff (constant, linear, exponential), Jitter und welche Fehlerklassen Retry auslösen. Default: drei Versuche mit exponentiellem Backoff bei transienten Tool-Fehlern, kein Retry bei Assertion-Failures.
- Live-Context-Preview. Hover über einen Schritt im Editor und sieh exakt, welche Contexts geladen werden, wie viele Tokens sie verbrauchen, und ob das Budget zum gewählten Modell passt.
- Failure-Surface, die sich selbst erklärt. Wenn ein Run mitten im Workflow scheitert, zeigt das Dashboard die fehlgeschlagene Node, ihre Inputs, ihre Tool-Calls und einen Ein- Klick-Button "Re-Run ab hier".
Warum es zählt
Stell dir einen Workflow vor, der lintet, Unit-Tests laufen lässt, Integration-Tests laufen lässt und nur dann einen PR öffnet, wenn alle drei grün sind - aber wenn Integration-Tests mit einer bekannten Flaky-Signatur scheitern, retry-en zweimal, bevor er aufgibt. In v1 war das vier verkettete Workflows mit Bastel-Glue. In v2 ist es ein Workflow mit drei Guards und einer Retry-Policy. Der Visual-Editor exportiert nach TypeScript-getypten JSON, lebt im Repo, reviewt in PRs und rollt zurück wie Code.
So nutzt du es
Öffne den Workflow Builder, klick auf Neuer Workflow und fang an, Nodes zu droppen. Der rechte Inspector hat jetzt Tabs für Inputs, Guards, Retries und Contexts. Bestehende v1-Workflows migrieren automatisch; wir haben die Migration an 1.200+ Kunden- Workflows getestet, null Verhaltens-Diffs. Wenn deine Migration ein Warning erzeugt, zeigt der Inspector die exakte Zeile und einen Fix-Vorschlag.
3. Persona Forking - git-artige Versionierung für Agenten
Personas wurden dieses Quartal erwachsen. Persona Forking bedeutet, jede Persona hat jetzt eine vollständige Historie mit Branches, Diffs und atomarer Promotion. Du kannst eine Persona forken, ihren System-Prompt oder ihre Tool-Allowlist ändern, ein A/B gegen dein Golden-Task-Set laufen lassen und den Gewinner mit einem Klick promoten. Alte Sessions bleiben gegen die Version replayable, die sie produzierte - kein "warum sah dieser PR im Februar anders aus?" mehr.
Was es konkret ist
- Jede Persona hat einen
main-Branch und unbegrenzt viele Forks. - Forks dürfen Prompt, Tools, Modell, Temperature, Context-Scope und Retry-Verhalten editieren.
- A/B-Runs führen das gleiche Task-Set gegen zwei Persona-Versionen parallel aus und liefern eine Scorecard (Pass-Rate, Kosten pro Task, p95-Latenz, Reviewer-Quality-Score, wenn der Eval-Hook verkabelt ist).
- Promotion ist atomar. Alle neuen Sessions nutzen ab dem nächsten Tick die promotete Version. In-Flight-Sessions schließen auf ihrer Ursprungsversion ab.
Warum es zählt
Eine Agent-Persona zu tunen ist iterativ. Du änderst einen System- Prompt, shippst, bereust, rollst zurück. Ohne Versionierung heißt "zurückrollen", dass du aus dem Gedächtnis neu tippst, was letzte Woche da war. Mit Forking ist es ein Klick. Der nicht- offensichtliche Gewinn: Kunden fahren mehrere Persona-Varianten in Produktion für verschiedene Teile einer Codebase - Strict-Review- Persona auf Auth-Code, Fast-and-Loose-Persona auf interne Skripte - und der Versions-Graph ist, wie sie den Überblick behalten.
Beispiel
Ein Series-B-Kunde pflegt vier Forks seiner Backend-Persona: main (Produktion), strict-types (erzwingt strikteres TypeScript), perf-mode (ergänzt einen Benchmark-Schritt), experimental (probiert ein neueres Modell). Sie promoten strict-types alle zwei Wochen nach main, wenn die Eval-Scorecard main bei Qualität um mehr als 3% schlägt und bei Kosten gleichzieht. Diese Kadenz ist jetzt Teil ihrer Engineering-Rituale.
4. Sprint Chains - Issue Sessions über einen Sprint verketten
Sprint Chains gingen am 18. Februar in die General Availability. Füttere CodeCourier mit einem Projektplan - üblicherweise ein Markdown-Dokument, das einen mehrteiligen Arbeitskörper beschreibt - und er zerlegt ihn in eine geordnete Folge von Issue Sessions mit respektierten Abhängigkeiten, weitergereichtem State und respektierten Human-Review-Gates. Pausiert, wenn ein Schritt einen PR öffnet, läuft nach dem Merge weiter.
Was sich in Q1 änderte
- Maximale Chain-Länge auf 75 Issues erhöht (vorher 20 in Beta). Zwei Kunden haben 50+ Issue-Chains end-to-end ohne Eingriff laufen lassen.
- Dependency-Parser. Der Chain-Planner liest jetzt deinen Markdown-Plan, erkennt blocks- / depends-on-Referenzen und baut einen echten DAG.
- Mid-Chain-Rollback. Wenn Issue 14 von 30 scheitert, kannst du Issues 11–14 zurückrollen und ab 11 wieder aufnehmen - ohne die ersten 10 zu verlieren.
- Kosten-Cap pro Chain. Setze ein Budget; die Chain pausiert zur Freigabe, wenn sie es zu sprengen droht.
Warum es zählt
Echte Engineering-Arbeit ist selten ein Issue. Es ist ein Sprint - fünf bis zwanzig zusammenhängende Stücke. Sprint Chains lassen einen Agenten auf diesem Scope arbeiten, ohne mittendrin den Faden zu verlieren. Die längste Chain, die wir in Produktion erfolgreich gesehen haben, war 67 Issues, 11 Stunden kumulative Agentenzeit, 23 PRs gemerged. Der Kunde beschrieb es als "ein Junior-Dev, der den Plan nie vergisst".
5. Contexts-Upgrades - Retrieval, Scoping, Evals
Contexts ist, wie CodeCourier den richtigen Code, die richtigen Docs und Conventions in eine Session lädt, ohne das Token-Budget zu sprengen. Q1 brachte drei Durable-Agent-Memory- Updates: besseres Retrieval, engeres Scoping, ein echtes Evaluation- Framework.
Retrieval
Wir haben den Hybrid-Retriever neu gebaut. BM25 + Dense Embeddings + ein kleiner Reranker, trainiert auf kundenmarkierten Relevanz-Paaren. Recall@10 auf unserem internen Eval-Set verbesserte sich um 38%. p95- Retrieval-Latenz fiel von 410 ms auf 240 ms - trotz Reranker -, weil wir den Index vom Generic-Disk auf NVMe verschoben und das Fan-out eingeengt haben.
Scoping
Contexts können jetzt auf drei Ebenen gescoped werden: org, project, persona. Ein persona-scoped Context lädt nur für Sessions, die von dieser Persona gestartet wurden. Ein project-scoped Context wird über Personas im selben Repo geteilt. Das beerdigt den alten Failure-Mode, in dem ein Security-Team- Context in eine Frontend-Session leakte und das Modell zu paranoiden CSS-Vorschlägen schob.
Eval-Framework
Jeder Context hat jetzt ein angehängtes Eval-Set. Du definierst Golden-Retrievals - "für Query X soll Dokument Y in den Top 5 auftauchen" - und CI fährt sie bei jeder Context-Änderung. Das Dashboard zeigt die Pass-Rate über Zeit, sodass ein Context, der nach einem Docs-Refresh still regrediert, gefangen wird, bevor er shipt. Das ist das meistgewünschte Feature der November-2025- Kundenumfrage.
6. Issue Sessions - neue Trigger und Async-Modus
Issue Sessions haben drei neue Trigger und einen fundamental anderen Ausführungsmodus dazugewonnen.
- GitHub-Issues-Trigger. Labele ein Issue mit
codecourier:run(konfigurierbar) und eine Session startet. Persona wird per Label-Routing gewählt, z. B.persona:backend. - Linear-Trigger. Native Zwei-Wege-Sync. Status- Updates fließen zurück nach Linear, damit PMs den Fortschritt sehen, ohne unser Dashboard zu öffnen.
- Jira-Trigger. Der, um den Kunden gebettelt haben. Gleiche Form wie Linear: Label- oder Transition-Trigger, Zwei- Wege-Status-Sync.
- Async-Modus. Eine Issue Session anstoßen, eine Session-ID erhalten, weggehen. Der Agent öffnet einen PR (oder stellt eine Rückfrage am Issue), wenn er fertig ist. Kein langlebiger Websocket, kein "läuft das noch"-Tab.
Warum Async zählt
In unserer Telemetrie dauert eine Median-Issue-Session 17 Minuten, p95 73 Minuten. Menschen 73 Minuten in einem Tab zu parken ist ein Non-Starter. Async-Modus heißt: Eine TPM kann Montagvormittag 12 Issues filen, ins Standup gehen, zurückkommen und die resultierenden PRs triagen. Gesamte Wall-Clock-Zeit menschseitig: vielleicht 30 Minuten Triage für 12 Issues Arbeit.
7. Sandboxes - Kaltstarts, Runtimes, GPUs
Sandboxes sind die isolierten VMs, in denen jede Agent-Aktion läuft. Q1 war ein Performance-und-Breite-Quartal.
| Metrik | Q4 2025 | Q1 2026 | Veränderung |
|---|---|---|---|
| Median-Kaltstart (ms) | 380 | 220 | -42% |
| p95-Kaltstart (ms) | 1.180 | 640 | -46% |
| Parallele Sandboxes (Pro) | 8 | 24 | +200% |
| Verfügbare Regionen | 3 | 5 | +2 (Frankfurt, Tokyo) |
| Verfügbare Runtimes | 9 | 14 | +5 (inkl. GPU) |
Neue Runtimes: Python 3.13, Node 22 LTS, Bun 1.2, Deno 2.1 und zwei GPU-Templates (L4 und A10G) in Private Preview für Kunden, die On- Sandbox-Modell-Inference, Image-Arbeit oder ML-Training fahren. Filesystem-Snapshots sind jetzt inkrementell, sodass eine Sandbox, die aus einem Warm-Template geklont wird, in unserer heißesten Region in 60–90 ms startet.
8. Security und Compliance - SOC 2, GDPR, Audit-Logs
Compliance ist ein Feature für alle, die Procurement-Fragebögen ausfüllen müssen. Wir haben investiert.
- SOC 2 Type II Audit im Februar abgeschlossen. Bericht unter NDA via /soc2.
- EU-Datenresidenz in Frankfurt. Setzt du sie am Projekt, bleiben jede Sandbox, jedes Session-Log und jeder Context-Index für dieses Projekt in-region. Details auf /gdpr und unserer Security-Seite.
- Audit-Log-Export. Jede Agent-Aktion - Tool-Call, Datei-Write, PR-Eröffnung, Secret-Read - streamt in dein SIEM. Eingebaute Formatter für Splunk und Datadog; alle anderen bekommen Newline-JSON in eine S3-kompatible Sink.
- Kundenverwaltete Schlüssel für Encryption-at-Rest auf Enterprise. Bring dein eigenes KMS.
- Self-hosted Sandbox-Runner in Private Preview. Fahre unseren Orchestrator gegen Sandboxes, die dir gehören, in deinem VPC.
Wir sind keine Compliance-Firma. Wir sind eine Produkt-Firma, die Compliance als Selbstverständlichkeit behandelt. SOC 2 Type II ist der Boden, nicht die Decke.
9. Integrationen - neun neue, benannt
AI-Dev-Integrationen sind, wie CodeCourier Teil deiner bestehenden Arbeitsweise wird. Q1 brachte neun, mit je einer kurzen Notiz.
- Linear. Native Zwei-Wege-Sync, Label-Routing, Status-Spiegelung.
- GitHub Issues. Label-getriggerte Sessions, PR- Backreferenzen, Branch-Protection-bewusstes Mergen.
- Jira. Zwei-Wege-Sync; unterstützt sowohl Cloud als auch Data Center.
- Slack. Run-Status-Benachrichtigungen, Slash- Commands, channel-gescopete Persona-Allowlists.
- Sentry. Exception-zu-Session: ein Sentry-Issue spawnt eine CodeCourier-Session, vorab geladen mit Stack-Trace und jüngsten verwandten Fehlern.
- PagerDuty. On-Call-Paging, wenn eine Chain mitten im Run auf einen fatalen Fehler trifft und kein Mensch online ist.
- Notion. Plan-Dokumente aus Notion als Sprint- Chain-Input ziehen; Run-Zusammenfassungen als Kommentare zurückpushen.
- Vercel. Preview-Deploy-bewusste Sessions; der Agent kann deine Preview-URL lesen und gegen sie asserten, bevor ein PR aufgeht.
- 1Password. Secrets werden zur Laufzeit bezogen; nichts landet je in unserer DB oder in einer Sandbox- Env-Datei.
10. Kleinere Wins - der Long Tail
Zweiundzwanzig kleinere Verbesserungen, die das Produkt weniger nach Beta anfühlen lassen. In keiner besonderen Reihenfolge:
- Tastaturkürzel überall;
?zeigt das Cheat-Sheet. - Dark Mode fürs Dashboard, pro Benutzer persistiert.
- Bessere Empty-States mit Ein-Klick-"Beispiel-erstellen"-Flow.
- Schnelleres Projekt-Switching (cmd-K, Fuzzy-Match, 12 ms p95).
- Copy-Link-Buttons auf jeder teilbaren Ressource.
- Mobilfreundliche Run-Monitoring-Ansicht.
- Klickbare Stack-Traces in Run-Logs.
- Ein-Klick-Re-Run aus jeder vergangenen Session.
- Persistenter Filter-State in der Issues-Ansicht.
- Leisere Benachrichtigungen für Runs, die du selbst gestartet hast.
- Workflow-Imports aus einer öffentlichen URL.
- Temperature-Override pro Persona.
- Inline-Diff-Ansicht auf PR-eröffnenden Schritten.
- Bulk-Archive für alte Sessions.
- Cost-View nach Tag filterbar.
- Webhook-Retries mit exponentiellem Backoff.
- API-Rate-Limit-Header dokumentiert und konsistent.
- Sentry-Breadcrumbs enthalten den Workflow-Node-Namen.
- OAuth-App-Review-ready für Slack- und Linear-Marketplaces.
- Status-Page reflektiert jetzt per-Region-Health, nicht nur global.
- Öffentliche Analytics-Seite für plattformweite Success-Rate und Latenz.
- Öffentlicher Guides-Hub mit 14 neuen Walkthroughs.
11. Was wir zurückgezogen haben - ehrlich
Wir haben Dinge versucht, die nicht funktioniert haben. Sie zuzugeben, hält uns ehrlich.
- Voice-getriebene Sessions. Wir prototypten ein Voice-Interface zum Starten von Issue Sessions. Latenz okay, Genauigkeit auf technischem Jargon nicht. Beta im Februar eingezogen. Wir nehmen es wieder auf, wenn On-Device-Transkription besser wird.
- Cross-Org-Persona-Marketplace. Wir dachten, Kunden würden Personas öffentlich teilen wollen. Closed Beta hatte 14 Sign-ups und drei geteilte Personas nach einem Monat. Eingezogen. Personas sind, wie sich herausstellt, tief mit der Kultur einer Codebase verwoben und reisen schlecht.
- In-Produkt-Video-Walkthroughs. Wir setzten 90- Sekunden-Videos in die Empty-States. Kunden sagten uns, sie nerven. Wir zogen sie raus und steckten das Budget in den Guides-Hub.
12. Was als Nächstes kommt in Q2
Zwei Themen für Q2 2026:
- Review-Agenten. Personas, speziell gebaut für PR- Review, mit Gedächtnis für die Standards deines Teams. Ziel: Private Preview im Mai.
- Multi-Agent-Collaboration. Strukturierte Übergabe zwischen Spezialisten-Personas - Planner zu Coder zu Reviewer zu Kritiker - innerhalb einer Sandbox, mit geteilten Contexts und einem gemeinsamen Audit-Trail.
Plus mehr von derselben langweiligen Exzellenz: schnellere Sandboxes, besseres Contexts-Retrieval, mehr Integrationen. Die unsexy kompoundierenden Wins sind, was ein Produkt unausweichlich anfühlen lässt.
FAQ
Wie upgrade ich auf Workflow Builder v2?
Musst du nicht. Neue Workflows defaulten zu v2; alte Workflows migrieren beim ersten Öffnen im Editor automatisch. Es gibt keinen Breaking-Change zur Runtime - v1-förmige Workflows laufen identisch weiter.
Ist Persona Forking in allen Tiers verfügbar?
Ja. Free, Pro und Enterprise bekommen alle unbegrenzte Forks und atomares Promote. A/B-Evaluation-Runs zählen auf deine monatliche Session-Quota in Free und Pro; Enterprise ist unbegrenzt.
Was ist die maximale Länge einer Sprint Chain?
Momentan 75 Issues. Wir haben noch keinen echten Kundenplan gesehen, der das überschreitet - wenn du einen hast, bitte melde dich, wir würden gerne dagegen testen.
Bietet ihr EU-only-Deployments an?
Ja. Setze die Projekt-Region auf Frankfurt und jede Sandbox, jedes Session-Log und jeder Context-Index lebt in-region. SOC 2 Type II Audit deckt die EU-Plane ab. Siehe /gdpr für das vollständige Datenfluss-Diagramm.
Wie exportiere ich meine Audit-Logs?
Settings → Compliance → Audit Log Export. Wähle Splunk, Datadog oder generische S3-kompatible Sink. Logs streamen innerhalb von Sekunden nach jeder Agent-Aktion.
Was ist mit dem alten REST-Endpoint zum Auslösen von Runs?
Entfernt am 15. März 2026, nach einem 90-Tage-Deprecation-Fenster, angekündigt im Dezember 2025. Nutze den neuen Endpoint, dokumentiert in der API-Referenz. Migration ist eine Zeile.
Wo melde ich einen Bug oder fordere ein Feature an?
Einfachster Weg: kontaktiere uns, oder öffne ein öffentliches Issue auf unserer Roadmap. Jeder Q1-Release in diesem Post geht auf einen Kundenwunsch der letzten 6 Monate zurück. Die Roadmap gehört euch.
Danke fürs Lesen. Wenn das hier hilfreich war - der Rest unserer Texte lebt im Blog, das Produkt selbst auf codecourier. Bis zum Ende von Q2.