Benjamin_Boenisch/breakpilot-compliance

Fork 0

Files

T

Benjamin_Boenisch 38a347a82a

CI / detect-changes (push) Successful in 7s

Details

CI / branch-name (push) Has been skipped

Details

CI / guardrail-integrity (push) Has been skipped

Details

CI / secret-scan (push) Has been skipped

Details

CI / dep-audit (push) Has been skipped

Details

CI / sbom-scan (push) Has been skipped

Details

CI / build-sha-integrity (push) Successful in 9s

Details

CI / validate-canonical-controls (push) Successful in 12s

Details

CI / loc-budget (push) Successful in 24s

Details

CI / go-lint (push) Has been skipped

Details

CI / python-lint (push) Has been skipped

Details

CI / nodejs-lint (push) Has been skipped

Details

CI / nodejs-build (push) Successful in 3m11s

Details

CI / test-go (push) Has been skipped

Details

CI / iace-gt-coverage (push) Has been skipped

Details

CI / test-python-backend (push) Successful in 24s

Details

CI / test-python-document-crawler (push) Has been skipped

Details

CI / test-python-dsms-gateway (push) Has been skipped

Details

feat(platform): live-wire AGB v2 + DSE v3 + Architektur-Tab (#29 )

AGB v2 (decision_method routing, 71%FP->~0) + DSE v3 (4-layer, recovered from container) + Architektur-Tab into /sdk/agent live path. Incl CI robustness (detect-changes.sh + PR-head checkout) + security (hardcoded Qdrant key removed, gitleaks allowlist).

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>

2026-06-21 12:58:26 +00:00

5.4 KiB

Raw Blame History

BreakPilot — Evidenz- & Qualitätsnachweis (Website-Compliance v1)

Status: konsolidierter Freeze-Stand 2026-06-21. Belegbasis aus 4 kalibrierten Modulen (DSE, Cookie, Impressum, AGB). Dient als (a) technischer Freeze-Record und (b) Backbone für Sales/Investoren. Hinweis: Zahlen = gemessene Validierungsergebnisse gegen Opus-Ground-Truth. Tool-/Prod-Integrationsstand je Modul siehe §7 (validiert ≠ überall schon live).

1. Kernaussage

Die meisten Compliance-Tools machen: Dokument → LLM → Finding — ein Richter für alles. Das erzeugt systematische False Positives und hat keine belastbare Evidenzbasis.

BreakPilot macht: Dokument → Control-Routing → spezialisierter Prüfer → Finding.

Wir haben für jeden Kontrolltyp den optimalen Prüfer empirisch ermittelt — mit echten Vorher/Nachher-Zahlen, nicht mit Marketing.

Das ist über 4 strukturell verschiedene Dokumenttypen reproduzierbar belegt — und damit voraussichtlich das Routing-Prinzip für alle ~14.000 Master Controls.

2. Die Architektur (zwei Routing-Achsen)

Vollständige Kette: Regulation → Obligation → Control → verification_method → decision_method → Prüfer → Evidence → Finding → Ticket.

verification_method (Kategorie / welcher Prüfer-Typ): CONTENT · FIELD · REFERENCE · BEHAVIOR · PRESENTATION · PROCESS · TECHNICAL · CONTRACTUAL.
decision_method (konkreter Mechanismus): REGEX · EMBEDDING · LLM · LINK_RESOLVER · PLAYWRIGHT · AUDIT · SCANNER.

Kernregel: Was im Text nicht beweisbar ist, gehört nicht in den Text-Check. Scope-Gate (Applicability) läuft vor allen Prüfern; Severity steuert Finding vs. Empfehlung.

3. Evidenz je Modul

Modul	dominanter Prüfer	gemessenes Ergebnis	Hebel	Reife
DSE	CONTENT (Embedding+LLM)	False Positives 11 % → 6 %; an 8 Firmen validiert, Generalisierung nachgewiesen (kein Overfit auf einen Assessor); Claude-Tier-Pfad → ~2 % bekannt	Kriterien-Kalibrierung + LLM-Kaskade	RC
Impressum	FIELD + PRESENTATION (+ Scope-Gate)	171 falsche Findings → 0 (Scope-Gate); Feldmatrix (Firma/Anschrift/HRB/USt-IdNr/Kontakt) FP 0 %, Recall 1.0; 5 Präsentations-Controls an Playwright re-routet	Scope-Gate + deterministischer Feld-Matcher schlägt LLM	RC
Cookie	BEHAVIOR + CONTENT	Artifact-Type-Trennung Banner ≠ Richtlinie validiert (Controls liefen am falschen Artefakt → re-routet); Browser-Verhaltens-Matrix (Enforcement, Dark-Pattern, Reject=Accept)	Artifact-Type-Routing + Playwright-Verhaltenssensor	Wave-1 (GT-Stab. offen)
AGB	CONTENT + REFERENCE + LLM	71 % FP → ~0 (7-Firmen-Opus-GT): 49 Findings / 35 falsch → bereinigt; Embedding-Rescue 21 Recall-FP gekillt, 0 Fehl-Rescue; LLM-Judge (ganze §-Abschnitte) 14/14; Reference-Check 7/7	decision_method pro Item (17 EMBEDDING, 2 LLM, 1 REFERENCE)	Architektur validiert

4. Warum die Zahlen belastbar sind (Methodik-Rigor)

Ground Truth mit dem stärksten Modell (Opus-4-8), nicht mit billigen Modellen.
Prove-don't-handwave: echte FP/FN-Zählungen, Vorher/Nachher, keine Behauptungen.
Generalisierung statt Overfit: Mehr-Firmen-GT (DSE 8, AGB 7) + explizite Leitplanken gegen Ein-Assessor-Overfit.
Mehrfach-Referenz-Validierung: bei AGB 3-Wege (Opus-GT × Claude-Eigenbewertung × Laufzeit-Kaskade) — deckte sogar einen Fehler in der GT selbst auf.
Stichprobe vor Aufbau: vor jeder teuren Klassifikation/Batch zuerst stratifizierte Stichprobe geprüft (verhinderte mehrfach Aufbau auf falschem Fundament).

5. Die Schlüssel-Entdeckung (AGB)

Verschiedene Controls innerhalb desselben Moduls brauchen verschiedene Richter. Belege:

Eine globale Embedding-Schwelle scheitert bei juristischer Prosa; per-Item-Schwellen trennen sauber.
Whole-Section-Retrieval (ganze §-Abschnitte) schlägt Top-k-Chunks für den LLM-Judge deutlich.
Ein billig-zuerst-Kaskaden-LLM taugt nicht als Richter (eskaliert selbstbewusst-falsche Antworten nicht) — für harte Items starken Tier pinnen.
Ein Verweis („siehe Datenschutzerklärung") ist ein REFERENCE/Link-Check, kein LLM-Fall.

6. Wettbewerbspositionierung

	Typisches Tool	BreakPilot
Prüfansatz	ein LLM für alles	Control-Routing → spezialisierter Prüfer
False Positives	systematisch (LLM auf Nicht-Text-Pflichten)	je Kontrolltyp minimiert (gemessen)
Evidenzbasis	keine	Mehr-Firmen-GT, reproduzierbare Zahlen
Skalierung neuer Regulierungen	jedes Mal neu	Mapping auf bestehende Prüfer-Matrix

7. Reifegrad, Ehrlichkeit & Roadmap

Validiert (Messung): alle 4 Module oben.
Live im Tool: DSE-Kriterien (prod). Impressum-Scope/Feldmatrix, Cookie-Artifact-Type und AGB-C-lean sind validiert, aber noch nicht überall ins Produkt integriert → Demo-Integration ist der nächste Schritt (Vorher/Nachher live zeigbar machen).
Website-/Marketing-Compliance: abgeschlossen (DSE/Impressum/Cookie/AGB + Architektur). Restliche Web-Doc-Typen (Nutzungsbedingungen, Shop-AGB, Legal Notice, Social-Media) = Mapping, keine neue Architektur.
Nächste große Etappe (nach Sales): industrielle Compliance (CRA, Maschinenverordnung, NIS2, DORA, ISO 27001, TISAX, AI Act) — neue Prüfertypen TECHNICAL/PROCESS/EVIDENCE/SYSTEM; die Prüfer-Matrix wird dort wiederverwendet.

5.4 KiB Raw Blame History Unescape Escape

BreakPilot — Evidenz- & Qualitätsnachweis (Website-Compliance v1)

1. Kernaussage

2. Die Architektur (zwei Routing-Achsen)

3. Evidenz je Modul

4. Warum die Zahlen belastbar sind (Methodik-Rigor)

5. Die Schlüssel-Entdeckung (AGB)

6. Wettbewerbspositionierung

7. Reifegrad, Ehrlichkeit & Roadmap

5.4 KiB

Raw Blame History