Files
breakpilot-compliance/docs-src/development/platform_evidence_v1.md
T
Benjamin_Boenisch 38a347a82a
CI / detect-changes (push) Successful in 7s
CI / branch-name (push) Has been skipped
CI / guardrail-integrity (push) Has been skipped
CI / secret-scan (push) Has been skipped
CI / dep-audit (push) Has been skipped
CI / sbom-scan (push) Has been skipped
CI / build-sha-integrity (push) Successful in 9s
CI / validate-canonical-controls (push) Successful in 12s
CI / loc-budget (push) Successful in 24s
CI / go-lint (push) Has been skipped
CI / python-lint (push) Has been skipped
CI / nodejs-lint (push) Has been skipped
CI / nodejs-build (push) Successful in 3m11s
CI / test-go (push) Has been skipped
CI / iace-gt-coverage (push) Has been skipped
CI / test-python-backend (push) Successful in 24s
CI / test-python-document-crawler (push) Has been skipped
CI / test-python-dsms-gateway (push) Has been skipped
feat(platform): live-wire AGB v2 + DSE v3 + Architektur-Tab (#29)
AGB v2 (decision_method routing, 71%FP->~0) + DSE v3 (4-layer, recovered from container) + Architektur-Tab into /sdk/agent live path. Incl CI robustness (detect-changes.sh + PR-head checkout) + security (hardcoded Qdrant key removed, gitleaks allowlist).

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-06-21 12:58:26 +00:00

5.4 KiB
Raw Blame History

BreakPilot — Evidenz- & Qualitätsnachweis (Website-Compliance v1)

Status: konsolidierter Freeze-Stand 2026-06-21. Belegbasis aus 4 kalibrierten Modulen (DSE, Cookie, Impressum, AGB). Dient als (a) technischer Freeze-Record und (b) Backbone für Sales/Investoren. Hinweis: Zahlen = gemessene Validierungsergebnisse gegen Opus-Ground-Truth. Tool-/Prod-Integrationsstand je Modul siehe §7 (validiert ≠ überall schon live).

1. Kernaussage

Die meisten Compliance-Tools machen: Dokument → LLM → Finding — ein Richter für alles. Das erzeugt systematische False Positives und hat keine belastbare Evidenzbasis.

BreakPilot macht: Dokument → Control-Routing → spezialisierter Prüfer → Finding.

Wir haben für jeden Kontrolltyp den optimalen Prüfer empirisch ermittelt — mit echten Vorher/Nachher-Zahlen, nicht mit Marketing.

Das ist über 4 strukturell verschiedene Dokumenttypen reproduzierbar belegt — und damit voraussichtlich das Routing-Prinzip für alle ~14.000 Master Controls.

2. Die Architektur (zwei Routing-Achsen)

Vollständige Kette: Regulation → Obligation → Control → verification_method → decision_method → Prüfer → Evidence → Finding → Ticket.

  • verification_method (Kategorie / welcher Prüfer-Typ): CONTENT · FIELD · REFERENCE · BEHAVIOR · PRESENTATION · PROCESS · TECHNICAL · CONTRACTUAL.
  • decision_method (konkreter Mechanismus): REGEX · EMBEDDING · LLM · LINK_RESOLVER · PLAYWRIGHT · AUDIT · SCANNER.

Kernregel: Was im Text nicht beweisbar ist, gehört nicht in den Text-Check. Scope-Gate (Applicability) läuft vor allen Prüfern; Severity steuert Finding vs. Empfehlung.

3. Evidenz je Modul

Modul dominanter Prüfer gemessenes Ergebnis Hebel Reife
DSE CONTENT (Embedding+LLM) False Positives 11 % → 6 %; an 8 Firmen validiert, Generalisierung nachgewiesen (kein Overfit auf einen Assessor); Claude-Tier-Pfad → ~2 % bekannt Kriterien-Kalibrierung + LLM-Kaskade RC
Impressum FIELD + PRESENTATION (+ Scope-Gate) 171 falsche Findings → 0 (Scope-Gate); Feldmatrix (Firma/Anschrift/HRB/USt-IdNr/Kontakt) FP 0 %, Recall 1.0; 5 Präsentations-Controls an Playwright re-routet Scope-Gate + deterministischer Feld-Matcher schlägt LLM RC
Cookie BEHAVIOR + CONTENT Artifact-Type-Trennung Banner ≠ Richtlinie validiert (Controls liefen am falschen Artefakt → re-routet); Browser-Verhaltens-Matrix (Enforcement, Dark-Pattern, Reject=Accept) Artifact-Type-Routing + Playwright-Verhaltenssensor Wave-1 (GT-Stab. offen)
AGB CONTENT + REFERENCE + LLM 71 % FP → ~0 (7-Firmen-Opus-GT): 49 Findings / 35 falsch → bereinigt; Embedding-Rescue 21 Recall-FP gekillt, 0 Fehl-Rescue; LLM-Judge (ganze §-Abschnitte) 14/14; Reference-Check 7/7 decision_method pro Item (17 EMBEDDING, 2 LLM, 1 REFERENCE) Architektur validiert

4. Warum die Zahlen belastbar sind (Methodik-Rigor)

  • Ground Truth mit dem stärksten Modell (Opus-4-8), nicht mit billigen Modellen.
  • Prove-don't-handwave: echte FP/FN-Zählungen, Vorher/Nachher, keine Behauptungen.
  • Generalisierung statt Overfit: Mehr-Firmen-GT (DSE 8, AGB 7) + explizite Leitplanken gegen Ein-Assessor-Overfit.
  • Mehrfach-Referenz-Validierung: bei AGB 3-Wege (Opus-GT × Claude-Eigenbewertung × Laufzeit-Kaskade) — deckte sogar einen Fehler in der GT selbst auf.
  • Stichprobe vor Aufbau: vor jeder teuren Klassifikation/Batch zuerst stratifizierte Stichprobe geprüft (verhinderte mehrfach Aufbau auf falschem Fundament).

5. Die Schlüssel-Entdeckung (AGB)

Verschiedene Controls innerhalb desselben Moduls brauchen verschiedene Richter. Belege:

  • Eine globale Embedding-Schwelle scheitert bei juristischer Prosa; per-Item-Schwellen trennen sauber.
  • Whole-Section-Retrieval (ganze §-Abschnitte) schlägt Top-k-Chunks für den LLM-Judge deutlich.
  • Ein billig-zuerst-Kaskaden-LLM taugt nicht als Richter (eskaliert selbstbewusst-falsche Antworten nicht) — für harte Items starken Tier pinnen.
  • Ein Verweis („siehe Datenschutzerklärung") ist ein REFERENCE/Link-Check, kein LLM-Fall.

6. Wettbewerbspositionierung

Typisches Tool BreakPilot
Prüfansatz ein LLM für alles Control-Routing → spezialisierter Prüfer
False Positives systematisch (LLM auf Nicht-Text-Pflichten) je Kontrolltyp minimiert (gemessen)
Evidenzbasis keine Mehr-Firmen-GT, reproduzierbare Zahlen
Skalierung neuer Regulierungen jedes Mal neu Mapping auf bestehende Prüfer-Matrix

7. Reifegrad, Ehrlichkeit & Roadmap

  • Validiert (Messung): alle 4 Module oben.
  • Live im Tool: DSE-Kriterien (prod). Impressum-Scope/Feldmatrix, Cookie-Artifact-Type und AGB-C-lean sind validiert, aber noch nicht überall ins Produkt integriert → Demo-Integration ist der nächste Schritt (Vorher/Nachher live zeigbar machen).
  • Website-/Marketing-Compliance: abgeschlossen (DSE/Impressum/Cookie/AGB + Architektur). Restliche Web-Doc-Typen (Nutzungsbedingungen, Shop-AGB, Legal Notice, Social-Media) = Mapping, keine neue Architektur.
  • Nächste große Etappe (nach Sales): industrielle Compliance (CRA, Maschinenverordnung, NIS2, DORA, ISO 27001, TISAX, AI Act) — neue Prüfertypen TECHNICAL/PROCESS/EVIDENCE/SYSTEM; die Prüfer-Matrix wird dort wiederverwendet.