519cc274bb
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
4.8 KiB
4.8 KiB
Session-Handover: MC Quality + Gap-Analyse + RAG Ingestion
Datum: 2026-05-07 bis 2026-05-11 (5 Tage Marathon) Repo: breakpilot-core + breakpilot-compliance
ERLEDIGT
Master Control Quality Overhaul (Core)
- 74.5% → 92.8% Accuracy (13.588 MCs, 83.073 Members)
- Phase 0: Quality Audit mit Claude Sonnet ($3)
- Phase 1: Ontologie 31 → 74 Tokens + LLM-Prompt fix
- Phase 2: 174K Controls re-klassifiziert via Haiku (10 Batches, ~$50)
- Phase 2b: Generic Tokens gefixt (documentation/procedure → echte Themen, $7.54)
- Phase 2c: L2 Sub-Topics (2 Runden, 172K Controls, ~$32)
- Phase 2d: Bad Subtopics gefixt (stakeholder_*, $0.50)
- Phase 3: Re-Clustering K=18704
- Phase 4: gpre2 Direct MC (13.588 MCs)
- Phase 6: Golden Dataset (20 Controls) + 8 Quality Tests (alle grün)
- Production Sync: MCs + Members + Hints + doc_check_controls
doc_check_controls (Core → Production)
- 1.874 Controls über 8 Dokumenttypen (DSE, Cookie, Impressum, AGB, Widerruf, DSFA, AVV, Löschkonzept)
- Jeder mit check_question + pass_criteria + fail_criteria
- Tabelle
compliance.doc_check_controlslokal + Production
RAG Ingestion (Core)
- 126 BAuA PDFs (TRBS/TRGS/ASR): 27.664 Chunks →
bp_compliance_ce - OSHA Technical Manual (23 Kapitel): 7.241 Chunks →
bp_compliance_ce - OSHA 1910 Subpart O (Volltext): 745 Chunks
- EuGH C-588/21 P: 216 Chunks
- EU 2018/1725: 842 Chunks →
bp_compliance - CE-Obligations extrahiert: 6.141 Obligations →
/tmp/ce_obligations_v2.json - Playwright-Crawler für BAuA + OSHA gebaut
Gap-Analyse Engine (Compliance)
- 12 Regulierungen automatisch klassifiziert (CRA, AI Act, NIS2, DSGVO, MiCA, PSD2, AML, etc.)
- IST-Zustand Assessment: CE-Kennzeichnung, angewandte Normen, bestehende Prozesse, IACE-Projekt-Link
- Norm→Control Mapping: 20 Normen → MC-Topic Coverage
- Prioritäts-Engine: Severity × Deadline × Dependency
- 5 Branchentemplates: IoT, Exchange, Cobot, SaaS, Medical
- Frontend: 2-Step Wizard (Produkt + IST-Zustand) + Dashboard mit Ampel-Status
- API: 8 Endpoints unter
/sdk/v1/gap/ - Persistente Projekte: Speichern + wieder öffnen
- Getestet: SmartFactory Gateway → 5 Regulierungen, 500 Gaps
Tenant Document Upload API (Core)
POST/GET/DELETE /api/v1/tenant/documents- Tenant-isolierte Qdrant-Collections
- Code fertig, nicht deployed (RAG Service rebuild nötig)
Master Controls Browser (Compliance)
- Neue Seite
/sdk/master-controls— reused Control Library UI - Sidebar-Eintrag zwischen Control Library und Provenance
- 13.588 MCs mit allen Filtern, Paginierung, Klick-Detail
- Verbindet sich mit Production-DB
DB-Tabellen (neu/geändert)
| Tabelle | Repo | Rows (lokal) | Rows (Production) |
|---|---|---|---|
| compliance.master_controls | Core | 13.588 | 13.588 |
| compliance.master_control_members | Core | 83.073 | 83.073 |
| compliance.object_ontology | Core | 74 | 74 |
| compliance.object_groups | Core | 16.683 | — |
| compliance.doc_check_controls | Core | 1.874 | 1.874 |
| compliance.gap_projects | Compliance | 1 | 0 |
OFFEN / NÄCHSTE SESSION
- Orca Deploy-Fix — Production deployed nicht automatisch (Webhook + docker pull Problem)
- Gap-Analyse v2 IST-Zustand — Frontend Step 2 deployed, Backend deployed, aber Orca blockiert
- Tenant Document Upload deployen (RAG Service rebuild)
- Compliance-Repo auf gitea pushen — aktuell "Everything up-to-date", Orca muss manuell redeployt werden
- MC-Browser erweitern — Detail-View mit Member-Controls verbessern
BACKUPS (auf MacBook)
| Datei | Inhalt |
|---|---|
backup_pre_gpre3_20260510.dump |
Vor gpre3 Live-Run (171 MB) |
backup_session_end_20260511.dump |
Session-Ende |
production_backup_20260508.dump |
Production nach Phase 2 |
gpre0_checkpoints_backup_20260508/ |
10 Corrections-JSONs |
API-Kosten (Anthropic)
| Phase | Modell | Kosten |
|---|---|---|
| Phase 0: Quality Audit | Sonnet | $2.92 |
| Phase 0b: Quality Audit v2 | Sonnet | $5.93 |
| Phase 2: 174K Re-Klassifizierung | Haiku | ~$50 |
| Phase 2b: Generic Token Fix | Haiku | $7.54 |
| Phase 2c: Subtopics R1 | Haiku | $20.22 |
| Phase 2c: Subtopics R2 | Haiku | $12.03 |
| Phase 2d: Bad Subtopics | Haiku | ~$0.50 |
| 5K Test-Run | Sonnet | $5.32 |
| doc_check_controls | Haiku | ~$5 |
| Gesamt | ~$110 |
STRATEGISCHE ENTSCHEIDUNGEN (in Memory)
- 3 Use Cases: Gap-Analyse (Prio 1), Vendor Risk (Prio 2), Web3/Crypto als Vertikal (Prio 3)
- Keine Norm-Reproduktion: Obligation Extraction statt ISO-Texte (juristisch sicher)
- Regulatory Ingestion Engine: BAuA/OSHA Crawler als Vorlage für automatisierte Source-Feeds
- CE-Compliance Crossover: IACE × Master Controls für Trigger-basierte Compliance-Hinweise