Files
breakpilot-compliance/backend-compliance/compliance/services/doc_checks/loeschkonzept_checks.py
T
Benjamin Admin 57c0f940a2
CI / detect-changes (push) Successful in 11s
CI / branch-name (push) Has been skipped
CI / nodejs-build (push) Successful in 2m19s
CI / test-go (push) Has been skipped
CI / test-python-document-crawler (push) Has been skipped
CI / test-python-dsms-gateway (push) Has been skipped
CI / guardrail-integrity (push) Has been skipped
CI / secret-scan (push) Has been skipped
CI / dep-audit (push) Has been skipped
CI / sbom-scan (push) Has been skipped
CI / validate-canonical-controls (push) Successful in 16s
CI / loc-budget (push) Failing after 15s
CI / go-lint (push) Has been skipped
CI / python-lint (push) Has been skipped
CI / nodejs-lint (push) Has been skipped
CI / iace-gt-coverage (push) Has been skipped
CI / test-python-backend (push) Successful in 37s
feat(consent+report): P56-P67 Mercedes-Audit-Cycle (Anti-Audit, Phase G Vendors, Cookie-Behavior-Validator + 5 Mail-Polish-Items) [migration-approved]
P56  Anti-Auditing-Detection als constructive Compliance-Finding (Audit-API-
     Empfehlung statt Anklage, weil Mercedes berechtigt Bots blockiert)
P57  Phase G vendor_details Union mit cmp_vendors -> 42 Anbieter sichtbar
P58  Anti-Audit-Detection robuster (Script-Domain-Check + Settings-spezifisch)
P59  Cookie-Behavior-Validator (4 Layer, 3-Tier-Severity: MEDIUM=Kategorie-
     Mismatch / HIGH=Zweck-Mismatch / CRITICAL=beide=Vorsatz-Indiz)
     + Open Cookie Database (CC0) als Library-Seed (2264 Cookies)
P59b Cookie-Behavior in Banner-Check verdrahtet + Mail-Block (BUGFIX:
     SessionLocal selbst oeffnen, db war im Background-Task nicht im Scope)

Mail-Polish nach Mercedes-Review:
P63  Banner-Footer-Links auch im wb7-link/role=link erkennen (Shadow-DOM-
     Walker label-based statt nur <a href>)
P64  Re-Access-Severity: MEDIUM statt HIGH, wenn Footer "Einstellungen" oder
     Mercedes-typisch existiert; OEM-Footer-Detection (wb7-footer)
P65  Text-Truncation: Word-Boundary statt Zeichen-Cut (kein "einfa"-Bruch
     mehr in Sofortmassnahmen)
P66  GF-Aktionen: Service-Zweck vs Cookie-Zweck explizit erklaert
     (haeufige Verwechslung Marketing/GF: "Akamai-Beschreibung" != Cookie-
     Zweck pro DSK-OH 2024)
P67  Stirring-Finding mit "Verlust-Framing"-Erklaerung + Alt-vs-Neutral-
     Beispiel, statt nur EDPB-Fachbegriff

Compliance-Advisor FAQ (admin agent-core/soul):
  + CNIL/EDPB Top-Bussgelder (Google 100M, Meta 60M, Amazon 35M)
  + Deutsche Praezedenz (LG Muenchen Google Fonts, EuGH Planet49, BGH I ZR 7/16)
  + 4 Risiko-Pfade (Bussgeld/Abmahnung/Sammelklage/NOYB) + Berechnungs-Methodik

Document-Generator Templates: AGB-DE (142), Impressum (140), Widerrufs-
formular-Anlage (143), DSR-Process-Dedup (139), Cookie-Library (144).

Architektur: doc_action_mappings.py + banner_dom_walkers.py +
cookie_behavior_validator.py + vendor_detail_extractor.py rausgezogen,
um die 500-LOC-Caps in agent_doc_check_report.py und
banner_text_checker.py einzuhalten.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-21 06:28:25 +02:00

205 lines
10 KiB
Python

"""
Loeschkonzept checks — Art. 5(1)(e) DSGVO ('Speicherbegrenzung'),
DIN 66398 (Leitlinie zur Entwicklung eines Loeschkonzepts).
L1: Pflichtangabe vorhanden?
L2: Pflichtangabe vollstaendig/korrekt?
"""
LOESCHKONZEPT_CHECKLIST = [
# ── L1: Geltungsbereich + Verantwortliche ─────────────────────────
{
"id": "scope_responsibility",
"label": "Geltungsbereich + Verantwortliche benannt",
"level": 1, "parent": None,
"patterns": [
r"(?:geltungsbereich|anwendungsbereich)",
r"verantwortlich\w*\s+(?:fuer|für)\s+(?:das\s+)?l(?:oe|ö)schkonzept",
r"(?:datenschutzbeauftragt\w*|dpo|dsb)\s+(?:verantwort|zustaendig|zuständig)",
# P39: heading variants + Verantwortlichkeiten table
r"(?:^|\n)\s*#+\s*\d*\.?\s*verantwortlichkeit",
r"(?:^|\n)\s*#+\s*\d*\.?\s*geltungsbereich",
r"verantwortlichkeiten\s*\|",
r"\|\s*verantwortlich\s*\|",
],
"severity": "HIGH",
"hint": "DIN 66398 verlangt einen klaren Geltungsbereich (welche Systeme, Datenarten, Standorte) und die Benennung des Verantwortlichen fuer Erstellung + Wartung des Loeschkonzepts.",
},
# ── L1: Datenkategorien ───────────────────────────────────────────
{
"id": "data_categories",
"label": "Datenkategorien / Datenarten dokumentiert",
"level": 1, "parent": None,
"patterns": [
r"(?:daten[\-\s]?kategori|datenart)\w*",
r"(?:kunden|mitarbeiter|interessent|bewerber|lieferant)daten",
r"personenbezogene?\s+daten[\-\s]?(?:art|kategori|gruppe)",
],
"severity": "HIGH",
"hint": "Pro Datenkategorie (Kundenstammdaten, Vertragsdaten, Mitarbeiterdaten, Bewerber, Lieferantendaten, etc.) muss eine eigene Loeschfrist festgelegt werden.",
},
{
"id": "data_categories_specific",
"label": "Konkrete Datenarten benannt (>= 5)",
"level": 2, "parent": "data_categories",
"patterns": [
r"(?:stammdaten|kontaktdaten|vertragsdaten|abrechnungsdaten|"
r"protokoll\w+|log[\-\s]?daten|gesundheits|biometrische?|"
r"finanz|bewerbungsunterlagen|kreditdaten|tracking)",
],
"severity": "MEDIUM",
"hint": "Beispiele aus der Praxis: Stammdaten, Kontaktdaten, Vertragsdaten, Abrechnungsdaten, Bewerbungsunterlagen, Log-Daten, Tracking-Cookies. Jeweils mit eigener Frist.",
},
# ── L1: Loeschfristen ─────────────────────────────────────────────
{
"id": "retention_periods",
"label": "Konkrete Loeschfristen festgelegt",
"level": 1, "parent": None,
"patterns": [
r"l(?:oe|ö)schfrist",
r"aufbewahrungs(?:frist|dauer|pflicht)",
r"\d+\s*(?:jahr|monat|tag|woche)",
r"speicherdauer",
],
"severity": "HIGH",
"hint": "Art. 5(1)(e) DSGVO + Art. 13(2)(a) DSGVO: Speicherdauer oder Kriterien fuer die Festlegung muessen pro Datenkategorie konkret benannt sein.",
},
{
"id": "legal_retention_basis",
"label": "Gesetzliche Aufbewahrungspflichten referenziert",
"level": 2, "parent": "retention_periods",
"patterns": [
r"§\s*257\s*hgb|§\s*147\s*ao|hgb\s+§\s*257|ao\s+§\s*147",
r"6\s+jahr\w*\s+\((?:hgb|handels)",
r"10\s+jahr\w*\s+\((?:ao|steuer)",
r"handelsrechtlich|steuerrechtlich",
r"§\s*195\s*bgb|verjaehrung\w*\s+\(bgb",
],
"severity": "MEDIUM",
"hint": "Standardfristen referenzieren: §257 HGB (6 Jahre Buchungsbelege), §147 AO (10 Jahre Steuerunterlagen), §195 BGB (3 Jahre Verjaehrung). Ohne Referenz wirken die Fristen willkuerlich.",
},
{
"id": "deletion_trigger",
"label": "Loeschtrigger / Loeschanlass dokumentiert",
"level": 2, "parent": "retention_periods",
"patterns": [
r"l(?:oe|ö)sch[\-\s]?(?:trigger|anlass|grund|kriteri)",
r"(?:nach|bei)\s+(?:vertragsende|kuendigung|kündigung|abschluss)",
r"zweckwegfall|zweck\s+entfaellt",
r"einwilligungswiderruf",
],
"severity": "MEDIUM",
"hint": "Pro Datenkategorie muss klar sein WANN die Frist beginnt: Vertragsende, Kuendigung, letzter Kontakt, Zweckwegfall, Einwilligungswiderruf. Nur 'X Jahre' ohne Startpunkt ist unscharf.",
},
# ── L1: Loeschprozess ─────────────────────────────────────────────
{
"id": "deletion_process",
"label": "Loeschprozess beschrieben",
"level": 1, "parent": None,
"patterns": [
r"l(?:oe|ö)sch(?:prozess|vorgang|verfahren|workflow|routine)",
r"(?:wie|wann)\s+(?:wird|werden)\s+(?:die\s+daten\s+)?gel(?:oe|ö)scht",
r"automatisierte?\s+l(?:oe|ö)schung",
# P39: more generic — "Verfahren fuer die Loeschung", "Loeschmethode"
r"verfahren\s+(?:fuer|für|zur?)\s+(?:die\s+)?l(?:oe|ö)sch",
r"l(?:oe|ö)sch(?:methode|frist|regel)",
r"systematische?\s+(?:regeln?|verfahren)[\s\S]{0,80}l(?:oe|ö)sch",
],
"severity": "HIGH",
"hint": "Beschreiben wie Loeschung erfolgt: automatisch per Cron-Job, manuell durch Admin, Loeschungs-Workflow im CRM, Backup-Loeschung etc.",
},
{
"id": "deletion_technical",
"label": "Technische Loeschmethode benannt",
"level": 2, "parent": "deletion_process",
"patterns": [
r"(?:physisch\w*|sicher\w*)\s+l(?:oe|ö)schung",
r"(?:ueberschr|überschr)eiben\w*\s*(?:der|von)?\s*daten",
r"(?:dod[\-\s]?5220|nist[\-\s]?800|crypto[\-\s]?shredding)",
r"papierakten?\s*(?:vernicht|schreddern|verbrenn)",
r"datentraeger\w*\s+(?:zerstoer|vernicht|entmagnetis)",
],
"severity": "LOW",
"hint": "Technische Standards nennen: DoD 5220.22-M (mehrfaches Ueberschreiben), NIST 800-88, Crypto-Shredding (Verschluesselung + Schluesselvernichtung), Papier per DIN 66399.",
},
{
"id": "deletion_systems",
"label": "Loeschung in allen relevanten Systemen",
"level": 2, "parent": "deletion_process",
"patterns": [
r"backup\w*\s+(?:l(?:oe|ö)sch|umfass|einbezogen|loeschr|löschr)",
r"archive?\w*\s+(?:l(?:oe|ö)sch|enthalten|inbegriffen|umfass)",
r"(?:crm|erp|datenbank|datawarehouse|dwh)\w*\s+l(?:oe|ö)sch",
r"(?:alle|saemtliche|sämtliche)\s+systeme",
],
"severity": "LOW",
"hint": "Loeschung muss in ALLEN Systemen erfolgen: CRM, ERP, Backups, Archive, Data Warehouse, lokale Kopien. Backups die laenger als die Loeschfrist aufbewahrt werden sind kritisch (gerichtlich umstritten).",
},
# ── L1: Loeschnachweis ────────────────────────────────────────────
{
"id": "deletion_proof",
"label": "Loeschnachweis / Loeschprotokoll",
"level": 1, "parent": None,
"patterns": [
r"l(?:oe|ö)sch[\-\s]?(?:nachweis|protokoll|dokumentation|log)",
r"(?:protokoll|dokument)\w*\s+(?:der|alle)\s+l(?:oe|ö)schung",
r"audit[\-\s]?trail.*l(?:oe|ö)sch",
],
"severity": "MEDIUM",
"hint": "Art. 5(2) DSGVO (Rechenschaftspflicht): Loeschvorgaenge muessen nachweisbar sein. Mindestens: was, wann, durch wen, von wo. Ein Audit-Log oder Loeschprotokoll erfuellt das.",
},
# ── L1: Ausnahmen / Sperren ───────────────────────────────────────
{
"id": "deletion_exceptions",
"label": "Ausnahmen + Sperrung statt Loeschung",
"level": 1, "parent": None,
"patterns": [
r"(?:einschraenkung|einschränkung)\s+der\s+verarbeitung|art\.?\s*18",
r"sperr\w+\s+(?:statt|anstelle)\s+l(?:oe|ö)sch",
r"l(?:oe|ö)sch(?:beschr|sperr|ausnahme|hindernis)",
r"(?:rechtsstreit|gerichtsverfahren|prozessrelevant)",
# P39: gesetzliche Aufbewahrungspflichten als legitime Loeschausnahme
r"(?:gesetzliche|handelsrechtlich|steuerrechtlich)\w*\s+aufbewahrungs?(?:pflicht|frist)",
r"aufbewahrungspflicht[\s\S]{0,80}(?:setzt|bleib|gilt)",
r"(?:hgb|ao|abgabenordnung)\s*§?\s*\d",
],
"severity": "MEDIUM",
"hint": "Wenn Loeschung nicht moeglich ist (laufender Prozess, gesetzliche Aufbewahrung, Streitfall) muss stattdessen Sperrung/Einschraenkung (Art. 18 DSGVO) erfolgen. Sperrkonzept dokumentieren.",
},
# ── L1: Review-Zyklus ─────────────────────────────────────────────
{
"id": "review_cycle",
"label": "Review-Zyklus / regelmaessige Pruefung",
"level": 1, "parent": None,
"patterns": [
r"(?:jaehrlich|jährlich|halbjaehrlich|halbjährlich|vierteljaehrlich|vierteljährlich|quartalsweise)\s+(?:gepr|review|aktualis)",
r"review[\-\s]?(?:zyklus|intervall|frist)",
r"naechste|nächste\s+(?:ueberpr|überpr|review)",
r"(?:loeschkonzept|löschkonzept)\s+(?:wird|muss)\s+(?:regelmaessig|regelmäßig|jaehrlich|jährlich)",
],
"severity": "LOW",
"hint": "DIN 66398 + Praxis: Loeschkonzept jaehrlich (oder bei Systemaenderungen ausserplanmaessig) ueberpruefen. Frist explizit benennen ('jaehrlich') statt nur 'regelmaessig'.",
},
# ── L1: DSGVO-Verweise ────────────────────────────────────────────
{
"id": "gdpr_reference",
"label": "Rechtliche Grundlagen referenziert",
"level": 1, "parent": None,
"patterns": [
r"art\.?\s*5\s*(?:abs\.?\s*1\s*)?(?:lit\.?\s*)?e\s*dsgvo",
r"art\.?\s*17\s*dsgvo",
r"art\.?\s*32\s*dsgvo",
r"speicherbegrenzung",
],
"severity": "LOW",
"hint": "Direkte Norm-Referenzen erhoehen Beweiskraft: Art. 5(1)(e) DSGVO (Speicherbegrenzung), Art. 17 (Recht auf Loeschung), Art. 32 (TOMs).",
},
]