8a44e67293
User: 'wir haben 1800 MCs erstellt um sie zu 10% zu nutzen — das ist Schwachsinn'. Fixed all 6 gaps from the audit. #1 max_controls=0 (was 20): - agent_compliance_check_routes _check_single: passes max_controls=0 to check_document_with_controls -> ALL MCs evaluated per doc_type. - 8 doc_types now use 1874 MCs instead of 160 (10x coverage). - Regex matching is cheap (<1s per doc); LLM-enrich cap of 10 stays. #2 LLM-verify fixed: - llm_verify.py was getting 0/N parsed. Causes: qwen3 thinking-mode wrapped output in <think>...</think>, /api/generate doesn't enforce JSON, prompt didn't handle code-fence wrappers. - Now uses /api/chat with format='json' (forces valid JSON). - _parse_batch_response strips <think> tags, accepts {results:[...]} AND bare [...], adds richer regex-fallback parse, logs raw head on total parse failure for diagnosis. #3 Loeschkonzept checklist (new): - doc_checks/loeschkonzept_checks.py — 9 L1 + 7 L2 checks per DIN 66398 + Art. 5(1)(e)/17/32 DSGVO: scope+responsibility, data categories, retention periods, legal basis refs (HGB/AO/BGB), deletion trigger, deletion process+technical+systems, deletion proof, exceptions + Art. 18 lock, review cycle, DSGVO references. - runner.py registered for loeschkonzept/loeschung/loeschfristen. #4 regulation backfill script: - backend-compliance/scripts/backfill_mc_regulation.py — regex-detects DSGVO/TDDDG/TMG/BGB/HGB/AO/MStV/UWG/VSBG/PAngV/GwG/BDSG/EU-VO references in MC title+question+pass_criteria, UPDATEs regulation + article fields. - Idempotent (only NULL rows), --dry-run flag, batched 200/UPDATE. - Run inside container: docker exec bp-compliance-backend python3 \ /app/scripts/backfill_mc_regulation.py #5 MC alias-fallback: - rag_document_checker._MC_ALIAS_FALLBACK maps doc_types without own MCs to a related set: nutzungsbedingungen->agb, social_media->dse, sub_processor/scc/tom_annex->avv, loeschfristen->loeschkonzept, eu_institution/dsb->dse. - _load_controls retries with the alias when the primary query returns 0 rows. - 14 additional doc_types now get MC coverage transparently. #6 cross-domain auto-discovery: - _autodiscover_missing builds a crawl plan: primary submitted base + up to 2 related domains sharing the owner SLD (e.g. BMW Group: bmw.de + bmwgroup.com + bmwgroup.jobs). - Detection: regex over submitted texts for https?://...<owner>... hostnames distinct from the primary base. - Each crawled base contributes documents + cmp_payloads to the discovery pool. Net effect for BMW: 1874 MCs evaluated (90 from cookie alone, was 20), Loeschkonzept Pflichtangaben benoten-bar, LLM overturns false regex FAILs, Joint-Controller policies on bmwgroup.jobs (Social Media) jetzt entdeckbar. Same wins will apply to CRA-Compliance check.
192 lines
9.6 KiB
Python
192 lines
9.6 KiB
Python
"""
|
|
Loeschkonzept checks — Art. 5(1)(e) DSGVO ('Speicherbegrenzung'),
|
|
DIN 66398 (Leitlinie zur Entwicklung eines Loeschkonzepts).
|
|
|
|
L1: Pflichtangabe vorhanden?
|
|
L2: Pflichtangabe vollstaendig/korrekt?
|
|
"""
|
|
|
|
LOESCHKONZEPT_CHECKLIST = [
|
|
# ── L1: Geltungsbereich + Verantwortliche ─────────────────────────
|
|
{
|
|
"id": "scope_responsibility",
|
|
"label": "Geltungsbereich + Verantwortliche benannt",
|
|
"level": 1, "parent": None,
|
|
"patterns": [
|
|
r"(?:geltungsbereich|anwendungsbereich)",
|
|
r"verantwortlich\w*\s+(?:fuer|für)\s+(?:das\s+)?l(?:oe|ö)schkonzept",
|
|
r"(?:datenschutzbeauftragt\w*|dpo|dsb)\s+(?:verantwort|zustaendig|zuständig)",
|
|
],
|
|
"severity": "HIGH",
|
|
"hint": "DIN 66398 verlangt einen klaren Geltungsbereich (welche Systeme, Datenarten, Standorte) und die Benennung des Verantwortlichen fuer Erstellung + Wartung des Loeschkonzepts.",
|
|
},
|
|
|
|
# ── L1: Datenkategorien ───────────────────────────────────────────
|
|
{
|
|
"id": "data_categories",
|
|
"label": "Datenkategorien / Datenarten dokumentiert",
|
|
"level": 1, "parent": None,
|
|
"patterns": [
|
|
r"(?:daten[\-\s]?kategori|datenart)\w*",
|
|
r"(?:kunden|mitarbeiter|interessent|bewerber|lieferant)daten",
|
|
r"personenbezogene?\s+daten[\-\s]?(?:art|kategori|gruppe)",
|
|
],
|
|
"severity": "HIGH",
|
|
"hint": "Pro Datenkategorie (Kundenstammdaten, Vertragsdaten, Mitarbeiterdaten, Bewerber, Lieferantendaten, etc.) muss eine eigene Loeschfrist festgelegt werden.",
|
|
},
|
|
{
|
|
"id": "data_categories_specific",
|
|
"label": "Konkrete Datenarten benannt (>= 5)",
|
|
"level": 2, "parent": "data_categories",
|
|
"patterns": [
|
|
r"(?:stammdaten|kontaktdaten|vertragsdaten|abrechnungsdaten|"
|
|
r"protokoll\w+|log[\-\s]?daten|gesundheits|biometrische?|"
|
|
r"finanz|bewerbungsunterlagen|kreditdaten|tracking)",
|
|
],
|
|
"severity": "MEDIUM",
|
|
"hint": "Beispiele aus der Praxis: Stammdaten, Kontaktdaten, Vertragsdaten, Abrechnungsdaten, Bewerbungsunterlagen, Log-Daten, Tracking-Cookies. Jeweils mit eigener Frist.",
|
|
},
|
|
|
|
# ── L1: Loeschfristen ─────────────────────────────────────────────
|
|
{
|
|
"id": "retention_periods",
|
|
"label": "Konkrete Loeschfristen festgelegt",
|
|
"level": 1, "parent": None,
|
|
"patterns": [
|
|
r"l(?:oe|ö)schfrist",
|
|
r"aufbewahrungs(?:frist|dauer|pflicht)",
|
|
r"\d+\s*(?:jahr|monat|tag|woche)",
|
|
r"speicherdauer",
|
|
],
|
|
"severity": "HIGH",
|
|
"hint": "Art. 5(1)(e) DSGVO + Art. 13(2)(a) DSGVO: Speicherdauer oder Kriterien fuer die Festlegung muessen pro Datenkategorie konkret benannt sein.",
|
|
},
|
|
{
|
|
"id": "legal_retention_basis",
|
|
"label": "Gesetzliche Aufbewahrungspflichten referenziert",
|
|
"level": 2, "parent": "retention_periods",
|
|
"patterns": [
|
|
r"§\s*257\s*hgb|§\s*147\s*ao|hgb\s+§\s*257|ao\s+§\s*147",
|
|
r"6\s+jahr\w*\s+\((?:hgb|handels)",
|
|
r"10\s+jahr\w*\s+\((?:ao|steuer)",
|
|
r"handelsrechtlich|steuerrechtlich",
|
|
r"§\s*195\s*bgb|verjaehrung\w*\s+\(bgb",
|
|
],
|
|
"severity": "MEDIUM",
|
|
"hint": "Standardfristen referenzieren: §257 HGB (6 Jahre Buchungsbelege), §147 AO (10 Jahre Steuerunterlagen), §195 BGB (3 Jahre Verjaehrung). Ohne Referenz wirken die Fristen willkuerlich.",
|
|
},
|
|
{
|
|
"id": "deletion_trigger",
|
|
"label": "Loeschtrigger / Loeschanlass dokumentiert",
|
|
"level": 2, "parent": "retention_periods",
|
|
"patterns": [
|
|
r"l(?:oe|ö)sch[\-\s]?(?:trigger|anlass|grund|kriteri)",
|
|
r"(?:nach|bei)\s+(?:vertragsende|kuendigung|kündigung|abschluss)",
|
|
r"zweckwegfall|zweck\s+entfaellt",
|
|
r"einwilligungswiderruf",
|
|
],
|
|
"severity": "MEDIUM",
|
|
"hint": "Pro Datenkategorie muss klar sein WANN die Frist beginnt: Vertragsende, Kuendigung, letzter Kontakt, Zweckwegfall, Einwilligungswiderruf. Nur 'X Jahre' ohne Startpunkt ist unscharf.",
|
|
},
|
|
|
|
# ── L1: Loeschprozess ─────────────────────────────────────────────
|
|
{
|
|
"id": "deletion_process",
|
|
"label": "Loeschprozess beschrieben",
|
|
"level": 1, "parent": None,
|
|
"patterns": [
|
|
r"l(?:oe|ö)sch(?:prozess|vorgang|verfahren|workflow|routine)",
|
|
r"(?:wie|wann)\s+(?:wird|werden)\s+(?:die\s+daten\s+)?gel(?:oe|ö)scht",
|
|
r"automatisierte?\s+l(?:oe|ö)schung",
|
|
],
|
|
"severity": "HIGH",
|
|
"hint": "Beschreiben wie Loeschung erfolgt: automatisch per Cron-Job, manuell durch Admin, Loeschungs-Workflow im CRM, Backup-Loeschung etc.",
|
|
},
|
|
{
|
|
"id": "deletion_technical",
|
|
"label": "Technische Loeschmethode benannt",
|
|
"level": 2, "parent": "deletion_process",
|
|
"patterns": [
|
|
r"(?:physisch\w*|sicher\w*)\s+l(?:oe|ö)schung",
|
|
r"(?:ueberschr|überschr)eiben\w*\s*(?:der|von)?\s*daten",
|
|
r"(?:dod[\-\s]?5220|nist[\-\s]?800|crypto[\-\s]?shredding)",
|
|
r"papierakten?\s*(?:vernicht|schreddern|verbrenn)",
|
|
r"datentraeger\w*\s+(?:zerstoer|vernicht|entmagnetis)",
|
|
],
|
|
"severity": "LOW",
|
|
"hint": "Technische Standards nennen: DoD 5220.22-M (mehrfaches Ueberschreiben), NIST 800-88, Crypto-Shredding (Verschluesselung + Schluesselvernichtung), Papier per DIN 66399.",
|
|
},
|
|
{
|
|
"id": "deletion_systems",
|
|
"label": "Loeschung in allen relevanten Systemen",
|
|
"level": 2, "parent": "deletion_process",
|
|
"patterns": [
|
|
r"backup\w*\s+(?:l(?:oe|ö)sch|umfass|einbezogen|loeschr|löschr)",
|
|
r"archive?\w*\s+(?:l(?:oe|ö)sch|enthalten|inbegriffen|umfass)",
|
|
r"(?:crm|erp|datenbank|datawarehouse|dwh)\w*\s+l(?:oe|ö)sch",
|
|
r"(?:alle|saemtliche|sämtliche)\s+systeme",
|
|
],
|
|
"severity": "LOW",
|
|
"hint": "Loeschung muss in ALLEN Systemen erfolgen: CRM, ERP, Backups, Archive, Data Warehouse, lokale Kopien. Backups die laenger als die Loeschfrist aufbewahrt werden sind kritisch (gerichtlich umstritten).",
|
|
},
|
|
|
|
# ── L1: Loeschnachweis ────────────────────────────────────────────
|
|
{
|
|
"id": "deletion_proof",
|
|
"label": "Loeschnachweis / Loeschprotokoll",
|
|
"level": 1, "parent": None,
|
|
"patterns": [
|
|
r"l(?:oe|ö)sch[\-\s]?(?:nachweis|protokoll|dokumentation|log)",
|
|
r"(?:protokoll|dokument)\w*\s+(?:der|alle)\s+l(?:oe|ö)schung",
|
|
r"audit[\-\s]?trail.*l(?:oe|ö)sch",
|
|
],
|
|
"severity": "MEDIUM",
|
|
"hint": "Art. 5(2) DSGVO (Rechenschaftspflicht): Loeschvorgaenge muessen nachweisbar sein. Mindestens: was, wann, durch wen, von wo. Ein Audit-Log oder Loeschprotokoll erfuellt das.",
|
|
},
|
|
|
|
# ── L1: Ausnahmen / Sperren ───────────────────────────────────────
|
|
{
|
|
"id": "deletion_exceptions",
|
|
"label": "Ausnahmen + Sperrung statt Loeschung",
|
|
"level": 1, "parent": None,
|
|
"patterns": [
|
|
r"(?:einschraenkung|einschränkung)\s+der\s+verarbeitung|art\.?\s*18",
|
|
r"sperr\w+\s+(?:statt|anstelle)\s+l(?:oe|ö)sch",
|
|
r"l(?:oe|ö)sch(?:beschr|sperr|ausnahme|hindernis)",
|
|
r"(?:rechtsstreit|gerichtsverfahren|prozessrelevant)",
|
|
],
|
|
"severity": "MEDIUM",
|
|
"hint": "Wenn Loeschung nicht moeglich ist (laufender Prozess, gesetzliche Aufbewahrung, Streitfall) muss stattdessen Sperrung/Einschraenkung (Art. 18 DSGVO) erfolgen. Sperrkonzept dokumentieren.",
|
|
},
|
|
|
|
# ── L1: Review-Zyklus ─────────────────────────────────────────────
|
|
{
|
|
"id": "review_cycle",
|
|
"label": "Review-Zyklus / regelmaessige Pruefung",
|
|
"level": 1, "parent": None,
|
|
"patterns": [
|
|
r"(?:jaehrlich|jährlich|halbjaehrlich|halbjährlich|vierteljaehrlich|vierteljährlich|quartalsweise)\s+(?:gepr|review|aktualis)",
|
|
r"review[\-\s]?(?:zyklus|intervall|frist)",
|
|
r"naechste|nächste\s+(?:ueberpr|überpr|review)",
|
|
r"(?:loeschkonzept|löschkonzept)\s+(?:wird|muss)\s+(?:regelmaessig|regelmäßig|jaehrlich|jährlich)",
|
|
],
|
|
"severity": "LOW",
|
|
"hint": "DIN 66398 + Praxis: Loeschkonzept jaehrlich (oder bei Systemaenderungen ausserplanmaessig) ueberpruefen. Frist explizit benennen ('jaehrlich') statt nur 'regelmaessig'.",
|
|
},
|
|
|
|
# ── L1: DSGVO-Verweise ────────────────────────────────────────────
|
|
{
|
|
"id": "gdpr_reference",
|
|
"label": "Rechtliche Grundlagen referenziert",
|
|
"level": 1, "parent": None,
|
|
"patterns": [
|
|
r"art\.?\s*5\s*(?:abs\.?\s*1\s*)?(?:lit\.?\s*)?e\s*dsgvo",
|
|
r"art\.?\s*17\s*dsgvo",
|
|
r"art\.?\s*32\s*dsgvo",
|
|
r"speicherbegrenzung",
|
|
],
|
|
"severity": "LOW",
|
|
"hint": "Direkte Norm-Referenzen erhoehen Beweiskraft: Art. 5(1)(e) DSGVO (Speicherbegrenzung), Art. 17 (Recht auf Loeschung), Art. 32 (TOMs).",
|
|
},
|
|
]
|