feat(consent+report): P56-P67 Mercedes-Audit-Cycle (Anti-Audit, Phase G Vendors, Cookie-Behavior-Validator + 5 Mail-Polish-Items) [migration-approved]
CI / detect-changes (push) Successful in 11s
CI / branch-name (push) Has been skipped
CI / nodejs-build (push) Successful in 2m19s
CI / test-go (push) Has been skipped
CI / test-python-document-crawler (push) Has been skipped
CI / test-python-dsms-gateway (push) Has been skipped
CI / guardrail-integrity (push) Has been skipped
CI / secret-scan (push) Has been skipped
CI / dep-audit (push) Has been skipped
CI / sbom-scan (push) Has been skipped
CI / validate-canonical-controls (push) Successful in 16s
CI / loc-budget (push) Failing after 15s
CI / go-lint (push) Has been skipped
CI / python-lint (push) Has been skipped
CI / nodejs-lint (push) Has been skipped
CI / iace-gt-coverage (push) Has been skipped
CI / test-python-backend (push) Successful in 37s

P56  Anti-Auditing-Detection als constructive Compliance-Finding (Audit-API-
     Empfehlung statt Anklage, weil Mercedes berechtigt Bots blockiert)
P57  Phase G vendor_details Union mit cmp_vendors -> 42 Anbieter sichtbar
P58  Anti-Audit-Detection robuster (Script-Domain-Check + Settings-spezifisch)
P59  Cookie-Behavior-Validator (4 Layer, 3-Tier-Severity: MEDIUM=Kategorie-
     Mismatch / HIGH=Zweck-Mismatch / CRITICAL=beide=Vorsatz-Indiz)
     + Open Cookie Database (CC0) als Library-Seed (2264 Cookies)
P59b Cookie-Behavior in Banner-Check verdrahtet + Mail-Block (BUGFIX:
     SessionLocal selbst oeffnen, db war im Background-Task nicht im Scope)

Mail-Polish nach Mercedes-Review:
P63  Banner-Footer-Links auch im wb7-link/role=link erkennen (Shadow-DOM-
     Walker label-based statt nur <a href>)
P64  Re-Access-Severity: MEDIUM statt HIGH, wenn Footer "Einstellungen" oder
     Mercedes-typisch existiert; OEM-Footer-Detection (wb7-footer)
P65  Text-Truncation: Word-Boundary statt Zeichen-Cut (kein "einfa"-Bruch
     mehr in Sofortmassnahmen)
P66  GF-Aktionen: Service-Zweck vs Cookie-Zweck explizit erklaert
     (haeufige Verwechslung Marketing/GF: "Akamai-Beschreibung" != Cookie-
     Zweck pro DSK-OH 2024)
P67  Stirring-Finding mit "Verlust-Framing"-Erklaerung + Alt-vs-Neutral-
     Beispiel, statt nur EDPB-Fachbegriff

Compliance-Advisor FAQ (admin agent-core/soul):
  + CNIL/EDPB Top-Bussgelder (Google 100M, Meta 60M, Amazon 35M)
  + Deutsche Praezedenz (LG Muenchen Google Fonts, EuGH Planet49, BGH I ZR 7/16)
  + 4 Risiko-Pfade (Bussgeld/Abmahnung/Sammelklage/NOYB) + Berechnungs-Methodik

Document-Generator Templates: AGB-DE (142), Impressum (140), Widerrufs-
formular-Anlage (143), DSR-Process-Dedup (139), Cookie-Library (144).

Architektur: doc_action_mappings.py + banner_dom_walkers.py +
cookie_behavior_validator.py + vendor_detail_extractor.py rausgezogen,
um die 500-LOC-Caps in agent_doc_check_report.py und
banner_text_checker.py einzuhalten.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
Benjamin Admin
2026-05-21 06:28:25 +02:00
parent badb356740
commit 57c0f940a2
38 changed files with 3656 additions and 116 deletions
@@ -0,0 +1,303 @@
"""
P59 — Cookie-Behavior-Validator.
4 Layer:
A) Open Cookie Database lookup (declared category vs library category)
B) Network-Traffic-Analyse (cookie value sent to third-party domains)
C) Value-Pattern (Hash/UUID/PII heuristics on "essential"-declared cookies)
D) Cross-Site frequency (from library metadata, when available)
Returns list of findings with severity + Art. 5(1)(b) DSGVO reference.
"""
from __future__ import annotations
import logging
import re
from typing import Iterable
from sqlalchemy import text
from sqlalchemy.orm import Session
logger = logging.getLogger(__name__)
# --- Patterns für Layer C ---
_HASH_PATTERN = re.compile(r"^[a-f0-9]{32,64}$", re.IGNORECASE)
_UUID_PATTERN = re.compile(
r"^[0-9a-f]{8}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{12}$",
re.IGNORECASE,
)
_BASE64_LONG = re.compile(r"^[A-Za-z0-9+/=]{40,}$")
_PII_KEYS = ("email", "@", "user_id", "userid", "username", "phone")
# --- Purpose-Keyword-Bags für Layer A2 (Zweck-Match) ---
_PURPOSE_KEYWORDS = {
"marketing": {
"tracking", "tracker", "targeting", "profiling", "profile",
"advertis", "marketing", "remarket", "retargeting", "conversion",
"audience", "behavioral", "behaviour", "personali", "interest",
"campaign", "promotion", "pixel", "fingerprint",
},
"statistics": {
"analytic", "analyse", "analyz", "measure", "measurement", "metric",
"statistic", "performance", "telemetr", "monitoring", "usage",
"reichweite", "auswert",
},
"essential": {
"session", "sitzung", "authentic", "anmeld", "login", "logout",
"security", "sicherheit", "csrf", "xsrf", "cookie consent",
"cookie-einwilligung", "technisch notwendig", "load balanc",
"lastverteil",
},
"functional": {
"preference", "praeferen", "language", "sprache", "layout", "design",
"cart", "warenkorb", "wishlist", "merkliste", "favorit", "theme",
"darkmode", "darstellung",
},
"social_media": {
"social", "facebook", "twitter", "linkedin", "instagram", "youtube",
"embed", "share", "teilen",
},
}
def _classify_purpose_text(text_value: str) -> set[str]:
"""Return set of categories whose keywords appear in the purpose-text."""
if not text_value:
return set()
t = text_value.lower()
matches = set()
for cat, kws in _PURPOSE_KEYWORDS.items():
if any(k in t for k in kws):
matches.add(cat)
return matches
def _lookup_library(db: Session, cookie_name: str,
cookie_domain: str) -> dict | None:
"""Layer A: find best library match."""
# Exact domain match first, then wildcard
cur = db.execute(text("""
SELECT actual_category, purpose_en, purpose_de, vendor_name,
data_receivers, source_name, source_url, confidence
FROM compliance.cookie_library
WHERE cookie_name = :name
ORDER BY
CASE WHEN domain_pattern = :domain THEN 0
WHEN :domain ILIKE replace(domain_pattern, '*', '%') THEN 1
ELSE 2 END,
confidence DESC
LIMIT 1
"""), {"name": cookie_name, "domain": cookie_domain or ""})
row = cur.fetchone()
if not row:
return None
return {
"actual_category": row[0], "purpose_en": row[1],
"purpose_de": row[2], "vendor_name": row[3],
"data_receivers": row[4] or [],
"source_name": row[5], "source_url": row[6],
"confidence": float(row[7] or 0),
}
def _value_pattern_flag(value: str | None, declared_category: str) -> str | None:
"""Layer C: detect tracking-typical patterns in essential-declared cookies."""
if not value or declared_category not in ("essential", "functional"):
return None
v = value.strip()
if not v or len(v) < 16:
return None
if _UUID_PATTERN.match(v):
return "UUID (Persistent Identifier)"
if _HASH_PATTERN.match(v):
return f"Hash-Wert ({len(v)} Hex-Zeichen — typisch User-ID)"
if _BASE64_LONG.match(v):
return f"Base64-Long ({len(v)} Zeichen — typisch Tracking-Payload)"
vlow = v.lower()
for kw in _PII_KEYS:
if kw in vlow:
return f"PII-Marker '{kw}' im Wert"
return None
def _category_label(cat: str) -> str:
return {
"essential": "technisch notwendig",
"functional": "funktional",
"statistics": "Analyse/Statistik",
"marketing": "Marketing/Werbung",
"social_media": "Social Media",
"unknown": "unbekannt",
}.get(cat, cat)
def validate_cookie_behavior(
db: Session,
cookies_set: Iterable[dict],
network_requests: list[dict] | None = None,
first_party_domain: str = "",
) -> list[dict]:
"""Run all 4 layers, return list of finding dicts.
Each cookie dict should have: name, domain (optional), value (optional),
declared_category (e.g. 'essential'), max_age_seconds (optional)."""
findings: list[dict] = []
network_requests = network_requests or []
fp_domain = (first_party_domain or "").lower().lstrip(".")
# Pre-index network: which receivers got which cookie?
receivers_by_cookie: dict[str, set[str]] = {}
for req in network_requests:
try:
host = (req.get("host") or req.get("url", "")).lower()
for cname in (req.get("cookies_sent") or []):
receivers_by_cookie.setdefault(cname, set()).add(host)
except Exception:
continue
for c in cookies_set or []:
name = (c.get("name") or "").strip()
if not name:
continue
declared = (c.get("declared_category") or "").lower()
domain = (c.get("domain") or "").lstrip(".").lower()
value = c.get("value")
# Layer A: library lookup + 3-Tier-Severity (Kategorie / Zweck / Kombi)
lib = _lookup_library(db, name, domain)
declared_purpose = (c.get("declared_purpose") or "").strip()
if lib and lib["actual_category"] != "unknown":
# Layer A1: Kategorie-Mismatch (NUR wenn relevant — declared ist
# essential/functional aber library sagt marketing/statistics)
category_mismatch = (
declared
and lib["actual_category"] != declared
and declared in ("essential", "functional")
and lib["actual_category"] in ("marketing", "statistics",
"social_media")
)
# Layer A2: Zweck-Text-Mismatch
purpose_mismatch = False
purpose_explain = ""
if declared_purpose:
declared_cats = _classify_purpose_text(declared_purpose)
actual_cat = lib["actual_category"]
# Mismatch wenn deklarierter Zweck-Text auf andere Kategorie
# zeigt als die Library-Realität (z.B. declared "Sitzung" aber
# tatsaechlich Marketing-Cookie)
if actual_cat in ("marketing", "statistics", "social_media"):
# Verdacht wenn deklarierter Zweck NUR essential/functional
# Patterns hat (nichts zu Marketing/Analytics)
if declared_cats and actual_cat not in declared_cats:
# ausserdem: irgendein "harmloser" Keyword da
if declared_cats & {"essential", "functional"}:
purpose_mismatch = True
purpose_explain = (
f"Beschriebener Zweck deutet auf "
f"{', '.join(_category_label(c) for c in declared_cats)}, "
f"das Cookie wird aber tatsaechlich fuer "
f"{_category_label(actual_cat)} eingesetzt"
)
# 3-Tier-Severity
if category_mismatch and purpose_mismatch:
# CRITICAL — Vorsatz / Boeswilligkeit-Indiz
findings.append({
"layer": "A1+A2",
"cookie_name": name,
"severity": "CRITICAL",
"type": "DUAL_MISMATCH_INTENT",
"text": (
f"Cookie '{name}' weist DOPPELTE Diskrepanz auf: "
f"deklarierte Kategorie '{_category_label(declared)}' UND "
f"deklarierter Zweck stimmen NICHT mit dem realen Verhalten "
f"('{_category_label(lib['actual_category'])}') ueberein. "
f"{purpose_explain}. {lib['source_name']}-Quelle: "
f"{lib['purpose_en'][:120] if lib['purpose_en'] else ''}. "
f"Doppel-Mismatch indiziert Vorsatz nach DSK Beschluss 2024-02 "
f"(Cookie gezielt verschleiert) — siehe Bussgeld-Risiko Art. 83 "
f"DSGVO bei wissentlicher Taeuschung. Konstruktive Annahme: "
f"haeufig Marketing-/Agentur-Versehen ohne DSB-Kontrolle."
),
"legal_ref": "Art. 5(1)(a)+(b) DSGVO + DSK Beschluss 2024-02",
"source": lib["source_url"] or lib["source_name"],
})
elif purpose_mismatch:
# HIGH — Zweck stimmt nicht (Ahnungslosigkeit oder Vorsatz)
findings.append({
"layer": "A2",
"cookie_name": name,
"severity": "HIGH",
"type": "PURPOSE_TEXT_MISMATCH",
"text": (
f"Cookie '{name}': {purpose_explain}. {lib['source_name']}: "
f"{(lib['purpose_en'] or '')[:140]}. Deutet auf fehlende "
f"Detail-Pruefung des Cookie-Verhaltens — Beschreibung sollte "
f"das tatsaechliche Verhalten reflektieren (Art. 13 DSGVO + "
f"Transparenz)."
),
"legal_ref": "Art. 13(1)(c) DSGVO (Zweck-Angabe muss korrekt sein)",
"source": lib["source_url"] or lib["source_name"],
})
elif category_mismatch:
# MEDIUM — Kategorie-Tag falsch, kann Fluechtigkeitsfehler sein
findings.append({
"layer": "A1",
"cookie_name": name,
"severity": "MEDIUM",
"type": "CATEGORY_MISMATCH",
"text": (
f"Cookie '{name}' ist als '{_category_label(declared)}' "
f"kategorisiert. {lib['source_name']} klassifiziert ihn als "
f"'{_category_label(lib['actual_category'])}'"
+ (f"{lib['purpose_en'][:120]}" if lib['purpose_en'] else "")
+ f". Vermutlich Konfigurations-Versehen im Consent-Tool "
f"(haeufig bei Migrations zwischen CMP-Anbietern). "
f"Korrektur: Cookie auf '{_category_label(lib['actual_category'])}'"
f" umstellen, Consent neu einholen."
),
"legal_ref": "Art. 5(1)(b) DSGVO (Zweckbindung)",
"source": lib["source_url"] or lib["source_name"],
})
# Layer B: network traffic
receivers = receivers_by_cookie.get(name, set())
third_party = [r for r in receivers
if r and fp_domain and not r.endswith(fp_domain)]
if third_party and declared in ("essential", "functional"):
findings.append({
"layer": "B",
"cookie_name": name,
"severity": "HIGH",
"type": "THIRD_PARTY_DESPITE_ESSENTIAL",
"text": (
f"Cookie '{name}' ist als '{_category_label(declared)}' "
f"deklariert, der Wert wird aber an {len(third_party)} "
f"externe(n) Empfaenger uebertragen: "
f"{', '.join(sorted(third_party))[:200]}. "
f"Damit liegt eine Drittlandstransfer-/Drittanbieter-Verarbeitung "
f"vor, die nicht durch die deklarierte Zweckbestimmung gedeckt ist."
),
"legal_ref": "Art. 5(1)(b) Zweckbindung + Art. 13(1)(f) DSGVO",
})
# Layer C: value pattern
flag = _value_pattern_flag(value, declared)
if flag:
findings.append({
"layer": "C",
"cookie_name": name,
"severity": "MEDIUM",
"type": "TRACKING_PATTERN_DESPITE_ESSENTIAL",
"text": (
f"Cookie '{name}' ist als '{_category_label(declared)}' "
f"deklariert, enthaelt aber: {flag}. Werte mit Tracking-Charakter "
f"sind in nicht einwilligungsbeduerftigen Kategorien fragwuerdig."
),
"legal_ref": "Art. 5(1)(b) DSGVO + DSK-OH Telemedien 2024",
})
# Layer D: cross-site frequency (later — needs metadata import)
return findings
@@ -39,6 +39,12 @@ AGB_CHECKLIST = [
"patterns": [
r"vertragsschluss", r"zustandekommen",
r"contract\s+formation", r"angebot\s+und\s+annahme",
# P41: English synonyms
r"conclusion\s+of\s+(?:the\s+)?contract",
r"contract\s+(?:is\s+)?(?:concluded|formed)",
r"offer\s+and\s+acceptance",
r"how\s+the\s+contract\s+is\s+formed",
r"contracts?\s+(?:apply|between\s+the\s+provider)",
],
"severity": "HIGH",
"hint": "Haeufiger Fehler: Die Bestellung wird als Angebot des Kunden dargestellt, aber die Auftragsbestaetigung als Annahme — das ist nur wirksam, wenn klar zwischen Eingangsbestaetigung (§312i BGB) und Auftragsbestaetigung/Annahme unterschieden wird.",
@@ -140,6 +146,15 @@ AGB_CHECKLIST = [
r"lieferung", r"leistungserbringung", r"delivery",
r"lieferfrist", r"bereitstellung",
r"(?:zugang|zugriff).*(?:dienst|leistung)",
# P41: English synonyms (SaaS-style)
r"provision\s+of\s+(?:the\s+)?(?:service|services)",
r"(?:performance|rendering)\s+of\s+(?:the\s+)?(?:service|services)",
r"availability\s+of\s+(?:the\s+)?service",
r"service\s+level\s+(?:agreement|description)",
r"access\s+to\s+(?:the\s+)?(?:service|platform)",
r"description\s+of\s+(?:the\s+)?services?",
r"(?:^|\n)\s*#+\s*[§\d\.\s]*availability\b",
r"(?:^|\n)\s*#+\s*[§\d\.\s]*description\s+of\s+services?",
],
"severity": "MEDIUM",
"hint": "Bei Fernabsatzvertraegen muss der Unternehmer spaetestens 30 Tage nach Vertragsschluss liefern (§475 Abs. 1 BGB). Formulierungen wie 'Lieferung in der Regel in...' oder 'voraussichtlich' sind nur als Richtwert zulaessig, nicht als verbindliche Frist.",
@@ -230,6 +245,12 @@ AGB_CHECKLIST = [
r"(?:agb|bedingung).*datenschutz",
r"personenbezogen.*daten.*(?:agb|vertrag)",
r"dsgvo.*(?:agb|vertrag)",
# P41: English synonyms
r"data\s+protection.*(?:terms|contract)",
r"(?:terms|contract).*data\s+protection",
r"personal\s+data.*(?:terms|contract|agreement)",
r"gdpr.*(?:terms|contract|agreement)",
r"privacy\s+(?:policy|notice).*(?:see|refer)",
],
"severity": "LOW",
"hint": "AGB und Datenschutzerklaerung sind rechtlich getrennte Dokumente. Mischen Sie KEINE Datenschutzhinweise in die AGB ein — stattdessen genuegt ein Verweis: 'Details zur Datenverarbeitung finden Sie in unserer Datenschutzerklaerung [Link].'",
@@ -245,6 +266,11 @@ AGB_CHECKLIST = [
r"(?:unwirksamkeit|nichtigkeit)\s+(?:einer|einzelner)\s+(?:bestimmung|klausel|regelung)",
r"(?:sollte|sofern).*(?:bestimmung|klausel).*(?:unwirksam|nichtig)",
r"(?:uebrigen|übrigen)\s+bestimmungen.*(?:unberuehrt|unberührt|wirksam|bestehen)",
# P41: English equivalents
r"severability",
r"(?:invalid|unenforceable).*(?:provision|clause)",
r"remaining\s+provisions\s+(?:shall\s+)?(?:remain|continue)",
r"(?:provision|clause)\s+(?:is\s+)?(?:invalid|unenforceable|void)",
],
"severity": "LOW",
"hint": "Die klassische salvatorische Klausel ('unwirksame Bestimmungen werden durch wirksame ersetzt') ist nach BGH-Rechtsprechung in AGB selbst unwirksam. Besser: Nur die Erhaltungsklausel verwenden ('Die uebrigen Bestimmungen bleiben wirksam').",
@@ -260,6 +286,12 @@ AGB_CHECKLIST = [
r"(?:agb|bedingung).*(?:ae|ä)nder",
r"(?:anpassung|aktualisierung).*(?:agb|bedingung|geschaeftsbedingung|geschäftsbedingung)",
r"(?:neue\s+fassung|neufassung).*(?:agb|bedingung)",
# P41: English
r"amendments?.*(?:terms|conditions|agreement)",
r"(?:terms|conditions|agreement).*(?:may\s+be\s+)?amend",
r"changes?\s+to\s+(?:these\s+)?(?:terms|conditions)",
r"modification\s+of\s+(?:the\s+)?(?:terms|agreement)",
r"(?:revised|updated)\s+(?:terms|conditions|version)",
],
"severity": "LOW",
"hint": "AGB-Aenderungsklauseln bei B2C sind nur unter engen Voraussetzungen wirksam (BGH Az. XI ZR 388/10): Aenderungsgrund muss konkret benannt sein, Kunde muss angemessene Frist zur Kuendigung erhalten. Pauschale 'Wir koennen jederzeit aendern'-Klauseln sind unwirksam.",
@@ -275,6 +307,12 @@ AGB_CHECKLIST = [
r"verbraucherrecht",
r"(?:gesetzlich|zwingende)\w*\s+recht\w*.*(?:unberuehrt|unberührt|bestehen\s+bleiben)",
r"(?:verbrauch|konsument).*(?:recht|anspruch|schutz)",
# P41: English equivalents — UCTA / Consumer Rights Act
r"consumer\s+(?:rights?|protection|laws?)",
r"statutory\s+rights?\s+(?:are|shall\s+be|remain)\s+unaffected",
r"mandatory\s+(?:law|rights?)\s+(?:remain|shall\s+remain)",
r"(?:nothing|no\s+provision)\s+(?:in\s+these\s+)?(?:terms|conditions)\s+(?:shall|limits?|excludes?)",
r"contracts?\s+with\s+consumers?\s+(?:are\s+not\s+concluded|excluded)",
],
"severity": "LOW",
"hint": "Haeufigste §309 BGB-Verstoesse: Pauschalierter Schadensersatz ohne Gegenbeweismoeglichkeit (Nr. 5), Haftungsausschluss bei Koerperschaeden (Nr. 7a), Schriftformerfordernis fuer Kuendigung (Nr. 13). Jede dieser Klauseln ist einzeln abmahnfaehig.",
@@ -259,6 +259,8 @@ AVV_CHECKLIST = [
r"(?:l(?:oe|ö)schung|rueckgabe|r(?:ue|ü)ckgabe)\s+(?:nach|bei|zum)\s+(?:vertragsende|beendigung|ablauf)",
r"(?:nach|bei)\s+(?:beendigung|ablauf|ende)\s+(?:des\s+)?(?:vertrag|auftrag)[\s\S]{0,100}(?:l(?:oe|ö)sch|rueckgabe|r(?:ue|ü)ckgabe|vernicht)",
r"(?:alle|saemtliche)\s+(?:personenbezogenen?\s+)?daten\s+(?:l(?:oe|ö)sch|vernicht|zurueckgeb|zur(?:ue|ü)ckgeb)",
# P39: reverse order — "loescht/gibt ... nach Beendigung/Ablauf"
r"(?:l(?:oe|ö)sch|gibt|gibt\s+zur(?:ue|ü)ck|vernicht)\w*[\s\S]{0,150}(?:nach|bei|zum)\s+(?:beendigung|ablauf|ende|vertragsende)",
],
"severity": "CRITICAL",
"hint": "Art. 28(3)(g) DSGVO: Nach Ende der Verarbeitung muessen alle personenbezogenen Daten geloescht oder zurueckgegeben werden — nach Wahl des Verantwortlichen. Ausnahme nur bei gesetzlicher Aufbewahrungspflicht.",
@@ -336,6 +338,10 @@ AVV_CHECKLIST = [
r"data\s+breach",
r"(?:meld|benachrichtig|informier|unterricht)\w*[\s\S]{0,50}(?:verletzung|vorfall|sicherheit)",
r"art(?:ikel)?\s*\.?\s*33\s+(?:dsgvo|ds-?gvo)",
# P39: "Datenpanne" als gleichwertiges Synonym (sehr verbreitet)
r"datenpanne",
r"meldung\s+von\s+datenpannen",
r"art\.?\s*33\s+abs\.?\s*\d",
],
"severity": "CRITICAL",
"hint": "Art. 33(2) DSGVO: Der Auftragsverarbeiter muss den Verantwortlichen UNVERZUEGLICH ueber jede Datenschutzverletzung informieren. Die 72-Stunden-Frist des Verantwortlichen gegenueber der Aufsichtsbehoerde laeuft ab Kenntnis — daher sollte die Meldefrist im AVV enger sein (z.B. 24h).",
@@ -66,6 +66,10 @@ COOKIE_CHECKLIST = [
r"(?:setzen|verwenden|nutzen)\s+.*cookies?\s+.*(?:um|fuer|für)",
r"(?:analyse|marketing|tracking|funktional)\w*\s*cookies?\s*\.?\s*(?:um|damit|diese|sie)",
r"cookies?\s+(?:dienen|helfen|erm(?:oe|ö)glichen)",
# P39: cookie purpose table column "| Zweck |" + "Kategorie"
r"kategorie\s*\|\s*zweck",
r"\|\s*zweck\s*\|",
r"welche\s+technologie\s+welchen\s+zweck",
],
"severity": "HIGH",
"hint": "Art. 13 Abs. 1 lit. c DSGVO verlangt die Zweckangabe je Verarbeitung. Jede Cookie-Kategorie braucht einen konkreten Zweck (z.B. 'Reichweitenmessung', 'Conversion-Tracking'), nicht nur 'zur Verbesserung unserer Website'.",
@@ -207,6 +211,10 @@ COOKIE_CHECKLIST = [
r"(?:datenschutz[\-]?rechtlich(?:er)?\s+)?verantwortlich\w*\s*[:\|]",
r"daten(?:schutz)?[\-]?(?:rechtlich(?:er)?\s+)?(?:verantwortl|controller)",
r"\bcontroller\b.*\b(?:art\.?\s*13|art\.?\s*14|gdpr|dsgvo)",
# P39: heading variant — common in cookie policies
r"(?:^|\n)\s*#+\s*\d*\.?\s*verantwortlich\w*",
r"(?:^|\n)\s*\d+\.\s+verantwortlich\w*",
r"verantwortlich\w*\s+(?:fuer|für|ist|im\s+sinne)",
],
"severity": "MEDIUM",
"hint": "Art. 13(1)(a) DSGVO verlangt die Nennung des Verantwortlichen in der Cookie-Richtlinie. Pflicht: Firmenname + Anschrift + Kontaktdaten (E-Mail/Telefon). Akzeptabel: knapper Verweis 'Details zum Verantwortlichen siehe Datenschutzerklaerung [Link]' wenn die DSI verlinkt ist.",
@@ -17,6 +17,11 @@ ART13_CHECKLIST = [
r"name\s+(?:und|&)\s+kontaktdaten\s+des",
r"controller", r"verantwortliche\s+stelle",
r"responsible\s+(?:party|for)",
# P39: Heading-style "## 1. Verantwortlicher", "## Verantwortlicher",
# "1. Verantwortlicher" — common template structure that wasn't matched.
r"(?:^|\n)\s*#+\s*\d*\.?\s*verantwortlich\w*",
r"(?:^|\n)\s*\d+\.\s+verantwortlich\w*",
r"\bverantwortlich\w*\s*[:\n]",
],
"severity": "HIGH",
"hint": "Art. 13(1)(a) DSGVO verlangt vollstaendige Identifizierung: Firmenname mit Rechtsform (z.B. 'Muster GmbH'), ladungsfaehige Anschrift, E-Mail und Telefon. Haeufiger Fehler: Nur Markenname ohne Rechtsform — das genuegt nicht zur Zustellung.",
@@ -93,6 +98,11 @@ ART13_CHECKLIST = [
r"zu\s+welch\w+\s+zweck",
r"welche\s+daten\s+werden.*verarbeitet",
r"daten\s+werden\s+(?:zu|fuer|für)\s+(?:folgende|diese)",
# P39: heading variants
r"(?:^|\n)\s*#+\s*\d*\.?\s*zwecke?\b",
r"\*\*zwecke?:?\*\*",
r"purposes?\s+and\s+(?:legal|legal\s+bases?)",
r"purposes?\s*[:\n]",
],
"severity": "HIGH",
"hint": "Art. 13(1)(c) verlangt konkrete Zweckangaben — nicht nur 'Wir verarbeiten Ihre Daten'. Jeder Dienst braucht einen eigenen Zweck: z.B. 'Webanalyse via Matomo', 'Newsletter-Versand', 'Kontaktanfragen'. Pauschalformulierungen verstiessen laut DSK gegen den Transparenzgrundsatz (Art. 5(1)(a)).",
@@ -223,6 +233,13 @@ ART13_CHECKLIST = [
r"(?:ueber|über)mittlung.*(?:ausserhalb|außerhalb)",
r"(?:europ(?:ae|ä)ischen\s+wirtschaftsraum|ewr|eea)",
r"privacy\s+shield", r"data\s+privacy\s+framework",
# P39: Art. 13(1)(f) verlangt nur Erwaehnung — "keine
# Uebermittlung in Drittlaender" / "kein Drittlandtransfer"
# / "alle Verarbeitung innerhalb der EU" sind explizite,
# konforme Negations-Aussagen.
r"(?:kein|keine)\s+(?:uebermittlung|übermittlung|transfer|drittland)",
r"verarbeitung\s+(?:erfolgt\s+)?(?:ausschliesslich|ausschließlich|nur)\s+(?:in|innerhalb)\s+(?:der\s+)?(?:eu|europ(?:ae|ä)ischen\s+union|ewr)",
r"alle\s+daten\s+(?:bleiben|verbleiben)\s+(?:in|innerhalb)\s+(?:der\s+)?(?:eu|deutschland)",
],
"severity": "MEDIUM",
"hint": "Art. 13(1)(f) DSGVO: Bei jedem Drittlandtransfer muessen Empfaengerland und Schutzgarantien genannt werden. Pruefen Sie: Google Fonts, reCAPTCHA, YouTube-Embeds, CDNs — all das sind USA-Transfers. Fehlende Angabe war Grundlage zahlreicher DSGVO-Bussgelder.",
@@ -192,6 +192,11 @@ DSFA_CHECKLIST = [
r"landes.?datenschutz",
r"richtlinie.*(?:land|lfdi|landes)",
r"(?:aufsichtsbeh(?:oe|ö)rde|beh(?:oe|ö)rde).*(?:richtlinie|empfehlung|vorgabe)",
# P39: DSK Liste/Blacklist + spezifische Landesbehoerden
r"(?:dsk|datenschutzkonferenz)\s+(?:positiv|black)?liste",
r"art\.?\s*35\s*\(?\s*4\s*\)?\s*dsgvo",
r"(?:berliner|hamburgische|saechsisch|bayerisch|nordrhein|baden)\w*\s+beauftragt",
r"(?:bfdi|bvfd|ldsbw|ldsh)",
],
"severity": "MEDIUM",
"hint": "Die DSK hat eine Positivliste (Blacklist) nach Art. 35(4) DSGVO veroeffentlicht, die DSFA-pflichtige Verarbeitungen auflistet. Zusaetzlich hat jedes Bundesland eigene LfDI-Empfehlungen — z.B. der LfDI BaWue zu Social-Media-Fanpages. Pruefen und zitieren Sie die fuer Sie zustaendige Behoerde.",
@@ -16,6 +16,11 @@ LOESCHKONZEPT_CHECKLIST = [
r"(?:geltungsbereich|anwendungsbereich)",
r"verantwortlich\w*\s+(?:fuer|für)\s+(?:das\s+)?l(?:oe|ö)schkonzept",
r"(?:datenschutzbeauftragt\w*|dpo|dsb)\s+(?:verantwort|zustaendig|zuständig)",
# P39: heading variants + Verantwortlichkeiten table
r"(?:^|\n)\s*#+\s*\d*\.?\s*verantwortlichkeit",
r"(?:^|\n)\s*#+\s*\d*\.?\s*geltungsbereich",
r"verantwortlichkeiten\s*\|",
r"\|\s*verantwortlich\s*\|",
],
"severity": "HIGH",
"hint": "DIN 66398 verlangt einen klaren Geltungsbereich (welche Systeme, Datenarten, Standorte) und die Benennung des Verantwortlichen fuer Erstellung + Wartung des Loeschkonzepts.",
@@ -98,6 +103,10 @@ LOESCHKONZEPT_CHECKLIST = [
r"l(?:oe|ö)sch(?:prozess|vorgang|verfahren|workflow|routine)",
r"(?:wie|wann)\s+(?:wird|werden)\s+(?:die\s+daten\s+)?gel(?:oe|ö)scht",
r"automatisierte?\s+l(?:oe|ö)schung",
# P39: more generic — "Verfahren fuer die Loeschung", "Loeschmethode"
r"verfahren\s+(?:fuer|für|zur?)\s+(?:die\s+)?l(?:oe|ö)sch",
r"l(?:oe|ö)sch(?:methode|frist|regel)",
r"systematische?\s+(?:regeln?|verfahren)[\s\S]{0,80}l(?:oe|ö)sch",
],
"severity": "HIGH",
"hint": "Beschreiben wie Loeschung erfolgt: automatisch per Cron-Job, manuell durch Admin, Loeschungs-Workflow im CRM, Backup-Loeschung etc.",
@@ -154,6 +163,10 @@ LOESCHKONZEPT_CHECKLIST = [
r"sperr\w+\s+(?:statt|anstelle)\s+l(?:oe|ö)sch",
r"l(?:oe|ö)sch(?:beschr|sperr|ausnahme|hindernis)",
r"(?:rechtsstreit|gerichtsverfahren|prozessrelevant)",
# P39: gesetzliche Aufbewahrungspflichten als legitime Loeschausnahme
r"(?:gesetzliche|handelsrechtlich|steuerrechtlich)\w*\s+aufbewahrungs?(?:pflicht|frist)",
r"aufbewahrungspflicht[\s\S]{0,80}(?:setzt|bleib|gilt)",
r"(?:hgb|ao|abgabenordnung)\s*§?\s*\d",
],
"severity": "MEDIUM",
"hint": "Wenn Loeschung nicht moeglich ist (laufender Prozess, gesetzliche Aufbewahrung, Streitfall) muss stattdessen Sperrung/Einschraenkung (Art. 18 DSGVO) erfolgen. Sperrkonzept dokumentieren.",
@@ -236,27 +236,47 @@ def _extract_cookiebot(d: dict) -> list[dict]:
# ── Usercentrics ────────────────────────────────────────────────────
def _extract_usercentrics(d: dict) -> list[dict]:
"""Usercentrics 'services' / 'dataProcessingServices' shape."""
"""Usercentrics shape — legacy 'services' and modern 'consentTemplates'.
P49: modern Usercentrics-Settings (e.g. Mercedes 2026) keep vendors
in `consentTemplates[]` with name inside `_meta.name` and category
in `categorySlug`. Legacy format used `services[]` / `dataProcessingServices[]`
with name as direct field.
"""
out: list[dict] = []
services = (d.get("services") or d.get("dataProcessingServices")
or (d.get("settings") or {}).get("services") or [])
# P49: fall through to consentTemplates if legacy keys are empty.
# Filter out hidden/deactivated entries (UC backend toggles).
if not services:
services = [t for t in d.get("consentTemplates") or []
if not t.get("isHidden") and not t.get("isDeactivated")]
for s in services:
name = s.get("name") or s.get("dataProcessor") or ""
name = (s.get("name") or s.get("dataProcessor")
or (s.get("_meta") or {}).get("name") or "")
name = name.strip()
if not name:
continue
max_age = s.get("cookieMaxAgeSeconds")
persistence = ""
if isinstance(max_age, int) and max_age > 0:
persistence = f"{max_age // 86400} Tage"
# P49: modern format stores company / urls in _meta
meta = s.get("_meta") or {}
out.append({
"name": name,
"country": (s.get("processingCompanyCountry")
or s.get("country") or "").strip(),
"purpose": _clean(s.get("dataPurpose") or s.get("description")),
"category": (s.get("categorySlug") or s.get("category") or "").strip(),
"opt_out_url": (s.get("optOutUrl") or "").strip(),
or s.get("country")
or meta.get("country") or "").strip(),
"purpose": _clean(s.get("dataPurpose") or s.get("description")
or meta.get("description") or ""),
"category": (s.get("categorySlug") or s.get("category")
or meta.get("categorySlug") or "").strip(),
"opt_out_url": (s.get("optOutUrl")
or meta.get("optOutUrl") or "").strip(),
"privacy_policy_url": (s.get("policyOfProcessorUrl")
or s.get("urls", {}).get("privacyPolicy", "")
or meta.get("policyOfProcessorUrl")
or "").strip(),
"persistence": persistence or _clean(s.get("retentionPeriodDescription")),
"cookies": [],