docs: add Phase 4 (Website-Scan) to Control Relevance Filter plan

Multi-page crawl: scan 5-10 strategic pages (start, footer links) for chatbot widgets, AI text mentions, and tracking services. Feed results into relevance filter to reduce false positives. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-04-28 15:11:19 +02:00
parent 2a6f526c88
commit acd2d5f944
1 changed files with 162 additions and 0 deletions
--- a/zeroclaw/PLAN-control-relevance-filter.md
+++ b/zeroclaw/PLAN-control-relevance-filter.md
@@ -154,6 +154,168 @@ UCCA Assessment
 | Migration | `relevance_conditions` Spalte |
 | `control-pipeline/` | Batch-Seeding Job (Phase 3) |
 ## Phase 4: Website-Scan (Multi-Page Crawl)
 ### Problem
 Aktuell analysieren wir nur EINE URL (z.B. `/datenschutz/`). Aber relevante Hinweise
 auf KI, Chatbots, automatisierte Entscheidungen oder Tracking koennen auf ANDEREN
 Seiten der Website stehen:
 - Chatbot-Widget auf der Startseite (nicht auf der Datenschutzseite)
 - "Powered by ChatGPT" im Footer
 - KI-gestuetzte Produktempfehlungen auf der Shopseite
 - Cookie-Scripts die Tracking-Dienste laden (Google Analytics, Meta Pixel, etc.)
 - Chatbot-Anbieter wie Intercom, Drift, Zendesk, Tidio im HTML
 ### Loesung: Lightweight Website-Scan
 Kein vollstaendiger Crawl (zu langsam, zu invasiv), sondern ein gezielter Scan
 von 5-10 strategischen Seiten:
 ```
 Eingabe: https://www.opodo.de/datenschutz/
 Automatisch gescannte Seiten:
 1. Startseite:           https://www.opodo.de/
 2. Datenschutz (bereits): https://www.opodo.de/datenschutz/
 3. Impressum:            https://www.opodo.de/impressum/ (aus Footer-Links)
 4. AGB:                  https://www.opodo.de/agb/ (aus Footer-Links)
 5. Cookie-Policy:        https://www.opodo.de/cookies/ (falls vorhanden)
 ```
 ### Scan-Logik
 **Schritt 1: Startseite holen + Footer-Links extrahieren**
 ```python
 # Aus der Startseite die typischen Footer-Links extrahieren:
 footer_patterns = [
    r'href="([^"]*(?:impressum|imprint|legal)[^"]*)"',
    r'href="([^"]*(?:datenschutz|privacy|dsgvo)[^"]*)"',
    r'href="([^"]*(?:agb|terms|nutzungsbedingungen)[^"]*)"',
    r'href="([^"]*(?:cookie|cookies)[^"]*)"',
    r'href="([^"]*(?:kontakt|contact)[^"]*)"',
 ]
 ```
 **Schritt 2: Jede Seite auf KI/Chatbot/Tracking-Indikatoren scannen**
 ```python
 AI_INDICATORS = {
    # Chatbot-Widgets (JavaScript-Einbindungen)
    "chatbot_widgets": [
        r"intercom",          # Intercom (KI-gestuetzt)
        r"drift\.com",        # Drift Chatbot
        r"tidio",             # Tidio Chat
        r"zendesk",           # Zendesk Chat
        r"crisp\.chat",       # Crisp Chat
        r"livechat",          # LiveChat
        r"hubspot.*chat",     # HubSpot Chat
        r"tawk\.to",          # Tawk.to
        r"freshchat",         # Freshworks
        r"dialogflow",        # Google Dialogflow
        r"watson.*assistant", # IBM Watson
        r"chatgpt|openai",    # OpenAI/ChatGPT
        r"anthropic|claude",  # Anthropic/Claude
    ],
    # KI-Hinweise im Text
    "ai_text_mentions": [
        r"k(?:ue|ü)nstliche.?intelligenz",
        r"artificial.?intelligence",
        r"machine.?learning",
        r"maschinelles.?lernen",
        r"KI.?gest(?:ue|ü)tzt",
        r"AI.?powered",
        r"algorithm",
        r"automatisierte.?entscheidung",
        r"automated.?decision",
        r"profiling",
        r"personalisier",    # Personalisierung
    ],
    # Tracking-Dienste
    "tracking_services": [
        r"google.?analytics|gtag|UA-\d+|G-\w+",
        r"facebook.?pixel|fbq\(",
        r"meta.?pixel",
        r"hotjar",
        r"segment\.com",
        r"mixpanel",
        r"amplitude",
        r"matomo|piwik",
        r"plausible",
    ],
 }
 ```
 **Schritt 3: Ergebnis aggregieren**
 ```python
 scan_result = {
    "pages_scanned": 5,
    "chatbot_detected": True,      # z.B. Intercom auf Startseite
    "chatbot_provider": "intercom", # Identifizierter Anbieter
    "ai_mentions_found": False,     # Kein expliziter KI-Text
    "tracking_services": ["google_analytics", "facebook_pixel"],
    "tracking_count": 2,
 }
 ```
 **Schritt 4: Scan-Ergebnis in Relevanzpruefung einbeziehen**
 - Chatbot erkannt → C_TRANSPARENCY wird relevant (auch ohne KI-Text)
 - Tracking erkannt → C_EXPLICIT_CONSENT wird relevant
 - Kein KI-Nachweis auf gesamter Website → C_TRANSPARENCY faellt weg
 ### Implementierung
 **Neue Datei:** `backend-compliance/compliance/services/website_scanner.py` (~200 LOC)
 ```python
 class WebsiteScanner:
    async def scan(self, base_url: str) -> ScanResult:
        """Scan 5-10 pages for AI, chatbot, and tracking indicators."""
        pages = await self._discover_pages(base_url)
        indicators = {}
        for page_url in pages[:10]:
            html = await self._fetch(page_url)
            indicators[page_url] = self._detect_indicators(html)
        return self._aggregate(indicators)
 ```
 **Integration in Agent-Workflow:**
 - Zwischen Schritt 1 (Fetch) und Schritt 3 (UCCA Assess)
 - Scan-Ergebnis fliesst in die Intake-Flags UND in den Relevanzfilter
 - Scan-Ergebnis wird im Response zurueckgegeben (Transparenz)
 **Frontend-Erweiterung:**
 - "Erweiterte Analyse" Toggle: Nur Einzelseite vs. Website-Scan
 - Scan-Ergebnis als aufklappbare Sektion: "5 Seiten gescannt, Chatbot auf Startseite erkannt"
 ### Aufwand
 | Komponente | LOC | Zeit |
 |-----------|-----|------|
 | `website_scanner.py` | ~200 | 0.5 Tage |
 | Integration in `agent_analyze_routes.py` | ~50 | 2h |
 | Frontend: Scan-Ergebnis anzeigen | ~80 | 2h |
 | Tests | ~100 | 2h |
 ### Beispiel: Opodo mit Website-Scan
 ```
 Seiten gescannt: 5
  - https://www.opodo.de/ → Didomi Cookie-Consent, Google Analytics
  - https://www.opodo.de/datenschutz/ → Datenschutzerklaerung
  - https://www.opodo.de/impressum/ → 404 (FINDING!)
  - https://www.opodo.de/agb/ → AGB vorhanden
  - https://www.opodo.de/cookies/ → Cookie-Policy
 Chatbot erkannt: Nein
 KI-Hinweise: Nein
 Tracking: Google Analytics (G-03F834EHLM), Didomi CMP
 → C_TRANSPARENCY: NICHT relevant (kein KI-Nachweis auf gesamter Website)
 → C_EXPLICIT_CONSENT: Relevant (Google Analytics + Didomi = Tracking aktiv)
 → Impressum-Finding: 404 auf /impressum/ (§5 TMG Verstoss)
 ```
 ## Risiken
 | Risiko | Mitigation |