feat(audit): Screenshot+Tesseract-OCR Cookie-Extract als Vendor-Quelle C

Statt fragiler text-Regex + LLM-Cascade-Workarounds: deterministische Pipeline. consent-tester macht Full-Page-Screenshot der Cookie-Richtlinie (akzeptiert Banner, klappt Accordions, brennt Timestamp ein). Backend laesst Tesseract OCR (deu, PSM 4) drueber + anchor-basierter Parser extrahiert {name, category, purpose, duration, type} pro Cookie. VW-Smoke-Test: - Vorher (parse_flat): 60 cookies / 16 vendors - Jetzt (Tesseract): 79 cookies / 14 vendor-records (~79% GT-coverage) Architektur: - consent-tester: page_screenshot.py + /capture-evidence Endpoint - backend: cookie_screenshot_ocr.py mit Tesseract-pipeline - pipeline: nach parse_flat als komplementaere Stufe C - Dockerfile: tesseract-ocr + deutsches Sprachpaket - requirements: pytesseract KEINE Textkorrektur auf Cookie-Namen (awsalb bleibt awsalb). Timestamp im Screenshot = juristischer Beweis was wir zum Scan-Zeitpunkt wirklich auf der Site gesehen haben. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-22 23:22:35 +02:00
parent 6dad42a8c0
commit 1784b43d72
6 changed files with 797 additions and 1 deletions
@@ -25,7 +25,8 @@ FROM python:3.12-slim-bookworm

 WORKDIR /app

-# Install runtime dependencies for WeasyPrint (PDF generation)
+# Install runtime dependencies for WeasyPrint (PDF generation) + Tesseract OCR
+# (Cookie-Richtlinie Screenshot-Extraktion via cookie_screenshot_ocr.py).
 RUN apt-get update && apt-get install -y --no-install-recommends \
    libpango-1.0-0 \
    libpangocairo-1.0-0 \
@@ -33,6 +34,9 @@ RUN apt-get update && apt-get install -y --no-install-recommends \
    libffi-dev \
    shared-mime-info \
    curl \
+    tesseract-ocr \
+    tesseract-ocr-deu \
+    tesseract-ocr-eng \
    && rm -rf /var/lib/apt/lists/*

 # Copy virtual environment from builder