feat: LLM verification for regex FAILs + section-split hardening

Path to 100% correctness: Regex finds 80%, LLM catches the rest. 1. LLM verification (llm_verify.py): - Every regex FAIL is re-checked by Qwen (qwen3:32b) - Binary YES/NO question with evidence extraction - Overturned checks marked with [LLM] prefix in matched_text - Graceful fallback if LLM unavailable 2. Section splitter hardening: - Short lines (<16 chars) only treated as headings if preceded by blank line — prevents table column headers ("Funktion", "Speicherdauer") from splitting cookie sections - Fixes IHK cookie section: 288 words → full section 3. DSFA documentation patterns expanded: - Recognizes "4.) Ergebnis:" numbered result sections - Matches risk assessment conclusions Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-05-07 15:34:07 +02:00
parent 1d75bbf4eb
commit 4f29e5ff3c
3 changed files with 165 additions and 4 deletions
@@ -233,6 +233,9 @@ DSFA_CHECKLIST = [
            r"(?:dokument|ergebnis|bericht).*(?:dsfa|folgenabsch(?:ae|ä)tzung)",
            r"(?:ergebnis|schlussfolgerung|bewertung).*(?:risiko|verarbeitung)",
            r"vorliegend.*(?:dsfa|analyse|bewertung|absch(?:ae|ä)tzung)",
+            r"\d\.\)\s*ergebnis",
+            r"(?:risiko|gefahr).*(?:gering|mittel|hoch).*(?:einstufen|bewerten|einsch(?:ae|ä)tz)",
+            r"(?:gering|mittel|hoch).*(?:einzustufen|zu\s+bewerten)",
        ],
        "severity": "MEDIUM",
        "hint": "Die Ergebnisse der DSFA sind nicht zusammenfassend dokumentiert. Erstellen Sie einen Ergebnisabschnitt, der die Schlussfolgerungen der Folgenabschaetzung und die Gesamtbewertung des Restrisikos festhält.",