# Applicability Engine Demo Package ## Inhalt - `demo_cases.yaml` — 6 priorisierte Demo- und Regressionstestfälle - `expected_outputs/CASE-*.json` — Golden Outputs für die 6 Fälle - `evaluator.py` — vergleicht tatsächliche Engine-Outputs gegen die Assertions - `run_demo.py` — einfacher Runner - `reports/` — Zielordner für JSON- und Markdown-Reports ## Schnellstart ```bash python run_demo.py ``` Das nutzt `expected_outputs/` als Self-Test. ## Gegen echte SDK-Outputs laufen lassen Lege pro Fall eine Datei `CASE-XYZ.json` mit folgendem Schema in ein Verzeichnis: ```json { "case_id": "CASE-001", "assigned_controls": [], "excluded_controls": [], "escalations": [], "inferred_industries": [], "confidence": { "overall": 0.0, "industry_assignment": 0.0, "control_assignment": 0.0 }, "explanation": "", "uncertainty_flags": [] } ``` Dann: ```bash python run_demo.py --actual-dir /pfad/zu/deinen/outputs ``` ## Testlogik Der Evaluator prüft: - `must_assign` - `must_not_assign` - `escalate_for_legal_review` - `inferred_industries.must_include` - `inferred_industries.must_not_include` - `reasoning_must_contain` Zusätzlich gibt es Warnings, wenn Grenzfälle eskaliert sind, aber keine `uncertainty_flags` gesetzt wurden oder die Confidence unplausibel hoch ist.