# Applicability Engine Demo Package

## Inhalt
- `demo_cases.yaml` — 6 priorisierte Demo- und Regressionstestfälle
- `expected_outputs/CASE-*.json` — Golden Outputs für die 6 Fälle
- `evaluator.py` — vergleicht tatsächliche Engine-Outputs gegen die Assertions
- `run_demo.py` — einfacher Runner
- `reports/` — Zielordner für JSON- und Markdown-Reports

## Schnellstart
```bash
python run_demo.py
```

Das nutzt `expected_outputs/` als Self-Test.

## Gegen echte SDK-Outputs laufen lassen
Lege pro Fall eine Datei `CASE-XYZ.json` mit folgendem Schema in ein Verzeichnis:

```json
{
  "case_id": "CASE-001",
  "assigned_controls": [],
  "excluded_controls": [],
  "escalations": [],
  "inferred_industries": [],
  "confidence": {
    "overall": 0.0,
    "industry_assignment": 0.0,
    "control_assignment": 0.0
  },
  "explanation": "",
  "uncertainty_flags": []
}
```

Dann:

```bash
python run_demo.py --actual-dir /pfad/zu/deinen/outputs
```

## Testlogik
Der Evaluator prüft:
- `must_assign`
- `must_not_assign`
- `escalate_for_legal_review`
- `inferred_industries.must_include`
- `inferred_industries.must_not_include`
- `reasoning_must_contain`

Zusätzlich gibt es Warnings, wenn Grenzfälle eskaliert sind, aber keine `uncertainty_flags`
gesetzt wurden oder die Confidence unplausibel hoch ist.