9 docs + index in docs-src/architecture/ documenting the deterministic retrieval engine: retrieval pipeline, authority rerank, source_class, source_role, control-intent + diversity, assessment, confidence, explainability + supersede, framework_* layer. Each doc carries the exact constants, the rationale behind them, code refs, and the failure class it addresses. Audit/onboarding reference. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2.3 KiB
07 — Confidence
Zweck: Eine ehrliche Aussage über die Verlässlichkeit eines Ergebnisses — ohne einen erfundenen „Confidence: 87 %"-Wert, der Scheinsicherheit suggeriert.
Bewusste Entscheidung: kein eigenes Confidence-Feld
Es gibt kein explizites confidence-Feld in der Engine. Stattdessen wird Verlässlichkeit aus zwei real berechneten, prüfbaren Größen abgeleitet:
| Größe | Quelle | Bedeutung |
|---|---|---|
WinnerMargin |
LegalAssessment (06) |
Score-Abstand Top-1 ↔ Top-2 — wie klar „gewinnt" die Primärnorm? |
HumanReviewFlag |
LegalAssessment |
deterministische Eskalation: ist die Antwort uneindeutig/grenzwertig? |
Warum so? Ein kalibrierter Wahrscheinlichkeitswert würde eine Genauigkeit vortäuschen, die ein regelbasierter Retriever nicht hat. Der Abstand zwischen Top-1 und Top-2 ist dagegen eine gemessene, erklärbare Größe: ein großer Margin = eindeutige Norm, ein kleiner Margin = mehrere plausible Quellen → Mensch entscheiden lassen.
Schwelle
| Konstante | Wert | Wirkung |
|---|---|---|
assessReviewMargin |
0.05 |
WinnerMargin < 0.05 ⇒ HumanReviewFlag = true |
HumanReviewFlag feuert zusätzlich bei Cross-Regime und bei nicht-bindender Primärquelle (06).
Verhältnis zur Authority-Schicht
Der Score, auf dem der Margin beruht, ist nicht der rohe Semantik-Score, sondern der Authority-Score nach dem Rerank (02). Damit misst der Margin die normative Eindeutigkeit (Rechtsnatur + Domäne berücksichtigt), nicht nur die semantische Ähnlichkeit.
Code
legal_rag_types.go→LegalSearchResult.Score,LegalAssessment.WinnerMargin,LegalAssessment.HumanReviewFlaglegal_rag_assess.go→ Berechnung inAssess()
Adressierte Fehlerklassen
- „Scheinsicherheit" → kein erfundener Prozentwert; Margin + Flag statt Pseudo-Confidence.
- „knappe Entscheidung wird automatisch durchgewinkt" →
assessReviewMargin-Eskalation.
Ausbaustufe: Echte Citation-Gating-Confidence (Finding nur bei Quelle ∧ Scope ∧ Stichtag) gehört in die Authority-/Freshness-Schicht und an Control → Evidence (09), nicht in einen Modell-Score.