Benjamin_Boenisch/breakpilot-compliance

Fork 0

Files

T

Benjamin Admin a3053c3c86

CI / detect-changes (push) Successful in 14s

Details

CI / branch-name (push) Has been skipped

Details

CI / guardrail-integrity (push) Has been skipped

Details

CI / secret-scan (push) Has been skipped

Details

CI / dep-audit (push) Has been skipped

Details

CI / sbom-scan (push) Has been skipped

Details

CI / build-sha-integrity (push) Successful in 9s

Details

CI / validate-canonical-controls (push) Successful in 19s

Details

CI / loc-budget (push) Successful in 23s

Details

CI / go-lint (push) Has been skipped

Details

CI / python-lint (push) Has been skipped

Details

CI / nodejs-lint (push) Has been skipped

Details

CI / nodejs-build (push) Has been skipped

Details

CI / test-go (push) Has been skipped

Details

CI / iace-gt-coverage (push) Has been skipped

Details

CI / test-python-backend (push) Has been skipped

Details

CI / test-python-document-crawler (push) Has been skipped

Details

CI / test-python-dsms-gateway (push) Has been skipped

Details

docs(architecture): RAG retrieval engine architecture set (01-09)

9 docs + index in docs-src/architecture/ documenting the deterministic
retrieval engine: retrieval pipeline, authority rerank, source_class,
source_role, control-intent + diversity, assessment, confidence,
explainability + supersede, framework_* layer. Each doc carries the exact
constants, the rationale behind them, code refs, and the failure class
it addresses. Audit/onboarding reference.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>

2026-06-25 09:25:22 +02:00

2.3 KiB

Raw Blame History

07 — Confidence

Zweck: Eine ehrliche Aussage über die Verlässlichkeit eines Ergebnisses — ohne einen erfundenen „Confidence: 87 %"-Wert, der Scheinsicherheit suggeriert.

Bewusste Entscheidung: kein eigenes Confidence-Feld

Es gibt kein explizites confidence-Feld in der Engine. Stattdessen wird Verlässlichkeit aus zwei real berechneten, prüfbaren Größen abgeleitet:

Größe	Quelle	Bedeutung
`WinnerMargin`	`LegalAssessment` (06)	Score-Abstand Top-1 ↔ Top-2 — wie klar „gewinnt" die Primärnorm?
`HumanReviewFlag`	`LegalAssessment`	deterministische Eskalation: ist die Antwort uneindeutig/grenzwertig?

Warum so? Ein kalibrierter Wahrscheinlichkeitswert würde eine Genauigkeit vortäuschen, die ein regelbasierter Retriever nicht hat. Der Abstand zwischen Top-1 und Top-2 ist dagegen eine gemessene, erklärbare Größe: ein großer Margin = eindeutige Norm, ein kleiner Margin = mehrere plausible Quellen → Mensch entscheiden lassen.

Schwelle

Konstante	Wert	Wirkung
`assessReviewMargin`	`0.05`	`WinnerMargin < 0.05` ⇒ `HumanReviewFlag = true`

HumanReviewFlag feuert zusätzlich bei Cross-Regime und bei nicht-bindender Primärquelle (06).

Verhältnis zur Authority-Schicht

Der Score, auf dem der Margin beruht, ist nicht der rohe Semantik-Score, sondern der Authority-Score nach dem Rerank (02). Damit misst der Margin die normative Eindeutigkeit (Rechtsnatur + Domäne berücksichtigt), nicht nur die semantische Ähnlichkeit.

Code

legal_rag_types.go → LegalSearchResult.Score, LegalAssessment.WinnerMargin, LegalAssessment.HumanReviewFlag
legal_rag_assess.go → Berechnung in Assess()

Adressierte Fehlerklassen

„Scheinsicherheit" → kein erfundener Prozentwert; Margin + Flag statt Pseudo-Confidence.
„knappe Entscheidung wird automatisch durchgewinkt" → assessReviewMargin-Eskalation.

Ausbaustufe: Echte Citation-Gating-Confidence (Finding nur bei Quelle ∧ Scope ∧ Stichtag) gehört in die Authority-/Freshness-Schicht und an Control → Evidence (09), nicht in einen Modell-Score.

2.3 KiB Raw Blame History

07 — Confidence

Bewusste Entscheidung: kein eigenes Confidence-Feld

Schwelle

Verhältnis zur Authority-Schicht

Code

Adressierte Fehlerklassen

2.3 KiB

Raw Blame History