{/* Introduction */}

Was ist BQAS?

Das Breakpilot Quality Assurance System (BQAS) ist unser automatisiertes Test-Framework zur kontinuierlichen Qualitaetssicherung der KI-Komponenten. Es stellt sicher, dass Aenderungen am Voice-Service, den Prompts oder den RAG-Pipelines keine Regressionen verursachen.

{/* For Whom */}

Fuer wen ist dieses Dashboard?

Entwickler

Pruefen Sie nach Code-Aenderungen ob alle Tests noch bestehen. Analysieren Sie fehlgeschlagene Tests und implementieren Sie Fixes.

Data Scientists

Analysieren Sie Intent-Scores, Faithfulness und Relevance. Identifizieren Sie Schwachstellen in den ML-Modellen und RAG-Pipelines.

Auditoren / QA

Dokumentieren Sie die Testabdeckung und Qualitaetsmetriken. Nutzen Sie die Historie fuer Audit-Trails und Compliance-Nachweise.

{/* Test Suites Explained */}

Die drei Test-Suites

Golden Suite (97 Tests)

Was: Manuell validierte Referenz-Tests mit definierten Erwartungen. Jeder Test hat eine Eingabe, eine erwartete Ausgabe und Bewertungskriterien.

Wann ausfuehren: Nach jeder Aenderung am Voice-Service oder den Prompts. Automatisch taeglich um 07:00 Uhr via launchd.

Ziel-Score: {'>'}= 4.0 (von 5.0)

RAG/Korrektur Tests

Was: Tests fuer das Retrieval-Augmented Generation System. Pruefen ob der richtige Erwartungshorizont gefunden wird und ob Antworten korrekt zitiert werden.

Wann ausfuehren: Nach Aenderungen an Qdrant, Chunking-Strategien oder EH-Uploads.

Kategorien: EH-Retrieval, Operator-Alignment, Hallucination-Control, Citation-Enforcement, Privacy-Compliance, Namespace-Isolation

Synthetic Tests

Was: LLM-generierte Variationen der Golden-Tests. Testet Robustheit gegenueber Umformulierungen, Tippfehlern, Dialekt und Edge-Cases.

Wann ausfuehren: Woechentlich oder vor Major-Releases.

Hinweis: Generierung dauert laenger da LLM-Calls benoetigt werden.

{/* Metrics Explained */}

Metriken verstehen

Metrik	Beschreibung	Zielwert
Composite Score	Gewichteter Durchschnitt aller Einzelmetriken (1-5)	{'>'}= 4.0
Intent Accuracy	Wie oft wird die richtige Nutzerabsicht erkannt?	{'>'}= 90%
Faithfulness	Ist die Antwort dem EH treu? Keine Halluzinationen?	{'>'}= 4.0
Relevance	Beantwortet die Antwort die Frage des Nutzers?	{'>'}= 4.0
Coherence	Ist die Antwort logisch aufgebaut und verstaendlich?	{'>'}= 4.0
Safety Pass Rate	Werden kritische Inhalte korrekt gefiltert?	100%

{/* Workflow */}

Typischer Workflow

{[ { step: 1, title: 'Tests starten', desc: 'Klicken Sie auf "Tests starten" bei der gewuenschten Suite. Eine Benachrichtigung zeigt den Status.' }, { step: 2, title: 'Ergebnisse pruefen', desc: 'Nach Abschluss werden Pass Rate und Score angezeigt. Pruefen Sie ob der Zielwert erreicht wurde.' }, { step: 3, title: 'Fehlgeschlagene Tests analysieren', desc: 'Klicken Sie auf fehlgeschlagene Tests um Ursache und empfohlene Aktionen zu sehen.' }, { step: 4, title: 'Fixes implementieren', desc: 'Beheben Sie die identifizierten Probleme im Code, Prompts oder Training-Daten.' }, { step: 5, title: 'Erneut testen', desc: 'Fuehren Sie die Tests erneut aus um zu verifizieren dass die Fixes wirksam sind.' }, { step: 6, title: 'Dokumentieren', desc: 'Nutzen Sie die Historie als Audit-Trail. Exportieren Sie Reports fuer Compliance-Nachweise.' }, ].map((item) => (

{item.step}

{item.title}

{item.desc}

))}

{/* FAQ */}

Haeufige Fragen

{[ { q: 'Wie lange dauert ein Test-Lauf?', a: 'Golden Suite: ca. 45 Sekunden. RAG Tests: ca. 60 Sekunden. Synthetic Tests: 2-5 Minuten (abhaengig von LLM-Verfuegbarkeit).', }, { q: 'Was passiert wenn Tests fehlschlagen?', a: 'Fehlgeschlagene Tests werden rot markiert. Klicken Sie darauf um Details zu sehen. Bei kritischen Regressionen wird automatisch eine Desktop-Benachrichtigung gesendet.', }, { q: 'Wann werden Tests automatisch ausgefuehrt?', a: 'Die Golden Suite laeuft taeglich um 07:00 Uhr via launchd. Zusaetzlich bei jedem Commit im voice-service via Git-Hook (Quick-Tests).', }, { q: 'Wie kann ich einen neuen Golden-Test hinzufuegen?', a: 'Tests werden in /voice-service/bqas/golden_tests.json definiert. Jeder Test braucht: ID, Input, Expected Intent, Bewertungskriterien.', }, { q: 'Was bedeutet "Demo-Daten"?', a: 'Wenn die Voice-Service API nicht erreichbar ist, werden Demo-Daten angezeigt. Dies ist normal in der Entwicklungsumgebung wenn der Service nicht laeuft.', }, ].map((faq, i) => (

{faq.q}

{faq.a}

))}

{/* Links */}

CI/CD Scheduler

Automatische Test-Planung konfigurieren

RAG Management

Erwartungshorizonte und Chunking verwalten