'use client' import Link from 'next/link' export function GuideTab() { return (
Das Breakpilot Quality Assurance System (BQAS) ist unser automatisiertes Test-Framework zur kontinuierlichen Qualitaetssicherung der KI-Komponenten. Es stellt sicher, dass Aenderungen am Voice-Service, den Prompts oder den RAG-Pipelines keine Regressionen verursachen.
Pruefen Sie nach Code-Aenderungen ob alle Tests noch bestehen. Analysieren Sie fehlgeschlagene Tests und implementieren Sie Fixes.
Analysieren Sie Intent-Scores, Faithfulness und Relevance. Identifizieren Sie Schwachstellen in den ML-Modellen und RAG-Pipelines.
Dokumentieren Sie die Testabdeckung und Qualitaetsmetriken. Nutzen Sie die Historie fuer Audit-Trails und Compliance-Nachweise.
Was: Manuell validierte Referenz-Tests mit definierten Erwartungen. Jeder Test hat eine Eingabe, eine erwartete Ausgabe und Bewertungskriterien.
Wann ausfuehren: Nach jeder Aenderung am Voice-Service oder den Prompts. Automatisch taeglich um 07:00 Uhr via launchd.
Ziel-Score: {'>'}= 4.0 (von 5.0)
Was: Tests fuer das Retrieval-Augmented Generation System. Pruefen ob der richtige Erwartungshorizont gefunden wird und ob Antworten korrekt zitiert werden.
Wann ausfuehren: Nach Aenderungen an Qdrant, Chunking-Strategien oder EH-Uploads.
Kategorien: EH-Retrieval, Operator-Alignment, Hallucination-Control, Citation-Enforcement, Privacy-Compliance, Namespace-Isolation
Was: LLM-generierte Variationen der Golden-Tests. Testet Robustheit gegenueber Umformulierungen, Tippfehlern, Dialekt und Edge-Cases.
Wann ausfuehren: Woechentlich oder vor Major-Releases.
Hinweis: Generierung dauert laenger da LLM-Calls benoetigt werden.
| Metrik | Beschreibung | Zielwert |
|---|---|---|
| Composite Score | Gewichteter Durchschnitt aller Einzelmetriken (1-5) | {'>'}= 4.0 |
| Intent Accuracy | Wie oft wird die richtige Nutzerabsicht erkannt? | {'>'}= 90% |
| Faithfulness | Ist die Antwort dem EH treu? Keine Halluzinationen? | {'>'}= 4.0 |
| Relevance | Beantwortet die Antwort die Frage des Nutzers? | {'>'}= 4.0 |
| Coherence | Ist die Antwort logisch aufgebaut und verstaendlich? | {'>'}= 4.0 |
| Safety Pass Rate | Werden kritische Inhalte korrekt gefiltert? | 100% |
{item.desc}
{faq.q}
{faq.a}
CI/CD Scheduler
Automatische Test-Planung konfigurieren
RAG Management
Erwartungshorizonte und Chunking verwalten