7d721a6787
CI / go-lint (push) Has been skipped
CI / python-lint (push) Has been skipped
CI / nodejs-lint (push) Has been skipped
CI / test-go-consent (push) Successful in 40s
CI / test-python-voice (push) Successful in 36s
CI / test-bqas (push) Successful in 33s
Clean-Room derivation of 195 controls from BSI QUAIDAL (10 criteria + 15 building blocks + 30 measures + 140 metrics) for EU AI Act Art. 10 training-data quality compliance. - ingest_bsi_quaidal.py parses YAML frontmatter into a structural index (no protected prose stored on disk). - derive_quaidal_mcs.py rewrites each entry via local LLM (qwen3.5:35b-a3b) with a hard 4-gram plagiarism gate < 20%; achieved mean overlap 0.5%. - Migration 011 adds compliance.derived_controls table with full source provenance (framework, section, url, commit SHA, license note). - apply_quaidal_to_db.py UPSERTs YAML into DB. - Source repo (legal-sources/bsi-quaidal/) gitignored. Same pattern as IACE module DIN-reference handling: name the norm and section, never quote. Backed by BSI license clarification 2026-05: § 5 UrhG anwendbar, share:true im Frontmatter; Clean-Room derivation is the safe path. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
281 lines
12 KiB
YAML
281 lines
12 KiB
YAML
source: Derived from BSI QUAIDAL (Clean-Room)
|
|
source_url: https://github.com/BSI-Bund/QUAIDAL
|
|
commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
|
|
plagiarism_limit_4gram: 0.2
|
|
generated_by_model: qwen3.5:35b-a3b
|
|
controls:
|
|
- id: MC-AI-DATA-QKB-01-repraesentativitaet
|
|
canonical_name: Repräsentativität
|
|
description: Der Trainingsdatensatz muss die statistische Verteilung der Zielpopulation
|
|
exakt abbilden, um systematische Verzerrungen im Modell zu vermeiden. Es ist sicherzustellen,
|
|
dass alle relevanten Merkmalsausprägungen in ausreichender Häufigkeit und ohne
|
|
Über- oder Unterrepräsentation vorliegen. Die Datenmenge ist so zu dimensionieren,
|
|
dass eine robuste Generalisierungsfähigkeit für alle Subgruppen der Gesamtpopulation
|
|
gewährleistet wird. Eine Prüfung auf Stichprobenqualität ist vor dem Training
|
|
durchzuführen.
|
|
kind: criterion
|
|
regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
|
|
related_quaidal_ids:
|
|
- QB-03
|
|
- QB-04
|
|
- QB-05
|
|
- QB-06
|
|
- QB-15
|
|
external_refs:
|
|
- framework: AI Act
|
|
citation: Artikel 10
|
|
- framework: ISO/IEC 25012
|
|
citation: null
|
|
source:
|
|
framework: BSI QUAIDAL
|
|
section: QKB-01
|
|
title_original_de: QKB-01 Repräsentativität
|
|
url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-01_Representativity.md
|
|
commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
|
|
license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
|
|
plagiarism_score_at_generation: 0.0
|
|
- id: MC-AI-DATA-QKB-02-vollstaendigkeit
|
|
canonical_name: Vollständigkeit
|
|
description: Der Datensatz muss sämtliche für das spezifische KI-Modell erwarteten
|
|
Attribute und Merkmalsausprägungen lückenlos beinhalten. Es ist sicherzustellen,
|
|
dass keine Entitätsinstanzen fehlen und alle definierten Merkmale mit Werten belegt
|
|
sind. Eine Prüfung auf fehlende Werte oder unvollständige Attributmengen ist vor
|
|
dem Training zwingend durchzuführen, um Verzerrungen zu vermeiden.
|
|
kind: criterion
|
|
regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
|
|
related_quaidal_ids:
|
|
- QB-07
|
|
- QB-09
|
|
external_refs:
|
|
- framework: AI Act
|
|
citation: Artikel 10
|
|
- framework: BSI AIC4
|
|
citation: null
|
|
- framework: ISO/IEC 25012
|
|
citation: null
|
|
- framework: ISO/IEC 25024
|
|
citation: null
|
|
source:
|
|
framework: BSI QUAIDAL
|
|
section: QKB-02
|
|
title_original_de: QKB-02 Vollständigkeit
|
|
url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-02_Completeness.md
|
|
commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
|
|
license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
|
|
plagiarism_score_at_generation: 0.0
|
|
- id: MC-AI-DATA-QKB-03-genauigkeit
|
|
canonical_name: Genauigkeit
|
|
description: Die Integrität der KI-Trainingsdaten erfordert, dass jeder einzelne
|
|
Datenelementwert eine definierte numerische oder symbolische Übereinstimmung mit
|
|
dem referenzierten Sollwert aufweist. Es ist sicherzustellen, dass Abweichungen
|
|
innerhalb festgelegter Toleranzgrenzen bezüglich Rundung, Formatierung und Messauflösung
|
|
bleiben. Die Einhaltung dieser Spezifikation ist durch automatisierte Prüfverfahren
|
|
vor jedem Trainingslauf zu verifizieren.
|
|
kind: criterion
|
|
regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
|
|
related_quaidal_ids:
|
|
- QB-01
|
|
- QB-02
|
|
external_refs:
|
|
- framework: ISO/IEC 25012
|
|
citation: null
|
|
source:
|
|
framework: BSI QUAIDAL
|
|
section: QKB-03
|
|
title_original_de: QKB-03 Genauigkeit
|
|
url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-03_Accuracy.md
|
|
commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
|
|
license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
|
|
plagiarism_score_at_generation: 0.0
|
|
- id: MC-AI-DATA-QKB-04-konsistenz
|
|
canonical_name: Konsistenz
|
|
description: Das System muss sicherstellen, dass alle Eingabedaten für das KI-Training
|
|
logisch kohärent und frei von internen Widersprüchen sind. Einheitliche Kodierungen
|
|
für Kategorien sowie konsistente Formatierungen sind zwingend erforderlich, um
|
|
eine fehlerfreie Generalisierung durch das Modell zu ermöglichen. Jede Abweichung
|
|
von den definierten Datenstandards ist durch automatische Prüfmechanismen zu identifizieren
|
|
und zu unterbinden.
|
|
kind: criterion
|
|
regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
|
|
related_quaidal_ids:
|
|
- QB-02
|
|
- QB-07
|
|
- QB-08
|
|
- QB-10
|
|
- QB-11
|
|
- QB-12
|
|
external_refs:
|
|
- framework: ISO/IEC 25012
|
|
citation: null
|
|
source:
|
|
framework: BSI QUAIDAL
|
|
section: QKB-04
|
|
title_original_de: QKB-04 Konsistenz
|
|
url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-04_Consistency.md
|
|
commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
|
|
license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
|
|
plagiarism_score_at_generation: 0.0
|
|
- id: MC-AI-DATA-QKB-05-korrektheit
|
|
canonical_name: Korrektheit
|
|
description: Das KI-Modell muss ausschließlich auf Datensätzen trainiert werden,
|
|
die inhaltlich frei von Fehlern sind und den tatsächlichen Gegebenheiten oder
|
|
definierten Referenzstandards exakt entsprechen. Es ist sicherzustellen, dass
|
|
jede annotierte Information den als wahr geltenden Zustand im Anwendungskontext
|
|
fehlerfrei abbildet. Die Validierung der Trainingsdaten ist vor Beginn des Lernprozesses
|
|
durchzuführen, um sicherzustellen, dass keine inkorrekten Werte die Modellleistung
|
|
beeinträchtigen.
|
|
kind: criterion
|
|
regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
|
|
related_quaidal_ids:
|
|
- QB-09
|
|
- QB-10
|
|
- QB-12
|
|
- QB-14
|
|
external_refs:
|
|
- framework: ISO/IEC 25012
|
|
citation: null
|
|
- framework: BSI AIC4
|
|
citation: null
|
|
- framework: AI Act
|
|
citation: Artikel 10
|
|
source:
|
|
framework: BSI QUAIDAL
|
|
section: QKB-05
|
|
title_original_de: QKB-05 Korrektheit
|
|
url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-05_Correctness.md
|
|
commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
|
|
license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
|
|
plagiarism_score_at_generation: 0.0
|
|
- id: MC-AI-DATA-QKB-06-einheitlichkeit
|
|
canonical_name: Einheitlichkeit
|
|
description: Die Konsistenz der KI-Trainingsdaten ist durch die strikte Einhaltung
|
|
definierter Syntaxregeln und Datenstrukturen sicherzustellen. Jedes Datenelement
|
|
muss vor der Verarbeitung gemäß festgelegten Standards formatiert werden, um strukturelle
|
|
Abweichungen auszuschließen. Eine Prüfung der formalen Einheitlichkeit ist unabhängig
|
|
von der inhaltlichen Richtigkeit der Werte durchzuführen.
|
|
kind: criterion
|
|
regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
|
|
related_quaidal_ids:
|
|
- QB-02
|
|
- QB-08
|
|
- QB-10
|
|
- QB-12
|
|
- QB-14
|
|
external_refs:
|
|
- framework: ISO/IEC 25012
|
|
citation: null
|
|
source:
|
|
framework: BSI QUAIDAL
|
|
section: QKB-06
|
|
title_original_de: QKB-06 Einheitlichkeit
|
|
url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-06_Uniformity.md
|
|
commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
|
|
license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
|
|
plagiarism_score_at_generation: 0.0
|
|
- id: MC-AI-DATA-QKB-07-gueltigkeit
|
|
canonical_name: Gültigkeit
|
|
description: Das System muss sicherstellen, dass die für das KI-Training verwendeten
|
|
Daten inhaltlich exakt das intendierte Zielkonstrukt abbilden und nicht nur oberflächliche
|
|
Korrelationen erfassen. Es ist zu prüfen, ob die erfassten Merkmale den theoretischen
|
|
Anforderungen an den Messgegenstand entsprechen, um eine valide Grundlage für
|
|
Ableitungen zu gewährleisten. Eine Abweichung zwischen dem gemessenen Inhalt und
|
|
dem definierten Zielkonzept ist als Fehlerzustand zu klassifizieren und muss ausgeschlossen
|
|
werden.
|
|
kind: criterion
|
|
regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
|
|
related_quaidal_ids:
|
|
- QB-02
|
|
- QB-05
|
|
- QB-09
|
|
- QB-10
|
|
- QB-14
|
|
external_refs:
|
|
- framework: ISO/IEC 25012
|
|
citation: null
|
|
source:
|
|
framework: BSI QUAIDAL
|
|
section: QKB-07
|
|
title_original_de: QKB-07 Gültigkeit
|
|
url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-07_Validity.md
|
|
commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
|
|
license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
|
|
plagiarism_score_at_generation: 0.0
|
|
- id: MC-AI-DATA-QKB-08-eindeutigkeit
|
|
canonical_name: Eindeutigkeit
|
|
description: Jeder Datensatz im Trainingskorpus muss eine eindeutige Identität besitzen,
|
|
um die Entstehung redundanter Instanzen auszuschließen. Es ist sicherzustellen,
|
|
dass keine doppelten oder mehrdeutigen Einträge vorliegen, da diese die Modellgeneralisierung
|
|
beeinträchtigen und zu Overfitting führen können. Die Validierung muss nachweisen,
|
|
dass jede Dateneinheit eindeutig identifizierbar ist und logisch von anderen unterscheidbar
|
|
bleibt.
|
|
kind: criterion
|
|
regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
|
|
related_quaidal_ids:
|
|
- QB-05
|
|
- QB-10
|
|
- QB-13
|
|
external_refs:
|
|
- framework: ISO/IEC 25012
|
|
citation: null
|
|
source:
|
|
framework: BSI QUAIDAL
|
|
section: QKB-08
|
|
title_original_de: QKB-08 Eindeutigkeit
|
|
url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-08_Uniqueness.md
|
|
commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
|
|
license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
|
|
plagiarism_score_at_generation: 0.0
|
|
- id: MC-AI-DATA-QKB-09-sichere-quellen
|
|
canonical_name: Sichere Quellen
|
|
description: Für KI-Trainingsdaten muss eine lückenlose Provenienz-Dokumentation
|
|
etabliert werden, die jeden Verarbeitungsschritt von der Erfassung bis zur finalen
|
|
Nutzung nachvollziehbar macht. Es ist sicherzustellen, dass alle Transformationen
|
|
und Herkunftsinformationen vollständig erfasst sind, um die Datenintegrität und
|
|
-qualität kontinuierlich verifizieren zu können. Die Nachprüfbarkeit dieser Metadaten
|
|
ist zwingend erforderlich, um potenzielle Qualitätsmängel oder Manipulationen
|
|
in den Trainingsbeständen frühzeitig zu identifizieren.
|
|
kind: criterion
|
|
regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
|
|
related_quaidal_ids:
|
|
- QB-09
|
|
- QB-11
|
|
external_refs:
|
|
- framework: ISO/IEC 25012
|
|
citation: null
|
|
- framework: BSI AIC4
|
|
citation: null
|
|
source:
|
|
framework: BSI QUAIDAL
|
|
section: QKB-09
|
|
title_original_de: QKB-09 Sichere Quellen
|
|
url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-09_SecureSource.md
|
|
commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
|
|
license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
|
|
plagiarism_score_at_generation: 0.0
|
|
- id: MC-AI-DATA-QKB-10-daten-mit-personenbezug
|
|
canonical_name: Daten mit Personenbezug
|
|
description: Das System muss vor der Nutzung von Trainingsdaten eine automatisierte
|
|
Prüfung durchführen, um personenbezogene Informationen zu identifizieren. Ist
|
|
derartige Datenbestandteil der Eingabedaten, ist deren vollständige und nachweisbare
|
|
Entfernung sicherzustellen, bevor ein Modelltraining initiiert wird. Die Integrität
|
|
der verbleibenden Datensätze ist durch technische Maßnahmen gegen unbeabsichtigte
|
|
Wiederverwendung zu gewährleisten.
|
|
kind: criterion
|
|
regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
|
|
related_quaidal_ids:
|
|
- QB-09
|
|
- QB-10
|
|
- QB-11
|
|
- QB-14
|
|
external_refs:
|
|
- framework: EU GDPR
|
|
citation: null
|
|
source:
|
|
framework: BSI QUAIDAL
|
|
section: QKB-10
|
|
title_original_de: QKB-10 Daten mit Personenbezug
|
|
url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-10_PersonalDataCheck.md
|
|
commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
|
|
license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
|
|
plagiarism_score_at_generation: 0.0
|