source: Derived from BSI QUAIDAL (Clean-Room)
source_url: https://github.com/BSI-Bund/QUAIDAL
commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
plagiarism_limit_4gram: 0.2
generated_by_model: qwen3.5:35b-a3b
controls:
- id: MC-AI-DATA-QKB-01-repraesentativitaet
  canonical_name: Repräsentativität
  description: Der Trainingsdatensatz muss die statistische Verteilung der Zielpopulation
    exakt abbilden, um systematische Verzerrungen im Modell zu vermeiden. Es ist sicherzustellen,
    dass alle relevanten Merkmalsausprägungen in ausreichender Häufigkeit und ohne
    Über- oder Unterrepräsentation vorliegen. Die Datenmenge ist so zu dimensionieren,
    dass eine robuste Generalisierungsfähigkeit für alle Subgruppen der Gesamtpopulation
    gewährleistet wird. Eine Prüfung auf Stichprobenqualität ist vor dem Training
    durchzuführen.
  kind: criterion
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QB-03
  - QB-04
  - QB-05
  - QB-06
  - QB-15
  external_refs:
  - framework: AI Act
    citation: Artikel 10
  - framework: ISO/IEC 25012
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QKB-01
    title_original_de: QKB-01 Repräsentativität
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-01_Representativity.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MC-AI-DATA-QKB-02-vollstaendigkeit
  canonical_name: Vollständigkeit
  description: Der Datensatz muss sämtliche für das spezifische KI-Modell erwarteten
    Attribute und Merkmalsausprägungen lückenlos beinhalten. Es ist sicherzustellen,
    dass keine Entitätsinstanzen fehlen und alle definierten Merkmale mit Werten belegt
    sind. Eine Prüfung auf fehlende Werte oder unvollständige Attributmengen ist vor
    dem Training zwingend durchzuführen, um Verzerrungen zu vermeiden.
  kind: criterion
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QB-07
  - QB-09
  external_refs:
  - framework: AI Act
    citation: Artikel 10
  - framework: BSI AIC4
    citation: null
  - framework: ISO/IEC 25012
    citation: null
  - framework: ISO/IEC 25024
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QKB-02
    title_original_de: QKB-02 Vollständigkeit
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-02_Completeness.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MC-AI-DATA-QKB-03-genauigkeit
  canonical_name: Genauigkeit
  description: Die Integrität der KI-Trainingsdaten erfordert, dass jeder einzelne
    Datenelementwert eine definierte numerische oder symbolische Übereinstimmung mit
    dem referenzierten Sollwert aufweist. Es ist sicherzustellen, dass Abweichungen
    innerhalb festgelegter Toleranzgrenzen bezüglich Rundung, Formatierung und Messauflösung
    bleiben. Die Einhaltung dieser Spezifikation ist durch automatisierte Prüfverfahren
    vor jedem Trainingslauf zu verifizieren.
  kind: criterion
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QB-01
  - QB-02
  external_refs:
  - framework: ISO/IEC 25012
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QKB-03
    title_original_de: QKB-03 Genauigkeit
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-03_Accuracy.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MC-AI-DATA-QKB-04-konsistenz
  canonical_name: Konsistenz
  description: Das System muss sicherstellen, dass alle Eingabedaten für das KI-Training
    logisch kohärent und frei von internen Widersprüchen sind. Einheitliche Kodierungen
    für Kategorien sowie konsistente Formatierungen sind zwingend erforderlich, um
    eine fehlerfreie Generalisierung durch das Modell zu ermöglichen. Jede Abweichung
    von den definierten Datenstandards ist durch automatische Prüfmechanismen zu identifizieren
    und zu unterbinden.
  kind: criterion
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QB-02
  - QB-07
  - QB-08
  - QB-10
  - QB-11
  - QB-12
  external_refs:
  - framework: ISO/IEC 25012
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QKB-04
    title_original_de: QKB-04 Konsistenz
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-04_Consistency.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MC-AI-DATA-QKB-05-korrektheit
  canonical_name: Korrektheit
  description: Das KI-Modell muss ausschließlich auf Datensätzen trainiert werden,
    die inhaltlich frei von Fehlern sind und den tatsächlichen Gegebenheiten oder
    definierten Referenzstandards exakt entsprechen. Es ist sicherzustellen, dass
    jede annotierte Information den als wahr geltenden Zustand im Anwendungskontext
    fehlerfrei abbildet. Die Validierung der Trainingsdaten ist vor Beginn des Lernprozesses
    durchzuführen, um sicherzustellen, dass keine inkorrekten Werte die Modellleistung
    beeinträchtigen.
  kind: criterion
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QB-09
  - QB-10
  - QB-12
  - QB-14
  external_refs:
  - framework: ISO/IEC 25012
    citation: null
  - framework: BSI AIC4
    citation: null
  - framework: AI Act
    citation: Artikel 10
  source:
    framework: BSI QUAIDAL
    section: QKB-05
    title_original_de: QKB-05 Korrektheit
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-05_Correctness.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MC-AI-DATA-QKB-06-einheitlichkeit
  canonical_name: Einheitlichkeit
  description: Die Konsistenz der KI-Trainingsdaten ist durch die strikte Einhaltung
    definierter Syntaxregeln und Datenstrukturen sicherzustellen. Jedes Datenelement
    muss vor der Verarbeitung gemäß festgelegten Standards formatiert werden, um strukturelle
    Abweichungen auszuschließen. Eine Prüfung der formalen Einheitlichkeit ist unabhängig
    von der inhaltlichen Richtigkeit der Werte durchzuführen.
  kind: criterion
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QB-02
  - QB-08
  - QB-10
  - QB-12
  - QB-14
  external_refs:
  - framework: ISO/IEC 25012
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QKB-06
    title_original_de: QKB-06 Einheitlichkeit
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-06_Uniformity.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MC-AI-DATA-QKB-07-gueltigkeit
  canonical_name: Gültigkeit
  description: Das System muss sicherstellen, dass die für das KI-Training verwendeten
    Daten inhaltlich exakt das intendierte Zielkonstrukt abbilden und nicht nur oberflächliche
    Korrelationen erfassen. Es ist zu prüfen, ob die erfassten Merkmale den theoretischen
    Anforderungen an den Messgegenstand entsprechen, um eine valide Grundlage für
    Ableitungen zu gewährleisten. Eine Abweichung zwischen dem gemessenen Inhalt und
    dem definierten Zielkonzept ist als Fehlerzustand zu klassifizieren und muss ausgeschlossen
    werden.
  kind: criterion
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QB-02
  - QB-05
  - QB-09
  - QB-10
  - QB-14
  external_refs:
  - framework: ISO/IEC 25012
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QKB-07
    title_original_de: QKB-07 Gültigkeit
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-07_Validity.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MC-AI-DATA-QKB-08-eindeutigkeit
  canonical_name: Eindeutigkeit
  description: Jeder Datensatz im Trainingskorpus muss eine eindeutige Identität besitzen,
    um die Entstehung redundanter Instanzen auszuschließen. Es ist sicherzustellen,
    dass keine doppelten oder mehrdeutigen Einträge vorliegen, da diese die Modellgeneralisierung
    beeinträchtigen und zu Overfitting führen können. Die Validierung muss nachweisen,
    dass jede Dateneinheit eindeutig identifizierbar ist und logisch von anderen unterscheidbar
    bleibt.
  kind: criterion
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QB-05
  - QB-10
  - QB-13
  external_refs:
  - framework: ISO/IEC 25012
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QKB-08
    title_original_de: QKB-08 Eindeutigkeit
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-08_Uniqueness.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MC-AI-DATA-QKB-09-sichere-quellen
  canonical_name: Sichere Quellen
  description: Für KI-Trainingsdaten muss eine lückenlose Provenienz-Dokumentation
    etabliert werden, die jeden Verarbeitungsschritt von der Erfassung bis zur finalen
    Nutzung nachvollziehbar macht. Es ist sicherzustellen, dass alle Transformationen
    und Herkunftsinformationen vollständig erfasst sind, um die Datenintegrität und
    -qualität kontinuierlich verifizieren zu können. Die Nachprüfbarkeit dieser Metadaten
    ist zwingend erforderlich, um potenzielle Qualitätsmängel oder Manipulationen
    in den Trainingsbeständen frühzeitig zu identifizieren.
  kind: criterion
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QB-09
  - QB-11
  external_refs:
  - framework: ISO/IEC 25012
    citation: null
  - framework: BSI AIC4
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QKB-09
    title_original_de: QKB-09 Sichere Quellen
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-09_SecureSource.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MC-AI-DATA-QKB-10-daten-mit-personenbezug
  canonical_name: Daten mit Personenbezug
  description: Das System muss vor der Nutzung von Trainingsdaten eine automatisierte
    Prüfung durchführen, um personenbezogene Informationen zu identifizieren. Ist
    derartige Datenbestandteil der Eingabedaten, ist deren vollständige und nachweisbare
    Entfernung sicherzustellen, bevor ein Modelltraining initiiert wird. Die Integrität
    der verbleibenden Datensätze ist durch technische Maßnahmen gegen unbeabsichtigte
    Wiederverwendung zu gewährleisten.
  kind: criterion
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QB-09
  - QB-10
  - QB-11
  - QB-14
  external_refs:
  - framework: EU GDPR
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QKB-10
    title_original_de: QKB-10 Daten mit Personenbezug
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-10_PersonalDataCheck.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0