source: Derived from BSI QUAIDAL (Clean-Room) source_url: https://github.com/BSI-Bund/QUAIDAL commit_sha: c39b75369841b359c6bf56d6588e3768c722842f plagiarism_limit_4gram: 0.2 generated_by_model: qwen3.5:35b-a3b controls: - id: MC-AI-DATA-QKB-01-repraesentativitaet canonical_name: Repräsentativität description: Der Trainingsdatensatz muss die statistische Verteilung der Zielpopulation exakt abbilden, um systematische Verzerrungen im Modell zu vermeiden. Es ist sicherzustellen, dass alle relevanten Merkmalsausprägungen in ausreichender Häufigkeit und ohne Über- oder Unterrepräsentation vorliegen. Die Datenmenge ist so zu dimensionieren, dass eine robuste Generalisierungsfähigkeit für alle Subgruppen der Gesamtpopulation gewährleistet wird. Eine Prüfung auf Stichprobenqualität ist vor dem Training durchzuführen. kind: criterion regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QB-03 - QB-04 - QB-05 - QB-06 - QB-15 external_refs: - framework: AI Act citation: Artikel 10 - framework: ISO/IEC 25012 citation: null source: framework: BSI QUAIDAL section: QKB-01 title_original_de: QKB-01 Repräsentativität url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-01_Representativity.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MC-AI-DATA-QKB-02-vollstaendigkeit canonical_name: Vollständigkeit description: Der Datensatz muss sämtliche für das spezifische KI-Modell erwarteten Attribute und Merkmalsausprägungen lückenlos beinhalten. Es ist sicherzustellen, dass keine Entitätsinstanzen fehlen und alle definierten Merkmale mit Werten belegt sind. Eine Prüfung auf fehlende Werte oder unvollständige Attributmengen ist vor dem Training zwingend durchzuführen, um Verzerrungen zu vermeiden. kind: criterion regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QB-07 - QB-09 external_refs: - framework: AI Act citation: Artikel 10 - framework: BSI AIC4 citation: null - framework: ISO/IEC 25012 citation: null - framework: ISO/IEC 25024 citation: null source: framework: BSI QUAIDAL section: QKB-02 title_original_de: QKB-02 Vollständigkeit url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-02_Completeness.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MC-AI-DATA-QKB-03-genauigkeit canonical_name: Genauigkeit description: Die Integrität der KI-Trainingsdaten erfordert, dass jeder einzelne Datenelementwert eine definierte numerische oder symbolische Übereinstimmung mit dem referenzierten Sollwert aufweist. Es ist sicherzustellen, dass Abweichungen innerhalb festgelegter Toleranzgrenzen bezüglich Rundung, Formatierung und Messauflösung bleiben. Die Einhaltung dieser Spezifikation ist durch automatisierte Prüfverfahren vor jedem Trainingslauf zu verifizieren. kind: criterion regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QB-01 - QB-02 external_refs: - framework: ISO/IEC 25012 citation: null source: framework: BSI QUAIDAL section: QKB-03 title_original_de: QKB-03 Genauigkeit url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-03_Accuracy.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MC-AI-DATA-QKB-04-konsistenz canonical_name: Konsistenz description: Das System muss sicherstellen, dass alle Eingabedaten für das KI-Training logisch kohärent und frei von internen Widersprüchen sind. Einheitliche Kodierungen für Kategorien sowie konsistente Formatierungen sind zwingend erforderlich, um eine fehlerfreie Generalisierung durch das Modell zu ermöglichen. Jede Abweichung von den definierten Datenstandards ist durch automatische Prüfmechanismen zu identifizieren und zu unterbinden. kind: criterion regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QB-02 - QB-07 - QB-08 - QB-10 - QB-11 - QB-12 external_refs: - framework: ISO/IEC 25012 citation: null source: framework: BSI QUAIDAL section: QKB-04 title_original_de: QKB-04 Konsistenz url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-04_Consistency.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MC-AI-DATA-QKB-05-korrektheit canonical_name: Korrektheit description: Das KI-Modell muss ausschließlich auf Datensätzen trainiert werden, die inhaltlich frei von Fehlern sind und den tatsächlichen Gegebenheiten oder definierten Referenzstandards exakt entsprechen. Es ist sicherzustellen, dass jede annotierte Information den als wahr geltenden Zustand im Anwendungskontext fehlerfrei abbildet. Die Validierung der Trainingsdaten ist vor Beginn des Lernprozesses durchzuführen, um sicherzustellen, dass keine inkorrekten Werte die Modellleistung beeinträchtigen. kind: criterion regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QB-09 - QB-10 - QB-12 - QB-14 external_refs: - framework: ISO/IEC 25012 citation: null - framework: BSI AIC4 citation: null - framework: AI Act citation: Artikel 10 source: framework: BSI QUAIDAL section: QKB-05 title_original_de: QKB-05 Korrektheit url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-05_Correctness.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MC-AI-DATA-QKB-06-einheitlichkeit canonical_name: Einheitlichkeit description: Die Konsistenz der KI-Trainingsdaten ist durch die strikte Einhaltung definierter Syntaxregeln und Datenstrukturen sicherzustellen. Jedes Datenelement muss vor der Verarbeitung gemäß festgelegten Standards formatiert werden, um strukturelle Abweichungen auszuschließen. Eine Prüfung der formalen Einheitlichkeit ist unabhängig von der inhaltlichen Richtigkeit der Werte durchzuführen. kind: criterion regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QB-02 - QB-08 - QB-10 - QB-12 - QB-14 external_refs: - framework: ISO/IEC 25012 citation: null source: framework: BSI QUAIDAL section: QKB-06 title_original_de: QKB-06 Einheitlichkeit url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-06_Uniformity.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MC-AI-DATA-QKB-07-gueltigkeit canonical_name: Gültigkeit description: Das System muss sicherstellen, dass die für das KI-Training verwendeten Daten inhaltlich exakt das intendierte Zielkonstrukt abbilden und nicht nur oberflächliche Korrelationen erfassen. Es ist zu prüfen, ob die erfassten Merkmale den theoretischen Anforderungen an den Messgegenstand entsprechen, um eine valide Grundlage für Ableitungen zu gewährleisten. Eine Abweichung zwischen dem gemessenen Inhalt und dem definierten Zielkonzept ist als Fehlerzustand zu klassifizieren und muss ausgeschlossen werden. kind: criterion regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QB-02 - QB-05 - QB-09 - QB-10 - QB-14 external_refs: - framework: ISO/IEC 25012 citation: null source: framework: BSI QUAIDAL section: QKB-07 title_original_de: QKB-07 Gültigkeit url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-07_Validity.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MC-AI-DATA-QKB-08-eindeutigkeit canonical_name: Eindeutigkeit description: Jeder Datensatz im Trainingskorpus muss eine eindeutige Identität besitzen, um die Entstehung redundanter Instanzen auszuschließen. Es ist sicherzustellen, dass keine doppelten oder mehrdeutigen Einträge vorliegen, da diese die Modellgeneralisierung beeinträchtigen und zu Overfitting führen können. Die Validierung muss nachweisen, dass jede Dateneinheit eindeutig identifizierbar ist und logisch von anderen unterscheidbar bleibt. kind: criterion regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QB-05 - QB-10 - QB-13 external_refs: - framework: ISO/IEC 25012 citation: null source: framework: BSI QUAIDAL section: QKB-08 title_original_de: QKB-08 Eindeutigkeit url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-08_Uniqueness.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MC-AI-DATA-QKB-09-sichere-quellen canonical_name: Sichere Quellen description: Für KI-Trainingsdaten muss eine lückenlose Provenienz-Dokumentation etabliert werden, die jeden Verarbeitungsschritt von der Erfassung bis zur finalen Nutzung nachvollziehbar macht. Es ist sicherzustellen, dass alle Transformationen und Herkunftsinformationen vollständig erfasst sind, um die Datenintegrität und -qualität kontinuierlich verifizieren zu können. Die Nachprüfbarkeit dieser Metadaten ist zwingend erforderlich, um potenzielle Qualitätsmängel oder Manipulationen in den Trainingsbeständen frühzeitig zu identifizieren. kind: criterion regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QB-09 - QB-11 external_refs: - framework: ISO/IEC 25012 citation: null - framework: BSI AIC4 citation: null source: framework: BSI QUAIDAL section: QKB-09 title_original_de: QKB-09 Sichere Quellen url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-09_SecureSource.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MC-AI-DATA-QKB-10-daten-mit-personenbezug canonical_name: Daten mit Personenbezug description: Das System muss vor der Nutzung von Trainingsdaten eine automatisierte Prüfung durchführen, um personenbezogene Informationen zu identifizieren. Ist derartige Datenbestandteil der Eingabedaten, ist deren vollständige und nachweisbare Entfernung sicherzustellen, bevor ein Modelltraining initiiert wird. Die Integrität der verbleibenden Datensätze ist durch technische Maßnahmen gegen unbeabsichtigte Wiederverwendung zu gewährleisten. kind: criterion regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QB-09 - QB-10 - QB-11 - QB-14 external_refs: - framework: EU GDPR citation: null source: framework: BSI QUAIDAL section: QKB-10 title_original_de: QKB-10 Daten mit Personenbezug url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-10_PersonalDataCheck.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0