feat(control-pipeline): BSI QUAIDAL Clean-Room ingestion (AI Act Art. 10)

Clean-Room derivation of 195 controls from BSI QUAIDAL (10 criteria + 15 building blocks + 30 measures + 140 metrics) for EU AI Act Art. 10 training-data quality compliance. - ingest_bsi_quaidal.py parses YAML frontmatter into a structural index (no protected prose stored on disk). - derive_quaidal_mcs.py rewrites each entry via local LLM (qwen3.5:35b-a3b) with a hard 4-gram plagiarism gate < 20%; achieved mean overlap 0.5%. - Migration 011 adds compliance.derived_controls table with full source provenance (framework, section, url, commit SHA, license note). - apply_quaidal_to_db.py UPSERTs YAML into DB. - Source repo (legal-sources/bsi-quaidal/) gitignored. Same pattern as IACE module DIN-reference handling: name the norm and section, never quote. Backed by BSI license clarification 2026-05: § 5 UrhG anwendbar, share:true im Frontmatter; Clean-Room derivation is the safe path. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-19 13:02:49 +02:00
parent 9a1ad87acd
commit 7d721a6787
10 changed files with 8376 additions and 0 deletions
@@ -0,0 +1,430 @@
+source: Derived from BSI QUAIDAL (Clean-Room)
+source_url: https://github.com/BSI-Bund/QUAIDAL
+commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+plagiarism_limit_4gram: 0.2
+generated_by_model: qwen3.5:35b-a3b
+controls:
+- id: AC-AI-DATA-QB-01-syntaktische-genauigkeit
+  canonical_name: Syntaktische Genauigkeit
+  description: Das KI-Trainingsset muss syntaktisch konsistent sein, wobei alle definierten
+    Grammatik- und Strukturregeln strikt einzuhalten sind. Eine fehlerfreie Datenstruktur
+    ist zwingend erforderlich, um eine korrekte Verarbeitung durch Parser oder Sprachmodelle
+    zu gewährleisten. Die Validierung der formalen Korrektheit ist vor jedem Training
+    durchzuführen, um Verarbeitungsfehler auszuschließen.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-01
+  - MA-02
+  - MA-03
+  - MA-04
+  - MA-05
+  - MA-27
+  external_refs:
+  - framework: BSI AIC4
+    citation: null
+  - framework: ISO/IEC 25012
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QB-01
+    title_original_de: QB-01 Syntaktische Genauigkeit
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-01_Syntactic%20Accuracy.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: AC-AI-DATA-QB-02-semantische-genauigkeit
+  canonical_name: Semantische Genauigkeit
+  description: Die KI-Trainingsdaten müssen inhaltlich korrekt sein, sodass die zugewiesenen
+    Werte dem tatsächlichen Sachverhalt entsprechen und nicht nur formal valide sind.
+    Es ist sicherzustellen, dass semantische Zuordnungen keine logischen Fehler aufweisen,
+    wie beispielsweise die Klassifizierung von Tieren als technische Geräte. Eine
+    Prüfung muss verifizieren, dass die Bedeutung der Datenpunkte im Kontext der Anwendung
+    eindeutig und fehlerfrei interpretiert werden kann.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-05
+  - MA-06
+  - MA-07
+  - MA-27
+  external_refs:
+  - framework: BSI AIC4
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QB-02
+    title_original_de: QB-02 Semantische Genauigkeit
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-02_Semantic%20Accuracy.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: AC-AI-DATA-QB-03-vielfalt
+  canonical_name: Vielfalt
+  description: Das KI-Trainingsdatenset muss eine maximale Varianz in den relevanten
+    Merkmalen aufweisen, um die Heterogenität der Eingabewerte zu gewährleisten. Es
+    ist sicherzustellen, dass das Spektrum der enthaltenen Werte breit genug ist,
+    um das Variationspotential der Zielgruppe vollständig abzudecken. Eine Prüfung
+    der Datenverteilung ist vor dem Training durchzuführen, um eine unzureichende
+    Diversität auszuschließen.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-08
+  - MA-09
+  - MA-10
+  - MA-12
+  - MA-27
+  - MA-28
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: QB-03
+    title_original_de: QB-03 Vielfalt
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-03_Diversity.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0204
+- id: AC-AI-DATA-QB-04-ausgewogenheit
+  canonical_name: Ausgewogenheit
+  description: Der Trainingsdatensatz ist so zu konzipieren, dass die Verteilung aller
+    relevanten Klassen proportional zur Zielrealität erfolgt, um eine einseitige Dominanz
+    einzelner Kategorien zu vermeiden. Es ist sicherzustellen, dass keine Gruppe systematisch
+    unter- oder überrepräsentiert wird, um Verzerrungen im Modellverhalten auszuschließen.
+    Die Datenqualität muss durch eine ausgewogene Varianz aller Merkmale gewährleistet
+    werden, um Overfitting und Bias wirksam zu verhindern.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-08
+  - MA-09
+  - MA-10
+  - MA-12
+  - MA-14
+  - MA-27
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: QB-04
+    title_original_de: QB-04 Ausgewogenheit
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-04_Balance.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0182
+- id: AC-AI-DATA-QB-05-umfang
+  canonical_name: Umfang
+  description: Der Trainingsdatensatz muss eine quantitativ ausreichende Anzahl an
+    Datenpunkten aufweisen, um statistisch signifikante Muster zu erfassen und das
+    Risiko von Overfitting zu minimieren. Die Größe der Datenbasis ist so zu dimensionieren,
+    dass sie eine belastbare Analyse der zugrundeliegenden Verteilungen ermöglicht
+    und die Generalisierungsfähigkeit des Modells stabilisiert. Eine Prüfung ist durchzuführen,
+    um sicherzustellen, dass der reine quantitative Umfang die notwendige Basis für
+    eine robuste Modellbildung bildet.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-11
+  - MA-12
+  - MA-15
+  - MA-27
+  external_refs:
+  - framework: BSI AIC4
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QB-05
+    title_original_de: QB-05 Umfang
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-05_Size.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0161
+- id: AC-AI-DATA-QB-06-verzerrung
+  canonical_name: Verzerrung
+  description: Das KI-System muss vor dem produktiven Einsatz auf systematische Verzerrungen
+    in den Trainingsdaten und den daraus resultierenden Vorhersagen untersucht werden.
+    Es ist sicherzustellen, dass latente Ungleichbehandlungen quantitativ erfasst
+    und dokumentiert werden, um eine transparente Bewertung der Fairness zu ermöglichen.
+    Die Prüfung umfasst die Identifikation von Abweichungen, die auf unausgewogene
+    Datenverteilungen zurückzuführen sind, bevor das Modell für reale Anwendungen
+    freigegeben wird.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-01
+  - MA-02
+  - MA-03
+  - MA-04
+  - MA-06
+  - MA-07
+  - MA-08
+  - MA-09
+  - MA-10
+  - MA-11
+  - MA-12
+  - MA-13
+  - MA-14
+  - MA-15
+  - MA-16
+  - MA-17
+  - MA-18
+  - MA-20
+  - MA-23
+  - MA-24
+  - MA-27
+  - MA-28
+  - QB-15
+  - QM-11
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: QB-06
+    title_original_de: QB-06 Verzerrung
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-06_Bias-Detektion.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: AC-AI-DATA-QB-07-gesamtheit
+  canonical_name: Gesamtheit
+  description: Das Trainingsdatenset muss sämtliche für das spezifische Anwendungsszenario
+    definierten Attribute und Entitätsinstanzen vollständig enthalten, um die Anforderung
+    der Gesamtheit zu erfüllen. Diese Vollständigkeit ist auf der Ebene des gesamten
+    Datensatzes, einzelner Spalten oder einzelner Datenpunkte nachweisbar zu prüfen.
+    Die Bewertung der Datenqualität erfolgt stets kontextbezogen unter Berücksichtigung
+    der jeweiligen Nutzungszwecke.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-12
+  - MA-13
+  - MA-27
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: QB-07
+    title_original_de: QB-07 Gesamtheit
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-07_Totality.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: AC-AI-DATA-QB-08-konsistenzsicherung
+  canonical_name: Konsistenzsicherung
+  description: Die Konsistenz der KI-Trainingsdaten ist durch standardisierte Datentypen
+    und formatierte Attribute über den gesamten Lebenszyklus sicherzustellen. Automatisierte
+    Prüfmechanismen müssen Abweichungen in den Datenwerten sowie zeitlichen Verläufen
+    frühzeitig identifizieren, um nachvollziehbare Transformations- oder Imputationsmaßnahmen
+    einzuleiten. Eine einheitliche Datenstruktur ist zwingend erforderlich, um die
+    Integrität der Trainingsbasis für valide Modellentscheidungen zu gewährleisten.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-01
+  - MA-02
+  - MA-03
+  external_refs:
+  - framework: ISO/IEC 25012
+    citation: null
+  - framework: BSI AIC4
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QB-08
+    title_original_de: QB-08 Konsistenzsicherung
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-08_ConsistencyAssurance.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: AC-AI-DATA-QB-09-quellenmanagement
+  canonical_name: Quellenmanagement
+  description: Die Organisation muss einen durchgängigen Mechanismus implementieren,
+    der die Herkunft und den Verarbeitungsweg jeder Trainingsdaten-Einheit lückenlos
+    dokumentiert. Es ist sicherzustellen, dass jeder Datenpunkt mit seinem Ursprung
+    sowie allen nachfolgenden Transformationsschritten verknüpft bleibt, um die Integrität
+    der KI-Datenbasis zu gewährleisten. Zusätzlich sind alle Zugriffe und Modifikationen
+    in einem unveränderlichen Protokoll chronologisch festzuhalten, um einen vollständigen
+    Audit-Trail für Compliance-Prüfungen zu schaffen.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-18
+  - MA-19
+  - MA-20
+  - MA-22
+  external_refs:
+  - framework: BSI AIC4
+    citation: null
+  - framework: AI Act
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QB-09
+    title_original_de: QB-09 Quellenmanagement
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-09_Sourcemanagement.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0167
+- id: AC-AI-DATA-QB-10-datenpruefung
+  canonical_name: _Datenprüfung
+  description: Vor der Initialisierung des Trainingsprozesses ist eine systematische
+    Validierung der Eingangsdaten auf Vollständigkeit, Konsistenz und Integrität durchzuführen.
+    Dabei sind Unregelmäßigkeiten wie fehlende Werte, formatinkonsistenzen oder statistische
+    Ausreißer zu identifizieren und zu bereinigen. Das System muss sicherstellen,
+    dass keine verzerrten oder fehlerhaften Datensätze das Modelltraining beeinträchtigen
+    und die Datenqualität den definierten Qualitätsstandards entspricht.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-05
+  - MA-20
+  - MA-26
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: QB-10
+    title_original_de: QB-10_Datenprüfung
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-10_DataChecks.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0204
+- id: AC-AI-DATA-QB-11-prozesse
+  canonical_name: Prozesse
+  description: Es ist sicherzustellen, dass jeder Schritt der Datenvorbereitung und
+    -verarbeitung für KI-Trainingszwecke lückenlos protokolliert wird, um die vollständige
+    Nachvollziehbarkeit der Datenherkunft und aller Transformationen zu gewährleisten.
+    Diese Dokumentation muss so strukturiert sein, dass sie eine valide Reproduzierbarkeit
+    der Modelle sowie eine fundierte Qualitätssicherung der zugrundeliegenden Datensätze
+    ermöglicht. Durch die Erfassung aller Änderungsereignisse wird die Integrität
+    der Trainingsdaten über den gesamten Lebenszyklus hinweg verifiziert.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-18
+  - MA-21
+  external_refs:
+  - framework: BSI Grundschutz
+    citation: null
+  - framework: ISO/IEC 23894
+    citation: null
+  - framework: ISO/IEC 42001
+    citation: null
+  - framework: AI Act
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QB-11
+    title_original_de: QB-11 Prozesse
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-11_Processes.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: AC-AI-DATA-QB-12-merkmalsentwicklung
+  canonical_name: Merkmalsentwicklung
+  description: Die Erstellung und Auswahl von Eingangsmerkmalen für KI-Modelle ist
+    so zu gestalten, dass sie signifikante Korrelationen zur Zielgröße aufweisen und
+    redundante Informationen eliminieren. Es ist sicherzustellen, dass die transformierten
+    Daten generalisierbar sind und eine hohe Informationsdichte für neue, unbekannte
+    Datensätze bieten. Eine Validierung muss nachweisen, dass die abgeleiteten Merkmale
+    die Interpretierbarkeit des Modells unterstützen und keine unnötige Komplexität
+    verursachen.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-01
+  - MA-02
+  - MA-03
+  - MA-06
+  - MA-12
+  - MA-14
+  - MA-17
+  - MA-23
+  - MA-24
+  - MA-27
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: QB-12
+    title_original_de: QB-12 Merkmalsentwicklung
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-12_FeatureEngineering.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: AC-AI-DATA-QB-13-datenvorbereitung
+  canonical_name: Datenvorbereitung
+  description: Vor der Initialisierung des Trainingsprozesses sind alle Rohdaten durch
+    definierte Transformationen in eine qualitätsgeprüfte und für das Modell verarbeitbare
+    Struktur zu überführen. Es ist sicherzustellen, dass jede angewandte Datenaufbereitung
+    die Integrität der Trainingsmenge gewährleistet und keine nicht validierten Artefakte
+    in das Lernsystem einfließen. Die Durchführbarkeit dieser Schritte ist vor dem
+    Start der Modellkonvergenz durch systematische Prüfverfahren nachzuweisen.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-02
+  - MA-03
+  - MA-04
+  - MA-13
+  - MA-14
+  - MA-16
+  - MA-17
+  - MA-23
+  - MA-24
+  - MA-25
+  - MA-27
+  - MA-29
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: QB-13
+    title_original_de: QB-13 Datenvorbereitung
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-13_DataPreparation.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: AC-AI-DATA-QB-14-expertanalysis
+  canonical_name: _Expertanalysis
+  description: Die Qualität der KI-Trainingsdaten ist durch eine unabhängige, manuelle
+    Begutachtung durch qualifiziertes Fachpersonal zu validieren. Dabei sind mehrere
+    Prüfer eigenständig einzusetzen, um subjektive Verzerrungen und Gruppenkonformitätseffekte
+    bei der Bewertung auszuschließen. Die Ergebnisse dieser fachlichen Analyse müssen
+    anonymisiert zusammengeführt werden, um eine objektive Beurteilung der Datensatzqualität
+    zu gewährleisten.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-06
+  - MA-10
+  - MA-14
+  - MA-15
+  - MA-21
+  - MA-22
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: QB-14
+    title_original_de: QB-14_Expertanalysis
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-14_Expertanalysis.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: AC-AI-DATA-QB-15-bias-mitigation
+  canonical_name: Bias-Mitigation
+  description: Das System muss technische Mechanismen implementieren, um systematische
+    Verzerrungen in den Trainingsdaten oder während des Lernprozesses zu identifizieren
+    und zu kompensieren. Diese Maßnahmen sind unabhängig vom Entwicklungsstadium anzuwenden,
+    wobei Datenanpassungen vor dem Training, Regularisierungsverfahren während des
+    Lernens oder Korrekturen der Ausgabeergebnisse nach dem Training möglich sind.
+    Eine Prüfung der Fairness-Kriterien ist vor der Freigabe des Modells durchzuführen,
+    um sicherzustellen, dass keine diskriminierenden Muster in den Ergebnissen verbleiben.
+  kind: building_block
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-30
+  - QM-57
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: QB-15
+    title_original_de: QB-15 Bias-Mitigation
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-15_Bias-Mitigation.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
@@ -0,0 +1,280 @@
+source: Derived from BSI QUAIDAL (Clean-Room)
+source_url: https://github.com/BSI-Bund/QUAIDAL
+commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+plagiarism_limit_4gram: 0.2
+generated_by_model: qwen3.5:35b-a3b
+controls:
+- id: MC-AI-DATA-QKB-01-repraesentativitaet
+  canonical_name: Repräsentativität
+  description: Der Trainingsdatensatz muss die statistische Verteilung der Zielpopulation
+    exakt abbilden, um systematische Verzerrungen im Modell zu vermeiden. Es ist sicherzustellen,
+    dass alle relevanten Merkmalsausprägungen in ausreichender Häufigkeit und ohne
+    Über- oder Unterrepräsentation vorliegen. Die Datenmenge ist so zu dimensionieren,
+    dass eine robuste Generalisierungsfähigkeit für alle Subgruppen der Gesamtpopulation
+    gewährleistet wird. Eine Prüfung auf Stichprobenqualität ist vor dem Training
+    durchzuführen.
+  kind: criterion
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QB-03
+  - QB-04
+  - QB-05
+  - QB-06
+  - QB-15
+  external_refs:
+  - framework: AI Act
+    citation: Artikel 10
+  - framework: ISO/IEC 25012
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QKB-01
+    title_original_de: QKB-01 Repräsentativität
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-01_Representativity.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MC-AI-DATA-QKB-02-vollstaendigkeit
+  canonical_name: Vollständigkeit
+  description: Der Datensatz muss sämtliche für das spezifische KI-Modell erwarteten
+    Attribute und Merkmalsausprägungen lückenlos beinhalten. Es ist sicherzustellen,
+    dass keine Entitätsinstanzen fehlen und alle definierten Merkmale mit Werten belegt
+    sind. Eine Prüfung auf fehlende Werte oder unvollständige Attributmengen ist vor
+    dem Training zwingend durchzuführen, um Verzerrungen zu vermeiden.
+  kind: criterion
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QB-07
+  - QB-09
+  external_refs:
+  - framework: AI Act
+    citation: Artikel 10
+  - framework: BSI AIC4
+    citation: null
+  - framework: ISO/IEC 25012
+    citation: null
+  - framework: ISO/IEC 25024
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QKB-02
+    title_original_de: QKB-02 Vollständigkeit
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-02_Completeness.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MC-AI-DATA-QKB-03-genauigkeit
+  canonical_name: Genauigkeit
+  description: Die Integrität der KI-Trainingsdaten erfordert, dass jeder einzelne
+    Datenelementwert eine definierte numerische oder symbolische Übereinstimmung mit
+    dem referenzierten Sollwert aufweist. Es ist sicherzustellen, dass Abweichungen
+    innerhalb festgelegter Toleranzgrenzen bezüglich Rundung, Formatierung und Messauflösung
+    bleiben. Die Einhaltung dieser Spezifikation ist durch automatisierte Prüfverfahren
+    vor jedem Trainingslauf zu verifizieren.
+  kind: criterion
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QB-01
+  - QB-02
+  external_refs:
+  - framework: ISO/IEC 25012
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QKB-03
+    title_original_de: QKB-03 Genauigkeit
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-03_Accuracy.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MC-AI-DATA-QKB-04-konsistenz
+  canonical_name: Konsistenz
+  description: Das System muss sicherstellen, dass alle Eingabedaten für das KI-Training
+    logisch kohärent und frei von internen Widersprüchen sind. Einheitliche Kodierungen
+    für Kategorien sowie konsistente Formatierungen sind zwingend erforderlich, um
+    eine fehlerfreie Generalisierung durch das Modell zu ermöglichen. Jede Abweichung
+    von den definierten Datenstandards ist durch automatische Prüfmechanismen zu identifizieren
+    und zu unterbinden.
+  kind: criterion
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QB-02
+  - QB-07
+  - QB-08
+  - QB-10
+  - QB-11
+  - QB-12
+  external_refs:
+  - framework: ISO/IEC 25012
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QKB-04
+    title_original_de: QKB-04 Konsistenz
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-04_Consistency.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MC-AI-DATA-QKB-05-korrektheit
+  canonical_name: Korrektheit
+  description: Das KI-Modell muss ausschließlich auf Datensätzen trainiert werden,
+    die inhaltlich frei von Fehlern sind und den tatsächlichen Gegebenheiten oder
+    definierten Referenzstandards exakt entsprechen. Es ist sicherzustellen, dass
+    jede annotierte Information den als wahr geltenden Zustand im Anwendungskontext
+    fehlerfrei abbildet. Die Validierung der Trainingsdaten ist vor Beginn des Lernprozesses
+    durchzuführen, um sicherzustellen, dass keine inkorrekten Werte die Modellleistung
+    beeinträchtigen.
+  kind: criterion
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QB-09
+  - QB-10
+  - QB-12
+  - QB-14
+  external_refs:
+  - framework: ISO/IEC 25012
+    citation: null
+  - framework: BSI AIC4
+    citation: null
+  - framework: AI Act
+    citation: Artikel 10
+  source:
+    framework: BSI QUAIDAL
+    section: QKB-05
+    title_original_de: QKB-05 Korrektheit
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-05_Correctness.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MC-AI-DATA-QKB-06-einheitlichkeit
+  canonical_name: Einheitlichkeit
+  description: Die Konsistenz der KI-Trainingsdaten ist durch die strikte Einhaltung
+    definierter Syntaxregeln und Datenstrukturen sicherzustellen. Jedes Datenelement
+    muss vor der Verarbeitung gemäß festgelegten Standards formatiert werden, um strukturelle
+    Abweichungen auszuschließen. Eine Prüfung der formalen Einheitlichkeit ist unabhängig
+    von der inhaltlichen Richtigkeit der Werte durchzuführen.
+  kind: criterion
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QB-02
+  - QB-08
+  - QB-10
+  - QB-12
+  - QB-14
+  external_refs:
+  - framework: ISO/IEC 25012
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QKB-06
+    title_original_de: QKB-06 Einheitlichkeit
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-06_Uniformity.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MC-AI-DATA-QKB-07-gueltigkeit
+  canonical_name: Gültigkeit
+  description: Das System muss sicherstellen, dass die für das KI-Training verwendeten
+    Daten inhaltlich exakt das intendierte Zielkonstrukt abbilden und nicht nur oberflächliche
+    Korrelationen erfassen. Es ist zu prüfen, ob die erfassten Merkmale den theoretischen
+    Anforderungen an den Messgegenstand entsprechen, um eine valide Grundlage für
+    Ableitungen zu gewährleisten. Eine Abweichung zwischen dem gemessenen Inhalt und
+    dem definierten Zielkonzept ist als Fehlerzustand zu klassifizieren und muss ausgeschlossen
+    werden.
+  kind: criterion
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QB-02
+  - QB-05
+  - QB-09
+  - QB-10
+  - QB-14
+  external_refs:
+  - framework: ISO/IEC 25012
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QKB-07
+    title_original_de: QKB-07 Gültigkeit
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-07_Validity.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MC-AI-DATA-QKB-08-eindeutigkeit
+  canonical_name: Eindeutigkeit
+  description: Jeder Datensatz im Trainingskorpus muss eine eindeutige Identität besitzen,
+    um die Entstehung redundanter Instanzen auszuschließen. Es ist sicherzustellen,
+    dass keine doppelten oder mehrdeutigen Einträge vorliegen, da diese die Modellgeneralisierung
+    beeinträchtigen und zu Overfitting führen können. Die Validierung muss nachweisen,
+    dass jede Dateneinheit eindeutig identifizierbar ist und logisch von anderen unterscheidbar
+    bleibt.
+  kind: criterion
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QB-05
+  - QB-10
+  - QB-13
+  external_refs:
+  - framework: ISO/IEC 25012
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QKB-08
+    title_original_de: QKB-08 Eindeutigkeit
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-08_Uniqueness.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MC-AI-DATA-QKB-09-sichere-quellen
+  canonical_name: Sichere Quellen
+  description: Für KI-Trainingsdaten muss eine lückenlose Provenienz-Dokumentation
+    etabliert werden, die jeden Verarbeitungsschritt von der Erfassung bis zur finalen
+    Nutzung nachvollziehbar macht. Es ist sicherzustellen, dass alle Transformationen
+    und Herkunftsinformationen vollständig erfasst sind, um die Datenintegrität und
+    -qualität kontinuierlich verifizieren zu können. Die Nachprüfbarkeit dieser Metadaten
+    ist zwingend erforderlich, um potenzielle Qualitätsmängel oder Manipulationen
+    in den Trainingsbeständen frühzeitig zu identifizieren.
+  kind: criterion
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QB-09
+  - QB-11
+  external_refs:
+  - framework: ISO/IEC 25012
+    citation: null
+  - framework: BSI AIC4
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QKB-09
+    title_original_de: QKB-09 Sichere Quellen
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-09_SecureSource.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MC-AI-DATA-QKB-10-daten-mit-personenbezug
+  canonical_name: Daten mit Personenbezug
+  description: Das System muss vor der Nutzung von Trainingsdaten eine automatisierte
+    Prüfung durchführen, um personenbezogene Informationen zu identifizieren. Ist
+    derartige Datenbestandteil der Eingabedaten, ist deren vollständige und nachweisbare
+    Entfernung sicherzustellen, bevor ein Modelltraining initiiert wird. Die Integrität
+    der verbleibenden Datensätze ist durch technische Maßnahmen gegen unbeabsichtigte
+    Wiederverwendung zu gewährleisten.
+  kind: criterion
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QB-09
+  - QB-10
+  - QB-11
+  - QB-14
+  external_refs:
+  - framework: EU GDPR
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: QKB-10
+    title_original_de: QKB-10 Daten mit Personenbezug
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-10_PersonalDataCheck.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
@@ -0,0 +1,753 @@
+source: Derived from BSI QUAIDAL (Clean-Room)
+source_url: https://github.com/BSI-Bund/QUAIDAL
+commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+plagiarism_limit_4gram: 0.2
+generated_by_model: qwen3.5:35b-a3b
+controls:
+- id: MIT-AI-DATA-MA-01-datentyp-validierung
+  canonical_name: Datentyp Validierung
+  description: Es ist sicherzustellen, dass alle Eingabedaten und Trainingsdatensätze
+    vor der Verarbeitung auf Konformität mit den definierten Schemata und Datentypen
+    des Modells geprüft werden. Abweichungen von den erwarteten Formaten sind automatisch
+    zu identifizieren und müssen entweder bereinigt oder ausgeschlossen werden, um
+    Inferenzfehler zu verhindern. Diese Validierung ist als automatisierter Schritt
+    in den Datenpipelines zu implementieren, um die Integrität der KI-Systeme zu gewährleisten.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-32
+  - QM-34
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-01
+    title_original_de: MA-01 Datentyp Validierung
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-01_Datatype%20Validation.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-02-format-pruefung
+  canonical_name: Format Prüfung
+  description: Die Eingabedaten für KI-Trainingszwecke sind vor der Verarbeitung auf
+    strukturelle Korrektheit zu validieren, wobei Datentypen wie Zeitstempel oder
+    Textfelder exakt den definierten Schemata entsprechen müssen. Durch die erzwingung
+    einer einheitlichen Formatierung wird verhindert, dass regionale Abweichungen
+    oder inkonsistente Darstellungen zu Fehlinterpretationen im Modell führen. Die
+    Konformität ist automatisiert zu prüfen, um sicherzustellen, dass keine nicht
+    konformen Datensätze in den Lernprozess eingehen.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-32
+  - QM-34
+  - QM-43
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-02
+    title_original_de: MA-02 Format Prüfung
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-02_Format%20Check.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-03-bereichspruefung
+  canonical_name: Bereichsprüfung
+  description: Das System muss vor dem KI-Training eine automatische Validierung aller
+    Eingangsmerkmale durchführen, um Werte außerhalb definierter physikalischer oder
+    logischer Grenzen zu identifizieren. Dabei sind insbesondere inkonsistente Datentypen,
+    fehlerhafte Maßeinheiten und statistisch unplausible Ausreißer zu detektieren
+    und zu isolieren. Die Integrität des Trainingsdatensatzes ist erst dann gewährleistet,
+    wenn alle nicht konformen Einträge ausgeschlossen oder korrigiert wurden, bevor
+    der Lernprozess initiiert wird.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-51
+  - QM-52
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-03
+    title_original_de: MA-03 Bereichsprüfung
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-03_Range%20Check.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-04-over-undersampling
+  canonical_name: Over-Undersampling
+  description: Das Daten-Set für das KI-Training ist auf ein ausgewogenes Klassenverhältnis
+    zu prüfen, wobei eine künstliche Aufstockung seltener Kategorien durch synthetische
+    Generierung oder Duplizierung zulässig ist. Alternativ ist eine Reduktion der
+    Datenpunkte der Mehrheitsklasse nach definierten Kriterien durchzuführen, um eine
+    Verzerrung des Modells zu vermeiden. Die angewandte Methode zur Erreichung dieses
+    Gleichgewichts ist dokumentiert und muss reproduzierbar sein.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-34
+  - QM-38
+  - QM-57
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-04
+    title_original_de: MA-04 Over-Undersampling
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-04_Over-Undersampling.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-05-automatisierte-aufgaben
+  canonical_name: Automatisierte Aufgaben
+  description: Wiederkehrende Prozesse der Datenvorverarbeitung und Qualitätsprüfung
+    im KI-Lebenszyklus sind durch automatisierte Mechanismen zu implementieren. Die
+    Ausführung dieser Aufgaben muss so konfiguriert sein, dass eine konsistente Ergebnisqualität
+    über alle Durchläufe hinweg sichergestellt wird. Es ist zu prüfen, dass die eingesetzten
+    Automatisierungswerkzeuge spezifische Validierungsregeln für Trainingsdaten zuverlässig
+    anwenden.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-02
+  - MA-03
+  - QM-10
+  - QM-34
+  - QM-64
+  external_refs:
+  - framework: AI Act
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: MA-05
+    title_original_de: MA-05 Automatisierte Aufgaben
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-05_Automated%20Tasks.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-06-experten-auswertung
+  canonical_name: Experten Auswertung
+  description: Für die Validierung von KI-Trainingsdaten ist eine manuelle Prüfung
+    durch qualifizierte Fachexperten zwingend erforderlich. Diese Experten müssen
+    die inhaltliche Gültigkeit, Relevanz und Korrektheit der Datensätze auf Basis
+    domänenspezifischen Wissens systematisch evaluieren. Das Ergebnis dieser Begutachtung
+    dient dazu, methodische Fehler oder qualitative Mängel frühzeitig zu identifizieren
+    und konkrete Maßnahmen zur Datenbereinigung abzuleiten.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-16
+  - QM-30
+  - QM-43
+  - QM-45
+  - QM-59
+  - QM-70
+  external_refs:
+  - framework: ISO/IEC 25012
+    citation: null
+  - framework: ISO/IEC 25024
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: MA-06
+    title_original_de: MA-06 Experten Auswertung
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-06_Expert%20Evaluation.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0204
+- id: MIT-AI-DATA-MA-07-massenbeteiligung
+  canonical_name: Massenbeteiligung
+  description: Das System muss Mechanismen implementieren, um die Qualität von Trainingsdaten
+    durch dezentrale Validierung durch eine heterogene Gruppe externer Prüfer sicherzustellen.
+    Es ist zwingend erforderlich, dass die Ergebnisse dieser kollektiven Überprüfung
+    mit internen Qualitätsstandards abgeglichen werden, um systematische Fehler in
+    den annotierten Datensätzen zu identifizieren. Die Integrität der KI-Modelle ist
+    nur gewährleistet, wenn diese skalierbare Prüfprozedur für kritische Datenmengen
+    routinemäßig angewendet wird.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-06
+  - QM-03
+  - QM-16
+  - QM-43
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-07
+    title_original_de: MA-07 Massenbeteiligung
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-07_Crowdsourcing.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-08-verteilungsanalyse
+  canonical_name: Verteilungsanalyse
+  description: Es ist sicherzustellen, dass die Verteilung der Trainingsdaten über
+    alle relevanten Klassen und Merkmalsbereiche systematisch auf statistische Verzerrungen
+    und Anomalien geprüft wird. Diese Analyse muss nachweisen, dass das Modell auf
+    einer repräsentativen und ausgewogenen Datenbasis trainiert wurde, um die Generalisierungsfähigkeit
+    der Vorhersagen zu gewährleisten. Die Ergebnisse der Verteilungsprüfung sind vor
+    Beginn des Trainings zu dokumentieren und bei signifikanten Abweichungen sind
+    Korrekturmaßnahmen einzuleiten.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-06
+  - QM-10
+  - QM-11
+  - QM-51
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-08
+    title_original_de: MA-08 Verteilungsanalyse
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-08_DistributionAnalysis.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0339
+- id: MIT-AI-DATA-MA-09-vergleichgrundgesamtheit
+  canonical_name: VergleichGrundgesamtheit
+  description: Das System muss eine repräsentative Referenzstichprobe aus der Zielverteilung
+    bereitstellen, um die Validität von KI-Trainingsdaten zu verifizieren. Es ist
+    sicherzustellen, dass diese Referenzdaten als Goldstandard dienen, um Abweichungen
+    zwischen dem Trainingsset und der tatsächlichen Grundgesamtheit zu quantifizieren.
+    Die Übereinstimmung ist durch einen automatisierten Abgleich mit den vorab definierten
+    Verteilungsparametern zu prüfen.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-9
+  - QM-51
+  - QM-52
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-09
+    title_original_de: MA-09 VergleichGrundgesamtheit
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-09_CompareGroundtruth.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-10-gewichtung-der-daten
+  canonical_name: Gewichtung der Daten
+  description: Für KI-Trainingsdatensätze ist eine manuelle Gewichtung der einzelnen
+    Merkmale zwingend erforderlich, um systematische Verzerrungen zu minimieren. Diese
+    Maßnahme dient der Sicherstellung einer ausgewogenen Datenrepräsentation und verbessert
+    die Generalisierungsfähigkeit des Modells auf spezifische Anwendungsfälle. Die
+    Zuordnung der Gewichtungsfaktoren ist vor dem Training durchzuführen und muss
+    dokumentiert werden, um die Nachvollziehbarkeit der Datenqualität zu gewährleisten.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-10
+  - QM-18
+  - QM-28
+  - QM-29
+  - QM-37
+  - QM-38
+  - QM-39
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-10
+    title_original_de: MA-10 Gewichtung der Daten
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-10_ManualWeights.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-11-stichprobengroesse
+  canonical_name: Stichprobengröße
+  description: Die Menge der für das Training verwendeten Daten ist so zu dimensionieren,
+    dass statistisch signifikante Ergebnisse bei definiertem Konfidenzniveau und akzeptabler
+    Fehlervarianz gewährleistet sind. Die Datengröße muss iterativ angepasst werden,
+    wobei sowohl die Gesamtgröße der zugrundeliegenden Population als auch die spezifische
+    Art der Datenerweiterung systematisch zu berücksichtigen sind. Eine Validierung
+    der Datenqualität ist zwingend erforderlich, um Verzerrungen durch unterschiedliche
+    Skalierungsmethoden auszuschließen.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-08
+  - QM-09
+  - QM-39
+  - QM-41
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-11
+    title_original_de: MA-11 Stichprobengröße
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-11_Trainingsdataset%20Size.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-12-abdeckung-relevanter-merkmale
+  canonical_name: Abdeckung relevanter Merkmale
+  description: Das Trainingsdatenset muss vollständig alle für die spezifische Problemstellung
+    essenziellen Eingangsvariablen enthalten, um eine lückenlose Merkmalsabdeckung
+    zu gewährleisten. Es ist sicherzustellen, dass keine kritischen Einflussgrößen
+    fehlen, da sonst das Modell keine verlässlichen Korrelationen erlernen kann. Die
+    Vollständigkeit des Merkmalsraums ist vor Beginn des Trainingsprozesses durch
+    eine formale Prüfung zu verifizieren.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-06
+  - MA-14
+  - QM-10
+  - QM-11
+  - QM-13
+  - QM-25
+  - QM-26
+  - QM-27
+  - QM-28
+  - QM-29
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-12
+    title_original_de: MA-12 Abdeckung relevanter Merkmale
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-12_RelevantFeatureCoverage.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-13-vollstaendige-information-in-datensaetze
+  canonical_name: Vollständige Information in Datensätzen
+  description: Für die Validierung von KI-Trainingsdaten ist sicherzustellen, dass
+    alle für die Analyse erforderlichen Attribute vollständig vorliegen und keine
+    unbeabsichtigten Lücken existieren. Bei festgestellten Datenfehlern ist zwingend
+    die Ursache zu ermitteln, um das passende Imputationsverfahren basierend auf dem
+    spezifischen Fehlerschema auszuwählen. Eine unzureichende Datenbasis darf nicht
+    zur Modellierung genutzt werden, solange die Integrität der relevanten Information
+    nicht durch geeignete Maßnahmen wiederhergestellt wurde.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-12
+  - QM-40
+  - QM-53
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-13
+    title_original_de: MA-13 Vollständige Information in Datensätzen
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-13_CompleteInformation.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-14-eda-explorative-daten-analyse
+  canonical_name: EDA-Explorative Daten Analyse
+  description: Vor Beginn des Modelltrainings ist eine explorative Datenanalyse durchzuführen,
+    um Datenverteilungen, Korrelationen sowie Ausreißer und strukturelle Anomalien
+    ohne vorab definierte Hypothesen zu identifizieren. Die gewonnenen Erkenntnisse
+    sind systematisch zu dokumentieren, um die Qualität der Trainingsdaten zu validieren
+    und fundierte Entscheidungen über notwendige Bereinigungs- oder Erweiterungsschritte
+    abzuleiten. Auf Basis dieser Analyse ist der Datensatz so anzupassen, dass er
+    die für die Zielfunktion erforderliche Repräsentativität und Integrität gewährleistet.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-10
+  - QM-12
+  - QM-24
+  - QM-25
+  - QM-26
+  - QM-27
+  - QM-28
+  - QM-29
+  - QM-36
+  - QM-42
+  - QM-54
+  - QM-57
+  - QM-61
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-14
+    title_original_de: MA-14 EDA-Explorative Daten Analyse
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-14_EDA-ExplorativeDataAnalysis.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-15-empirische-evidenz
+  canonical_name: Empirische Evidenz
+  description: Es ist sicherzustellen, dass die Wirksamkeit von Schutzmaßnahmen gegen
+    KI-gestützte Angriffe durch den systematischen Vergleich mit historischen Einsatzszenarien
+    empirisch validiert wird. Dabei sind Leistungsdaten aus vergleichbaren Anwendungsfällen
+    heranzuziehen, um die Angemessenheit der eingesetzten Trainingsdatensätze und
+    Methoden für den spezifischen Kontext nachzuweisen. Die Analyse muss belegen,
+    dass die gewählten Maßnahmen die identifizierten Risiken in der Praxis effektiv
+    reduzieren und die Datenqualität den aktuellen Bedrohungsmodellen entspricht.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-16
+  - QM-30
+  - QM-61
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-15
+    title_original_de: MA-15 Empirische Evidenz
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-15_EmpiricEvidence.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-16-daten-imputation
+  canonical_name: Daten Imputation
+  description: Für KI-Trainingsdatensätze ist eine systematische Analyse der Ursachen
+    für fehlende Werte zwingend erforderlich, bevor eine Rekonstruktion erfolgt. Das
+    gewählte Verfahren zur Datenergänzung muss sich strikt an den identifizierten
+    Entstehungsgründen orientieren, um die statistische Integrität des Modells zu
+    wahren. Eine unkritische Imputation ohne Ursachenanalyse ist unzulässig, da sie
+    das Lernverhalten des Algorithmus verfälschen kann.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-13
+  - QM-10
+  - QM-22
+  - QM-44
+  - QM-53
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-16
+    title_original_de: MA-16 Daten Imputation
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-16_DataImputation.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-17-metadatenverwaltung
+  canonical_name: Metadatenverwaltung
+  description: Für den KI-Trainingsprozess ist eine vollständige Dokumentation der
+    Datenherkunft, der Qualitätsmetriken sowie der rechtlichen Klassifizierung jeder
+    einzelnen Trainingsinstanz sicherzustellen. Diese strukturellen Begleitinformationen
+    müssen maschinenlesbar vorliegen, um eine automatisierte Validierung der Datenintegrität
+    und eine nachvollziehbare Auditierung des Datensatzes zu ermöglichen. Die Erfassung
+    dieser Attribute ist zwingend erforderlich, um die Eignung der Daten für den spezifischen
+    Trainingszweck zu gewährleisten und regulatorische Vorgaben einzuhalten.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-59
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-17
+    title_original_de: MA-17 Metadatenverwaltung
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-17_MetadataManagement.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-18-provenienztracking
+  canonical_name: ProvenienzTracking
+  description: Die Herkunft und der Verarbeitungsweg von KI-Trainingsdaten sind lückenlos
+    zu dokumentieren, um deren Integrität und Nachvollziehbarkeit sicherzustellen.
+    Für jeden Datensatz ist eine eindeutige Identifikation des Ursprungs sowie aller
+    Transformationsschritte im Lebenszyklus zu führen. Diese Metadaten müssen so strukturiert
+    sein, dass eine Rückverfolgung zur ursprünglichen Quelle jederzeit möglich ist,
+    ohne dass Datenverluste oder Manipulationen unentdeckt bleiben.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-59
+  - QM-60
+  - QM-61
+  - QM-65
+  - QM-67
+  - QM-70
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-18
+    title_original_de: MA-18 ProvenienzTracking
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-18_ProvenienzTracking.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-19-audit-trails
+  canonical_name: Audit Trails
+  description: Für die Nachvollziehbarkeit von KI-Trainingsprozessen ist ein lückenloses
+    Protokollierungssystem zu implementieren, das alle Datenmanipulationen und Modellupdates
+    zeitgestempelt erfasst. Jeder Zugriff auf Trainingsdatensätze sowie jede Änderung
+    der Modellparameter muss mit eindeutigen Benutzeridentitäten verknüpft werden.
+    Die gespeicherten Logs müssen so strukturiert sein, dass sie eine vollständige
+    Rekonstruktion des Datenflusses und eine Rückführung auf frühere Datenqualitätszustände
+    ermöglichen.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - MA-22
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-19
+    title_original_de: MA-19 Audit Trails
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-19_AuditTrails.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-20-prozess-dokumentation
+  canonical_name: Prozess Dokumentation
+  description: Für die Sicherstellung der Datenqualität im KI-Trainingsprozess ist
+    eine vollständige Dokumentation aller Phasen der Datenerstellung und -aufbereitung
+    zwingend erforderlich. Diese Spezifikation muss verbindlich festlegen, welche
+    Aktivitäten auszuführen sind, wer hierfür verantwortlich zeichnet, welche Ressourcen
+    notwendig sind und welche qualitativen Ergebnisse zu erzielen sind. Insbesondere
+    ist die Nachverfolgbarkeit der Datenherkunft innerhalb des Dokumentationsprozesses
+    lückenlos zu gewährleisten, um die Integrität der Trainingsdaten zu validieren.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-15
+  - QM-31
+  - QM-62
+  - QM-65
+  external_refs:
+  - framework: ISO/IEC 42001
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: MA-20
+    title_original_de: MA-20 Prozess Dokumentation
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-20_ProcessDocumentation.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-21-compliance
+  canonical_name: Compliance
+  description: Der Einsatz von KI-Modellen erfordert eine zwingende Prüfung der Trainingsdatensätze
+    auf rechtliche Konformität und ethische Integrität, bevor diese zur Modellgenerierung
+    verwendet werden. Es ist sicherzustellen, dass alle verarbeiteten Informationen
+    die Vorgaben der DSGVO sowie branchenspezifische Regularien vollständig erfüllen
+    und keine unrechtmäßig beschafften oder personenbezogenen Daten ohne explizite
+    Einwilligung enthalten. Die Validierung dieser Datenqualität muss vor jedem Trainingslauf
+    durch einen automatisierten oder manuellen Compliance-Check nachgewiesen werden.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-12
+  - QM-15
+  external_refs:
+  - framework: EU GDPR
+    citation: null
+  - framework: AI Act
+    citation: null
+  source:
+    framework: BSI QUAIDAL
+    section: MA-21
+    title_original_de: MA-21 Compliance
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-21_Compliance.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-22-vertrauenswuerdigkeit
+  canonical_name: Vertrauenswürdigkeit
+  description: Die Integrität und Zuverlässigkeit der für das KI-Training verwendeten
+    Datensätze ist im jeweiligen Anwendungskontext nachweislich zu verifizieren. Es
+    ist sicherzustellen, dass potenzielle Manipulationen oder unbeabsichtigte Korruptionen
+    des Datenflusses durch technische Prüfmechanismen ausgeschlossen werden. Bei der
+    Anwendung von Korrekturverfahren zur Datenbereinigung muss die ursprüngliche Glaubwürdigkeit
+    der Informationen gewahrt bleiben und darf nicht durch die Maßnahme beeinträchtigt
+    werden.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-15
+  - QM-43
+  - QM-65
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-22
+    title_original_de: MA-22 Vertrauenswürdigkeit
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-22_Credibility.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-23-merkmalsskalierung
+  canonical_name: Merkmalsskalierung
+  description: Für KI-Trainingsdatensätze ist eine Normalisierung der Merkmalswerte
+    auf einen einheitlichen Wertebereich zwingend erforderlich, um Dominanzeffekte
+    durch unterschiedliche Größenordnungen zu vermeiden. Diese Maßnahme stellt sicher,
+    dass Algorithmen, die auf Distanzberechnungen oder Gradientenverfahren basieren,
+    nicht durch skalenbedingte Verzerrungen beeinträchtigt werden. Die Wirksamkeit
+    der Skalierung ist vor dem Training systematisch zu prüfen, um die Vorhersagegenauigkeit
+    des Modells zu garantieren.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-10
+  - QM-56
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-23
+    title_original_de: MA-23 Merkmalsskalierung
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-23_FeatureScaling.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-24-merkmalserstellung
+  canonical_name: Merkmalserstellung
+  description: Es ist sicherzustellen, dass bei der Erstellung neuer Eingangsmerkmale
+    für KI-Modelle ausschließlich validierte Transformationsverfahren angewendet werden,
+    um die Datenqualität zu gewährleisten. Die Generierung neuer Features muss auf
+    nachvollziehbaren Algorithmen basieren, die eine signifikante Verbesserung der
+    Modellleistung gegenüber den Rohdaten nachweisen. Jede angewandte Methode zur
+    Datenanreicherung oder -bereinigung ist vor dem Training auf ihre Eignung zur
+    Mustererkennung und Vorhersagegenauigkeit zu prüfen.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-11
+  - QM-25
+  - QM-26
+  - QM-27
+  - QM-28
+  - QM-51
+  - QM-71
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-24
+    title_original_de: MA-24 Merkmalserstellung
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-24_FeatureCreation.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-25-differential-privacy
+  canonical_name: Differential Privacy
+  description: Das System muss bei der Verarbeitung von KI-Trainingsdaten differenzielle
+    Privatsphäre implementieren, indem statistisch signifikante, zufällige Störgrößen
+    zu den Ergebnissen hinzugefügt werden. Es ist sicherzustellen, dass die An- oder
+    Abwesenheit einzelner Datensätze im Trainingsset das Ausgabeergebnis nur marginal
+    beeinflusst. Durch diese Maßnahme ist zu prüfen, ob keine Rückschlüsse auf spezifische
+    Personen aus den generierten Analysen gezogen werden können, während die allgemeine
+    Datenqualität für das Modelltraining erhalten bleibt.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-58
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-25
+    title_original_de: MA-25 Differential Privacy
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-25_Differential%20Privacy.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0625
+- id: MIT-AI-DATA-MA-26-federated-learning
+  canonical_name: Federated Learning
+  description: Für KI-Systeme, die auf verteilten Datenquellen basieren, ist ein Federated-Learning-Ansatz
+    zwingend vorzusehen, um die Rohdaten dezentral zu belassen. Die lokalen Modelle
+    müssen ausschließlich aggregierte Parameter an eine zentrale Instanz übermitteln,
+    während die ursprünglichen Trainingsdaten niemals die lokale Umgebung verlassen.
+    Eine Prüfung ist sicherzustellen, dass durch diese Architektur keine sensiblen
+    Informationen während des Lernprozesses zentralisiert oder übertragen werden.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-63
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-26
+    title_original_de: MA-26 Federated Learning
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-26_Federated%20Learning%20Approach.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-27-statistische-grundlagenthemen
+  canonical_name: Statistische Grundlagenthemen
+  description: Für die Sicherstellung der Datenqualität im KI-Lebenszyklus sind statistische
+    Basisverfahren systematisch zu implementieren und kontinuierlich zu validieren.
+    Es ist sicherzustellen, dass alle relevanten Metriken zur Verteilungsanalyse und
+    Datenintegrität konsistent in die Berechnungspipelines integriert werden. Diese
+    fundamentalen Analysen müssen unabhängig von spezifischen Bausteinen als übergeordnete
+    Prüfkriterien für die Modellgüte dienen.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-01
+  - QM-02
+  - QM-03
+  - QM-04
+  - QM-06
+  - QM-07
+  - QM-09
+  - QM-23
+  - QM-51
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-27
+    title_original_de: MA-27 Statistische Grundlagenthemen
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-27_StatisticalBasis.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0213
+- id: MIT-AI-DATA-MA-28-diversitaetsindizes
+  canonical_name: Diversitätsindizes
+  description: Das System muss quantitative Metriken zur Erfassung der Heterogenität
+    von KI-Trainingsdaten implementieren, um die Verteilung verschiedener Kategorien
+    zu messen. Es ist sicherzustellen, dass diese Kennzahlen sowohl die Anzahl vorhandener
+    Klassen als auch deren Gleichverteilung abbilden. Die Validierung der Datenqualität
+    erfolgt durch die Berechnung von Diversitätsindizes, die statistische Unsicherheit
+    oder Kollisionswahrscheinlichkeiten quantifizieren.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-68
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-28
+    title_original_de: MA-28 Diversitätsindizes
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-28_Diversity-Indices.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-29-data-splitting
+  canonical_name: Data-Splitting
+  description: Die Aufteilung von KI-Trainingsdaten in disjunkte Teilmengen ist zwingend
+    erforderlich, um eine unvoreingenommene Validierung der Modellgüte zu gewährleisten.
+    Dabei müssen mindestens drei voneinander getrennte Bereiche für das Training,
+    die Hyperparameter-Optimierung sowie die abschließende Leistungsbewertung definiert
+    werden. Eine zufällige oder stratifizierte Trennung ist sicherzustellen, um Datenlecks
+    zwischen den Phasen auszuschließen und die Generalisierungsfähigkeit des Systems
+    nachweisbar zu prüfen.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-69
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-29
+    title_original_de: MA-29 Data-Splitting
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-29_Data%20Splitting.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0
+- id: MIT-AI-DATA-MA-30-fairness
+  canonical_name: Fairness
+  description: Das System muss sicherstellen, dass KI-Trainingsdaten keine systematischen
+    Verzerrungen bezüglich sensibler demografischer Merkmale aufweisen, um diskriminierende
+    Vorhersagen zu vermeiden. Bei unzureichender Repräsentation von Teilgruppen sind
+    präventive Aufbereitungsverfahren oder algorithmische Transformationsmethoden
+    zur Bias-Korrektur zwingend anzuwenden. Die Wirksamkeit dieser Maßnahmen ist vor
+    der Modellbereitstellung durch quantitative Prüfverfahren auf Gleichbehandlungsgrundsätze
+    zu validieren.
+  kind: measure
+  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
+  related_quaidal_ids:
+  - QM-57
+  external_refs: []
+  source:
+    framework: BSI QUAIDAL
+    section: MA-30
+    title_original_de: MA-30 Fairness
+    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-30_Fairness.md
+    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
+    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
+  plagiarism_score_at_generation: 0.0