breakpilot-core/control-pipeline/data/quaidal/mitigations.yaml

source: Derived from BSI QUAIDAL (Clean-Room)
source_url: https://github.com/BSI-Bund/QUAIDAL
commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
plagiarism_limit_4gram: 0.2
generated_by_model: qwen3.5:35b-a3b
controls:
- id: MIT-AI-DATA-MA-01-datentyp-validierung
  canonical_name: Datentyp Validierung
  description: Es ist sicherzustellen, dass alle Eingabedaten und Trainingsdatensätze
    vor der Verarbeitung auf Konformität mit den definierten Schemata und Datentypen
    des Modells geprüft werden. Abweichungen von den erwarteten Formaten sind automatisch
    zu identifizieren und müssen entweder bereinigt oder ausgeschlossen werden, um
    Inferenzfehler zu verhindern. Diese Validierung ist als automatisierter Schritt
    in den Datenpipelines zu implementieren, um die Integrität der KI-Systeme zu gewährleisten.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-32
  - QM-34
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-01
    title_original_de: MA-01 Datentyp Validierung
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-01_Datatype%20Validation.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-02-format-pruefung
  canonical_name: Format Prüfung
  description: Die Eingabedaten für KI-Trainingszwecke sind vor der Verarbeitung auf
    strukturelle Korrektheit zu validieren, wobei Datentypen wie Zeitstempel oder
    Textfelder exakt den definierten Schemata entsprechen müssen. Durch die erzwingung
    einer einheitlichen Formatierung wird verhindert, dass regionale Abweichungen
    oder inkonsistente Darstellungen zu Fehlinterpretationen im Modell führen. Die
    Konformität ist automatisiert zu prüfen, um sicherzustellen, dass keine nicht
    konformen Datensätze in den Lernprozess eingehen.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-32
  - QM-34
  - QM-43
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-02
    title_original_de: MA-02 Format Prüfung
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-02_Format%20Check.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-03-bereichspruefung
  canonical_name: Bereichsprüfung
  description: Das System muss vor dem KI-Training eine automatische Validierung aller
    Eingangsmerkmale durchführen, um Werte außerhalb definierter physikalischer oder
    logischer Grenzen zu identifizieren. Dabei sind insbesondere inkonsistente Datentypen,
    fehlerhafte Maßeinheiten und statistisch unplausible Ausreißer zu detektieren
    und zu isolieren. Die Integrität des Trainingsdatensatzes ist erst dann gewährleistet,
    wenn alle nicht konformen Einträge ausgeschlossen oder korrigiert wurden, bevor
    der Lernprozess initiiert wird.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-51
  - QM-52
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-03
    title_original_de: MA-03 Bereichsprüfung
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-03_Range%20Check.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-04-over-undersampling
  canonical_name: Over-Undersampling
  description: Das Daten-Set für das KI-Training ist auf ein ausgewogenes Klassenverhältnis
    zu prüfen, wobei eine künstliche Aufstockung seltener Kategorien durch synthetische
    Generierung oder Duplizierung zulässig ist. Alternativ ist eine Reduktion der
    Datenpunkte der Mehrheitsklasse nach definierten Kriterien durchzuführen, um eine
    Verzerrung des Modells zu vermeiden. Die angewandte Methode zur Erreichung dieses
    Gleichgewichts ist dokumentiert und muss reproduzierbar sein.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-34
  - QM-38
  - QM-57
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-04
    title_original_de: MA-04 Over-Undersampling
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-04_Over-Undersampling.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-05-automatisierte-aufgaben
  canonical_name: Automatisierte Aufgaben
  description: Wiederkehrende Prozesse der Datenvorverarbeitung und Qualitätsprüfung
    im KI-Lebenszyklus sind durch automatisierte Mechanismen zu implementieren. Die
    Ausführung dieser Aufgaben muss so konfiguriert sein, dass eine konsistente Ergebnisqualität
    über alle Durchläufe hinweg sichergestellt wird. Es ist zu prüfen, dass die eingesetzten
    Automatisierungswerkzeuge spezifische Validierungsregeln für Trainingsdaten zuverlässig
    anwenden.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-02
  - MA-03
  - QM-10
  - QM-34
  - QM-64
  external_refs:
  - framework: AI Act
    citation: null
  source:
    framework: BSI QUAIDAL
    section: MA-05
    title_original_de: MA-05 Automatisierte Aufgaben
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-05_Automated%20Tasks.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-06-experten-auswertung
  canonical_name: Experten Auswertung
  description: Für die Validierung von KI-Trainingsdaten ist eine manuelle Prüfung
    durch qualifizierte Fachexperten zwingend erforderlich. Diese Experten müssen
    die inhaltliche Gültigkeit, Relevanz und Korrektheit der Datensätze auf Basis
    domänenspezifischen Wissens systematisch evaluieren. Das Ergebnis dieser Begutachtung
    dient dazu, methodische Fehler oder qualitative Mängel frühzeitig zu identifizieren
    und konkrete Maßnahmen zur Datenbereinigung abzuleiten.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-16
  - QM-30
  - QM-43
  - QM-45
  - QM-59
  - QM-70
  external_refs:
  - framework: ISO/IEC 25012
    citation: null
  - framework: ISO/IEC 25024
    citation: null
  source:
    framework: BSI QUAIDAL
    section: MA-06
    title_original_de: MA-06 Experten Auswertung
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-06_Expert%20Evaluation.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0204
- id: MIT-AI-DATA-MA-07-massenbeteiligung
  canonical_name: Massenbeteiligung
  description: Das System muss Mechanismen implementieren, um die Qualität von Trainingsdaten
    durch dezentrale Validierung durch eine heterogene Gruppe externer Prüfer sicherzustellen.
    Es ist zwingend erforderlich, dass die Ergebnisse dieser kollektiven Überprüfung
    mit internen Qualitätsstandards abgeglichen werden, um systematische Fehler in
    den annotierten Datensätzen zu identifizieren. Die Integrität der KI-Modelle ist
    nur gewährleistet, wenn diese skalierbare Prüfprozedur für kritische Datenmengen
    routinemäßig angewendet wird.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-06
  - QM-03
  - QM-16
  - QM-43
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-07
    title_original_de: MA-07 Massenbeteiligung
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-07_Crowdsourcing.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-08-verteilungsanalyse
  canonical_name: Verteilungsanalyse
  description: Es ist sicherzustellen, dass die Verteilung der Trainingsdaten über
    alle relevanten Klassen und Merkmalsbereiche systematisch auf statistische Verzerrungen
    und Anomalien geprüft wird. Diese Analyse muss nachweisen, dass das Modell auf
    einer repräsentativen und ausgewogenen Datenbasis trainiert wurde, um die Generalisierungsfähigkeit
    der Vorhersagen zu gewährleisten. Die Ergebnisse der Verteilungsprüfung sind vor
    Beginn des Trainings zu dokumentieren und bei signifikanten Abweichungen sind
    Korrekturmaßnahmen einzuleiten.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-06
  - QM-10
  - QM-11
  - QM-51
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-08
    title_original_de: MA-08 Verteilungsanalyse
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-08_DistributionAnalysis.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0339
- id: MIT-AI-DATA-MA-09-vergleichgrundgesamtheit
  canonical_name: VergleichGrundgesamtheit
  description: Das System muss eine repräsentative Referenzstichprobe aus der Zielverteilung
    bereitstellen, um die Validität von KI-Trainingsdaten zu verifizieren. Es ist
    sicherzustellen, dass diese Referenzdaten als Goldstandard dienen, um Abweichungen
    zwischen dem Trainingsset und der tatsächlichen Grundgesamtheit zu quantifizieren.
    Die Übereinstimmung ist durch einen automatisierten Abgleich mit den vorab definierten
    Verteilungsparametern zu prüfen.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-9
  - QM-51
  - QM-52
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-09
    title_original_de: MA-09 VergleichGrundgesamtheit
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-09_CompareGroundtruth.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-10-gewichtung-der-daten
  canonical_name: Gewichtung der Daten
  description: Für KI-Trainingsdatensätze ist eine manuelle Gewichtung der einzelnen
    Merkmale zwingend erforderlich, um systematische Verzerrungen zu minimieren. Diese
    Maßnahme dient der Sicherstellung einer ausgewogenen Datenrepräsentation und verbessert
    die Generalisierungsfähigkeit des Modells auf spezifische Anwendungsfälle. Die
    Zuordnung der Gewichtungsfaktoren ist vor dem Training durchzuführen und muss
    dokumentiert werden, um die Nachvollziehbarkeit der Datenqualität zu gewährleisten.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-10
  - QM-18
  - QM-28
  - QM-29
  - QM-37
  - QM-38
  - QM-39
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-10
    title_original_de: MA-10 Gewichtung der Daten
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-10_ManualWeights.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-11-stichprobengroesse
  canonical_name: Stichprobengröße
  description: Die Menge der für das Training verwendeten Daten ist so zu dimensionieren,
    dass statistisch signifikante Ergebnisse bei definiertem Konfidenzniveau und akzeptabler
    Fehlervarianz gewährleistet sind. Die Datengröße muss iterativ angepasst werden,
    wobei sowohl die Gesamtgröße der zugrundeliegenden Population als auch die spezifische
    Art der Datenerweiterung systematisch zu berücksichtigen sind. Eine Validierung
    der Datenqualität ist zwingend erforderlich, um Verzerrungen durch unterschiedliche
    Skalierungsmethoden auszuschließen.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-08
  - QM-09
  - QM-39
  - QM-41
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-11
    title_original_de: MA-11 Stichprobengröße
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-11_Trainingsdataset%20Size.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-12-abdeckung-relevanter-merkmale
  canonical_name: Abdeckung relevanter Merkmale
  description: Das Trainingsdatenset muss vollständig alle für die spezifische Problemstellung
    essenziellen Eingangsvariablen enthalten, um eine lückenlose Merkmalsabdeckung
    zu gewährleisten. Es ist sicherzustellen, dass keine kritischen Einflussgrößen
    fehlen, da sonst das Modell keine verlässlichen Korrelationen erlernen kann. Die
    Vollständigkeit des Merkmalsraums ist vor Beginn des Trainingsprozesses durch
    eine formale Prüfung zu verifizieren.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-06
  - MA-14
  - QM-10
  - QM-11
  - QM-13
  - QM-25
  - QM-26
  - QM-27
  - QM-28
  - QM-29
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-12
    title_original_de: MA-12 Abdeckung relevanter Merkmale
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-12_RelevantFeatureCoverage.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-13-vollstaendige-information-in-datensaetze
  canonical_name: Vollständige Information in Datensätzen
  description: Für die Validierung von KI-Trainingsdaten ist sicherzustellen, dass
    alle für die Analyse erforderlichen Attribute vollständig vorliegen und keine
    unbeabsichtigten Lücken existieren. Bei festgestellten Datenfehlern ist zwingend
    die Ursache zu ermitteln, um das passende Imputationsverfahren basierend auf dem
    spezifischen Fehlerschema auszuwählen. Eine unzureichende Datenbasis darf nicht
    zur Modellierung genutzt werden, solange die Integrität der relevanten Information
    nicht durch geeignete Maßnahmen wiederhergestellt wurde.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-12
  - QM-40
  - QM-53
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-13
    title_original_de: MA-13 Vollständige Information in Datensätzen
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-13_CompleteInformation.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-14-eda-explorative-daten-analyse
  canonical_name: EDA-Explorative Daten Analyse
  description: Vor Beginn des Modelltrainings ist eine explorative Datenanalyse durchzuführen,
    um Datenverteilungen, Korrelationen sowie Ausreißer und strukturelle Anomalien
    ohne vorab definierte Hypothesen zu identifizieren. Die gewonnenen Erkenntnisse
    sind systematisch zu dokumentieren, um die Qualität der Trainingsdaten zu validieren
    und fundierte Entscheidungen über notwendige Bereinigungs- oder Erweiterungsschritte
    abzuleiten. Auf Basis dieser Analyse ist der Datensatz so anzupassen, dass er
    die für die Zielfunktion erforderliche Repräsentativität und Integrität gewährleistet.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-10
  - QM-12
  - QM-24
  - QM-25
  - QM-26
  - QM-27
  - QM-28
  - QM-29
  - QM-36
  - QM-42
  - QM-54
  - QM-57
  - QM-61
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-14
    title_original_de: MA-14 EDA-Explorative Daten Analyse
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-14_EDA-ExplorativeDataAnalysis.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-15-empirische-evidenz
  canonical_name: Empirische Evidenz
  description: Es ist sicherzustellen, dass die Wirksamkeit von Schutzmaßnahmen gegen
    KI-gestützte Angriffe durch den systematischen Vergleich mit historischen Einsatzszenarien
    empirisch validiert wird. Dabei sind Leistungsdaten aus vergleichbaren Anwendungsfällen
    heranzuziehen, um die Angemessenheit der eingesetzten Trainingsdatensätze und
    Methoden für den spezifischen Kontext nachzuweisen. Die Analyse muss belegen,
    dass die gewählten Maßnahmen die identifizierten Risiken in der Praxis effektiv
    reduzieren und die Datenqualität den aktuellen Bedrohungsmodellen entspricht.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-16
  - QM-30
  - QM-61
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-15
    title_original_de: MA-15 Empirische Evidenz
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-15_EmpiricEvidence.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-16-daten-imputation
  canonical_name: Daten Imputation
  description: Für KI-Trainingsdatensätze ist eine systematische Analyse der Ursachen
    für fehlende Werte zwingend erforderlich, bevor eine Rekonstruktion erfolgt. Das
    gewählte Verfahren zur Datenergänzung muss sich strikt an den identifizierten
    Entstehungsgründen orientieren, um die statistische Integrität des Modells zu
    wahren. Eine unkritische Imputation ohne Ursachenanalyse ist unzulässig, da sie
    das Lernverhalten des Algorithmus verfälschen kann.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-13
  - QM-10
  - QM-22
  - QM-44
  - QM-53
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-16
    title_original_de: MA-16 Daten Imputation
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-16_DataImputation.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-17-metadatenverwaltung
  canonical_name: Metadatenverwaltung
  description: Für den KI-Trainingsprozess ist eine vollständige Dokumentation der
    Datenherkunft, der Qualitätsmetriken sowie der rechtlichen Klassifizierung jeder
    einzelnen Trainingsinstanz sicherzustellen. Diese strukturellen Begleitinformationen
    müssen maschinenlesbar vorliegen, um eine automatisierte Validierung der Datenintegrität
    und eine nachvollziehbare Auditierung des Datensatzes zu ermöglichen. Die Erfassung
    dieser Attribute ist zwingend erforderlich, um die Eignung der Daten für den spezifischen
    Trainingszweck zu gewährleisten und regulatorische Vorgaben einzuhalten.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-59
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-17
    title_original_de: MA-17 Metadatenverwaltung
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-17_MetadataManagement.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-18-provenienztracking
  canonical_name: ProvenienzTracking
  description: Die Herkunft und der Verarbeitungsweg von KI-Trainingsdaten sind lückenlos
    zu dokumentieren, um deren Integrität und Nachvollziehbarkeit sicherzustellen.
    Für jeden Datensatz ist eine eindeutige Identifikation des Ursprungs sowie aller
    Transformationsschritte im Lebenszyklus zu führen. Diese Metadaten müssen so strukturiert
    sein, dass eine Rückverfolgung zur ursprünglichen Quelle jederzeit möglich ist,
    ohne dass Datenverluste oder Manipulationen unentdeckt bleiben.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-59
  - QM-60
  - QM-61
  - QM-65
  - QM-67
  - QM-70
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-18
    title_original_de: MA-18 ProvenienzTracking
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-18_ProvenienzTracking.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-19-audit-trails
  canonical_name: Audit Trails
  description: Für die Nachvollziehbarkeit von KI-Trainingsprozessen ist ein lückenloses
    Protokollierungssystem zu implementieren, das alle Datenmanipulationen und Modellupdates
    zeitgestempelt erfasst. Jeder Zugriff auf Trainingsdatensätze sowie jede Änderung
    der Modellparameter muss mit eindeutigen Benutzeridentitäten verknüpft werden.
    Die gespeicherten Logs müssen so strukturiert sein, dass sie eine vollständige
    Rekonstruktion des Datenflusses und eine Rückführung auf frühere Datenqualitätszustände
    ermöglichen.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-22
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-19
    title_original_de: MA-19 Audit Trails
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-19_AuditTrails.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-20-prozess-dokumentation
  canonical_name: Prozess Dokumentation
  description: Für die Sicherstellung der Datenqualität im KI-Trainingsprozess ist
    eine vollständige Dokumentation aller Phasen der Datenerstellung und -aufbereitung
    zwingend erforderlich. Diese Spezifikation muss verbindlich festlegen, welche
    Aktivitäten auszuführen sind, wer hierfür verantwortlich zeichnet, welche Ressourcen
    notwendig sind und welche qualitativen Ergebnisse zu erzielen sind. Insbesondere
    ist die Nachverfolgbarkeit der Datenherkunft innerhalb des Dokumentationsprozesses
    lückenlos zu gewährleisten, um die Integrität der Trainingsdaten zu validieren.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-15
  - QM-31
  - QM-62
  - QM-65
  external_refs:
  - framework: ISO/IEC 42001
    citation: null
  source:
    framework: BSI QUAIDAL
    section: MA-20
    title_original_de: MA-20 Prozess Dokumentation
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-20_ProcessDocumentation.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-21-compliance
  canonical_name: Compliance
  description: Der Einsatz von KI-Modellen erfordert eine zwingende Prüfung der Trainingsdatensätze
    auf rechtliche Konformität und ethische Integrität, bevor diese zur Modellgenerierung
    verwendet werden. Es ist sicherzustellen, dass alle verarbeiteten Informationen
    die Vorgaben der DSGVO sowie branchenspezifische Regularien vollständig erfüllen
    und keine unrechtmäßig beschafften oder personenbezogenen Daten ohne explizite
    Einwilligung enthalten. Die Validierung dieser Datenqualität muss vor jedem Trainingslauf
    durch einen automatisierten oder manuellen Compliance-Check nachgewiesen werden.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-12
  - QM-15
  external_refs:
  - framework: EU GDPR
    citation: null
  - framework: AI Act
    citation: null
  source:
    framework: BSI QUAIDAL
    section: MA-21
    title_original_de: MA-21 Compliance
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-21_Compliance.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-22-vertrauenswuerdigkeit
  canonical_name: Vertrauenswürdigkeit
  description: Die Integrität und Zuverlässigkeit der für das KI-Training verwendeten
    Datensätze ist im jeweiligen Anwendungskontext nachweislich zu verifizieren. Es
    ist sicherzustellen, dass potenzielle Manipulationen oder unbeabsichtigte Korruptionen
    des Datenflusses durch technische Prüfmechanismen ausgeschlossen werden. Bei der
    Anwendung von Korrekturverfahren zur Datenbereinigung muss die ursprüngliche Glaubwürdigkeit
    der Informationen gewahrt bleiben und darf nicht durch die Maßnahme beeinträchtigt
    werden.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-15
  - QM-43
  - QM-65
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-22
    title_original_de: MA-22 Vertrauenswürdigkeit
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-22_Credibility.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-23-merkmalsskalierung
  canonical_name: Merkmalsskalierung
  description: Für KI-Trainingsdatensätze ist eine Normalisierung der Merkmalswerte
    auf einen einheitlichen Wertebereich zwingend erforderlich, um Dominanzeffekte
    durch unterschiedliche Größenordnungen zu vermeiden. Diese Maßnahme stellt sicher,
    dass Algorithmen, die auf Distanzberechnungen oder Gradientenverfahren basieren,
    nicht durch skalenbedingte Verzerrungen beeinträchtigt werden. Die Wirksamkeit
    der Skalierung ist vor dem Training systematisch zu prüfen, um die Vorhersagegenauigkeit
    des Modells zu garantieren.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-10
  - QM-56
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-23
    title_original_de: MA-23 Merkmalsskalierung
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-23_FeatureScaling.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-24-merkmalserstellung
  canonical_name: Merkmalserstellung
  description: Es ist sicherzustellen, dass bei der Erstellung neuer Eingangsmerkmale
    für KI-Modelle ausschließlich validierte Transformationsverfahren angewendet werden,
    um die Datenqualität zu gewährleisten. Die Generierung neuer Features muss auf
    nachvollziehbaren Algorithmen basieren, die eine signifikante Verbesserung der
    Modellleistung gegenüber den Rohdaten nachweisen. Jede angewandte Methode zur
    Datenanreicherung oder -bereinigung ist vor dem Training auf ihre Eignung zur
    Mustererkennung und Vorhersagegenauigkeit zu prüfen.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-11
  - QM-25
  - QM-26
  - QM-27
  - QM-28
  - QM-51
  - QM-71
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-24
    title_original_de: MA-24 Merkmalserstellung
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-24_FeatureCreation.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-25-differential-privacy
  canonical_name: Differential Privacy
  description: Das System muss bei der Verarbeitung von KI-Trainingsdaten differenzielle
    Privatsphäre implementieren, indem statistisch signifikante, zufällige Störgrößen
    zu den Ergebnissen hinzugefügt werden. Es ist sicherzustellen, dass die An- oder
    Abwesenheit einzelner Datensätze im Trainingsset das Ausgabeergebnis nur marginal
    beeinflusst. Durch diese Maßnahme ist zu prüfen, ob keine Rückschlüsse auf spezifische
    Personen aus den generierten Analysen gezogen werden können, während die allgemeine
    Datenqualität für das Modelltraining erhalten bleibt.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-58
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-25
    title_original_de: MA-25 Differential Privacy
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-25_Differential%20Privacy.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0625
- id: MIT-AI-DATA-MA-26-federated-learning
  canonical_name: Federated Learning
  description: Für KI-Systeme, die auf verteilten Datenquellen basieren, ist ein Federated-Learning-Ansatz
    zwingend vorzusehen, um die Rohdaten dezentral zu belassen. Die lokalen Modelle
    müssen ausschließlich aggregierte Parameter an eine zentrale Instanz übermitteln,
    während die ursprünglichen Trainingsdaten niemals die lokale Umgebung verlassen.
    Eine Prüfung ist sicherzustellen, dass durch diese Architektur keine sensiblen
    Informationen während des Lernprozesses zentralisiert oder übertragen werden.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-63
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-26
    title_original_de: MA-26 Federated Learning
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-26_Federated%20Learning%20Approach.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-27-statistische-grundlagenthemen
  canonical_name: Statistische Grundlagenthemen
  description: Für die Sicherstellung der Datenqualität im KI-Lebenszyklus sind statistische
    Basisverfahren systematisch zu implementieren und kontinuierlich zu validieren.
    Es ist sicherzustellen, dass alle relevanten Metriken zur Verteilungsanalyse und
    Datenintegrität konsistent in die Berechnungspipelines integriert werden. Diese
    fundamentalen Analysen müssen unabhängig von spezifischen Bausteinen als übergeordnete
    Prüfkriterien für die Modellgüte dienen.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-01
  - QM-02
  - QM-03
  - QM-04
  - QM-06
  - QM-07
  - QM-09
  - QM-23
  - QM-51
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-27
    title_original_de: MA-27 Statistische Grundlagenthemen
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-27_StatisticalBasis.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0213
- id: MIT-AI-DATA-MA-28-diversitaetsindizes
  canonical_name: Diversitätsindizes
  description: Das System muss quantitative Metriken zur Erfassung der Heterogenität
    von KI-Trainingsdaten implementieren, um die Verteilung verschiedener Kategorien
    zu messen. Es ist sicherzustellen, dass diese Kennzahlen sowohl die Anzahl vorhandener
    Klassen als auch deren Gleichverteilung abbilden. Die Validierung der Datenqualität
    erfolgt durch die Berechnung von Diversitätsindizes, die statistische Unsicherheit
    oder Kollisionswahrscheinlichkeiten quantifizieren.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-68
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-28
    title_original_de: MA-28 Diversitätsindizes
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-28_Diversity-Indices.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-29-data-splitting
  canonical_name: Data-Splitting
  description: Die Aufteilung von KI-Trainingsdaten in disjunkte Teilmengen ist zwingend
    erforderlich, um eine unvoreingenommene Validierung der Modellgüte zu gewährleisten.
    Dabei müssen mindestens drei voneinander getrennte Bereiche für das Training,
    die Hyperparameter-Optimierung sowie die abschließende Leistungsbewertung definiert
    werden. Eine zufällige oder stratifizierte Trennung ist sicherzustellen, um Datenlecks
    zwischen den Phasen auszuschließen und die Generalisierungsfähigkeit des Systems
    nachweisbar zu prüfen.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-69
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-29
    title_original_de: MA-29 Data-Splitting
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-29_Data%20Splitting.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: MIT-AI-DATA-MA-30-fairness
  canonical_name: Fairness
  description: Das System muss sicherstellen, dass KI-Trainingsdaten keine systematischen
    Verzerrungen bezüglich sensibler demografischer Merkmale aufweisen, um diskriminierende
    Vorhersagen zu vermeiden. Bei unzureichender Repräsentation von Teilgruppen sind
    präventive Aufbereitungsverfahren oder algorithmische Transformationsmethoden
    zur Bias-Korrektur zwingend anzuwenden. Die Wirksamkeit dieser Maßnahmen ist vor
    der Modellbereitstellung durch quantitative Prüfverfahren auf Gleichbehandlungsgrundsätze
    zu validieren.
  kind: measure
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - QM-57
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: MA-30
    title_original_de: MA-30 Fairness
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-30_Fairness.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0