source: Derived from BSI QUAIDAL (Clean-Room) source_url: https://github.com/BSI-Bund/QUAIDAL commit_sha: c39b75369841b359c6bf56d6588e3768c722842f plagiarism_limit_4gram: 0.2 generated_by_model: qwen3.5:35b-a3b controls: - id: MIT-AI-DATA-MA-01-datentyp-validierung canonical_name: Datentyp Validierung description: Es ist sicherzustellen, dass alle Eingabedaten und Trainingsdatensätze vor der Verarbeitung auf Konformität mit den definierten Schemata und Datentypen des Modells geprüft werden. Abweichungen von den erwarteten Formaten sind automatisch zu identifizieren und müssen entweder bereinigt oder ausgeschlossen werden, um Inferenzfehler zu verhindern. Diese Validierung ist als automatisierter Schritt in den Datenpipelines zu implementieren, um die Integrität der KI-Systeme zu gewährleisten. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-32 - QM-34 external_refs: [] source: framework: BSI QUAIDAL section: MA-01 title_original_de: MA-01 Datentyp Validierung url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-01_Datatype%20Validation.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-02-format-pruefung canonical_name: Format Prüfung description: Die Eingabedaten für KI-Trainingszwecke sind vor der Verarbeitung auf strukturelle Korrektheit zu validieren, wobei Datentypen wie Zeitstempel oder Textfelder exakt den definierten Schemata entsprechen müssen. Durch die erzwingung einer einheitlichen Formatierung wird verhindert, dass regionale Abweichungen oder inkonsistente Darstellungen zu Fehlinterpretationen im Modell führen. Die Konformität ist automatisiert zu prüfen, um sicherzustellen, dass keine nicht konformen Datensätze in den Lernprozess eingehen. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-32 - QM-34 - QM-43 external_refs: [] source: framework: BSI QUAIDAL section: MA-02 title_original_de: MA-02 Format Prüfung url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-02_Format%20Check.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-03-bereichspruefung canonical_name: Bereichsprüfung description: Das System muss vor dem KI-Training eine automatische Validierung aller Eingangsmerkmale durchführen, um Werte außerhalb definierter physikalischer oder logischer Grenzen zu identifizieren. Dabei sind insbesondere inkonsistente Datentypen, fehlerhafte Maßeinheiten und statistisch unplausible Ausreißer zu detektieren und zu isolieren. Die Integrität des Trainingsdatensatzes ist erst dann gewährleistet, wenn alle nicht konformen Einträge ausgeschlossen oder korrigiert wurden, bevor der Lernprozess initiiert wird. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-51 - QM-52 external_refs: [] source: framework: BSI QUAIDAL section: MA-03 title_original_de: MA-03 Bereichsprüfung url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-03_Range%20Check.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-04-over-undersampling canonical_name: Over-Undersampling description: Das Daten-Set für das KI-Training ist auf ein ausgewogenes Klassenverhältnis zu prüfen, wobei eine künstliche Aufstockung seltener Kategorien durch synthetische Generierung oder Duplizierung zulässig ist. Alternativ ist eine Reduktion der Datenpunkte der Mehrheitsklasse nach definierten Kriterien durchzuführen, um eine Verzerrung des Modells zu vermeiden. Die angewandte Methode zur Erreichung dieses Gleichgewichts ist dokumentiert und muss reproduzierbar sein. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-34 - QM-38 - QM-57 external_refs: [] source: framework: BSI QUAIDAL section: MA-04 title_original_de: MA-04 Over-Undersampling url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-04_Over-Undersampling.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-05-automatisierte-aufgaben canonical_name: Automatisierte Aufgaben description: Wiederkehrende Prozesse der Datenvorverarbeitung und Qualitätsprüfung im KI-Lebenszyklus sind durch automatisierte Mechanismen zu implementieren. Die Ausführung dieser Aufgaben muss so konfiguriert sein, dass eine konsistente Ergebnisqualität über alle Durchläufe hinweg sichergestellt wird. Es ist zu prüfen, dass die eingesetzten Automatisierungswerkzeuge spezifische Validierungsregeln für Trainingsdaten zuverlässig anwenden. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-02 - MA-03 - QM-10 - QM-34 - QM-64 external_refs: - framework: AI Act citation: null source: framework: BSI QUAIDAL section: MA-05 title_original_de: MA-05 Automatisierte Aufgaben url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-05_Automated%20Tasks.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-06-experten-auswertung canonical_name: Experten Auswertung description: Für die Validierung von KI-Trainingsdaten ist eine manuelle Prüfung durch qualifizierte Fachexperten zwingend erforderlich. Diese Experten müssen die inhaltliche Gültigkeit, Relevanz und Korrektheit der Datensätze auf Basis domänenspezifischen Wissens systematisch evaluieren. Das Ergebnis dieser Begutachtung dient dazu, methodische Fehler oder qualitative Mängel frühzeitig zu identifizieren und konkrete Maßnahmen zur Datenbereinigung abzuleiten. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-16 - QM-30 - QM-43 - QM-45 - QM-59 - QM-70 external_refs: - framework: ISO/IEC 25012 citation: null - framework: ISO/IEC 25024 citation: null source: framework: BSI QUAIDAL section: MA-06 title_original_de: MA-06 Experten Auswertung url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-06_Expert%20Evaluation.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0204 - id: MIT-AI-DATA-MA-07-massenbeteiligung canonical_name: Massenbeteiligung description: Das System muss Mechanismen implementieren, um die Qualität von Trainingsdaten durch dezentrale Validierung durch eine heterogene Gruppe externer Prüfer sicherzustellen. Es ist zwingend erforderlich, dass die Ergebnisse dieser kollektiven Überprüfung mit internen Qualitätsstandards abgeglichen werden, um systematische Fehler in den annotierten Datensätzen zu identifizieren. Die Integrität der KI-Modelle ist nur gewährleistet, wenn diese skalierbare Prüfprozedur für kritische Datenmengen routinemäßig angewendet wird. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-06 - QM-03 - QM-16 - QM-43 external_refs: [] source: framework: BSI QUAIDAL section: MA-07 title_original_de: MA-07 Massenbeteiligung url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-07_Crowdsourcing.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-08-verteilungsanalyse canonical_name: Verteilungsanalyse description: Es ist sicherzustellen, dass die Verteilung der Trainingsdaten über alle relevanten Klassen und Merkmalsbereiche systematisch auf statistische Verzerrungen und Anomalien geprüft wird. Diese Analyse muss nachweisen, dass das Modell auf einer repräsentativen und ausgewogenen Datenbasis trainiert wurde, um die Generalisierungsfähigkeit der Vorhersagen zu gewährleisten. Die Ergebnisse der Verteilungsprüfung sind vor Beginn des Trainings zu dokumentieren und bei signifikanten Abweichungen sind Korrekturmaßnahmen einzuleiten. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-06 - QM-10 - QM-11 - QM-51 external_refs: [] source: framework: BSI QUAIDAL section: MA-08 title_original_de: MA-08 Verteilungsanalyse url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-08_DistributionAnalysis.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0339 - id: MIT-AI-DATA-MA-09-vergleichgrundgesamtheit canonical_name: VergleichGrundgesamtheit description: Das System muss eine repräsentative Referenzstichprobe aus der Zielverteilung bereitstellen, um die Validität von KI-Trainingsdaten zu verifizieren. Es ist sicherzustellen, dass diese Referenzdaten als Goldstandard dienen, um Abweichungen zwischen dem Trainingsset und der tatsächlichen Grundgesamtheit zu quantifizieren. Die Übereinstimmung ist durch einen automatisierten Abgleich mit den vorab definierten Verteilungsparametern zu prüfen. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-9 - QM-51 - QM-52 external_refs: [] source: framework: BSI QUAIDAL section: MA-09 title_original_de: MA-09 VergleichGrundgesamtheit url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-09_CompareGroundtruth.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-10-gewichtung-der-daten canonical_name: Gewichtung der Daten description: Für KI-Trainingsdatensätze ist eine manuelle Gewichtung der einzelnen Merkmale zwingend erforderlich, um systematische Verzerrungen zu minimieren. Diese Maßnahme dient der Sicherstellung einer ausgewogenen Datenrepräsentation und verbessert die Generalisierungsfähigkeit des Modells auf spezifische Anwendungsfälle. Die Zuordnung der Gewichtungsfaktoren ist vor dem Training durchzuführen und muss dokumentiert werden, um die Nachvollziehbarkeit der Datenqualität zu gewährleisten. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-10 - QM-18 - QM-28 - QM-29 - QM-37 - QM-38 - QM-39 external_refs: [] source: framework: BSI QUAIDAL section: MA-10 title_original_de: MA-10 Gewichtung der Daten url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-10_ManualWeights.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-11-stichprobengroesse canonical_name: Stichprobengröße description: Die Menge der für das Training verwendeten Daten ist so zu dimensionieren, dass statistisch signifikante Ergebnisse bei definiertem Konfidenzniveau und akzeptabler Fehlervarianz gewährleistet sind. Die Datengröße muss iterativ angepasst werden, wobei sowohl die Gesamtgröße der zugrundeliegenden Population als auch die spezifische Art der Datenerweiterung systematisch zu berücksichtigen sind. Eine Validierung der Datenqualität ist zwingend erforderlich, um Verzerrungen durch unterschiedliche Skalierungsmethoden auszuschließen. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-08 - QM-09 - QM-39 - QM-41 external_refs: [] source: framework: BSI QUAIDAL section: MA-11 title_original_de: MA-11 Stichprobengröße url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-11_Trainingsdataset%20Size.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-12-abdeckung-relevanter-merkmale canonical_name: Abdeckung relevanter Merkmale description: Das Trainingsdatenset muss vollständig alle für die spezifische Problemstellung essenziellen Eingangsvariablen enthalten, um eine lückenlose Merkmalsabdeckung zu gewährleisten. Es ist sicherzustellen, dass keine kritischen Einflussgrößen fehlen, da sonst das Modell keine verlässlichen Korrelationen erlernen kann. Die Vollständigkeit des Merkmalsraums ist vor Beginn des Trainingsprozesses durch eine formale Prüfung zu verifizieren. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-06 - MA-14 - QM-10 - QM-11 - QM-13 - QM-25 - QM-26 - QM-27 - QM-28 - QM-29 external_refs: [] source: framework: BSI QUAIDAL section: MA-12 title_original_de: MA-12 Abdeckung relevanter Merkmale url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-12_RelevantFeatureCoverage.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-13-vollstaendige-information-in-datensaetze canonical_name: Vollständige Information in Datensätzen description: Für die Validierung von KI-Trainingsdaten ist sicherzustellen, dass alle für die Analyse erforderlichen Attribute vollständig vorliegen und keine unbeabsichtigten Lücken existieren. Bei festgestellten Datenfehlern ist zwingend die Ursache zu ermitteln, um das passende Imputationsverfahren basierend auf dem spezifischen Fehlerschema auszuwählen. Eine unzureichende Datenbasis darf nicht zur Modellierung genutzt werden, solange die Integrität der relevanten Information nicht durch geeignete Maßnahmen wiederhergestellt wurde. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-12 - QM-40 - QM-53 external_refs: [] source: framework: BSI QUAIDAL section: MA-13 title_original_de: MA-13 Vollständige Information in Datensätzen url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-13_CompleteInformation.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-14-eda-explorative-daten-analyse canonical_name: EDA-Explorative Daten Analyse description: Vor Beginn des Modelltrainings ist eine explorative Datenanalyse durchzuführen, um Datenverteilungen, Korrelationen sowie Ausreißer und strukturelle Anomalien ohne vorab definierte Hypothesen zu identifizieren. Die gewonnenen Erkenntnisse sind systematisch zu dokumentieren, um die Qualität der Trainingsdaten zu validieren und fundierte Entscheidungen über notwendige Bereinigungs- oder Erweiterungsschritte abzuleiten. Auf Basis dieser Analyse ist der Datensatz so anzupassen, dass er die für die Zielfunktion erforderliche Repräsentativität und Integrität gewährleistet. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-10 - QM-12 - QM-24 - QM-25 - QM-26 - QM-27 - QM-28 - QM-29 - QM-36 - QM-42 - QM-54 - QM-57 - QM-61 external_refs: [] source: framework: BSI QUAIDAL section: MA-14 title_original_de: MA-14 EDA-Explorative Daten Analyse url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-14_EDA-ExplorativeDataAnalysis.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-15-empirische-evidenz canonical_name: Empirische Evidenz description: Es ist sicherzustellen, dass die Wirksamkeit von Schutzmaßnahmen gegen KI-gestützte Angriffe durch den systematischen Vergleich mit historischen Einsatzszenarien empirisch validiert wird. Dabei sind Leistungsdaten aus vergleichbaren Anwendungsfällen heranzuziehen, um die Angemessenheit der eingesetzten Trainingsdatensätze und Methoden für den spezifischen Kontext nachzuweisen. Die Analyse muss belegen, dass die gewählten Maßnahmen die identifizierten Risiken in der Praxis effektiv reduzieren und die Datenqualität den aktuellen Bedrohungsmodellen entspricht. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-16 - QM-30 - QM-61 external_refs: [] source: framework: BSI QUAIDAL section: MA-15 title_original_de: MA-15 Empirische Evidenz url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-15_EmpiricEvidence.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-16-daten-imputation canonical_name: Daten Imputation description: Für KI-Trainingsdatensätze ist eine systematische Analyse der Ursachen für fehlende Werte zwingend erforderlich, bevor eine Rekonstruktion erfolgt. Das gewählte Verfahren zur Datenergänzung muss sich strikt an den identifizierten Entstehungsgründen orientieren, um die statistische Integrität des Modells zu wahren. Eine unkritische Imputation ohne Ursachenanalyse ist unzulässig, da sie das Lernverhalten des Algorithmus verfälschen kann. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-13 - QM-10 - QM-22 - QM-44 - QM-53 external_refs: [] source: framework: BSI QUAIDAL section: MA-16 title_original_de: MA-16 Daten Imputation url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-16_DataImputation.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-17-metadatenverwaltung canonical_name: Metadatenverwaltung description: Für den KI-Trainingsprozess ist eine vollständige Dokumentation der Datenherkunft, der Qualitätsmetriken sowie der rechtlichen Klassifizierung jeder einzelnen Trainingsinstanz sicherzustellen. Diese strukturellen Begleitinformationen müssen maschinenlesbar vorliegen, um eine automatisierte Validierung der Datenintegrität und eine nachvollziehbare Auditierung des Datensatzes zu ermöglichen. Die Erfassung dieser Attribute ist zwingend erforderlich, um die Eignung der Daten für den spezifischen Trainingszweck zu gewährleisten und regulatorische Vorgaben einzuhalten. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-59 external_refs: [] source: framework: BSI QUAIDAL section: MA-17 title_original_de: MA-17 Metadatenverwaltung url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-17_MetadataManagement.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-18-provenienztracking canonical_name: ProvenienzTracking description: Die Herkunft und der Verarbeitungsweg von KI-Trainingsdaten sind lückenlos zu dokumentieren, um deren Integrität und Nachvollziehbarkeit sicherzustellen. Für jeden Datensatz ist eine eindeutige Identifikation des Ursprungs sowie aller Transformationsschritte im Lebenszyklus zu führen. Diese Metadaten müssen so strukturiert sein, dass eine Rückverfolgung zur ursprünglichen Quelle jederzeit möglich ist, ohne dass Datenverluste oder Manipulationen unentdeckt bleiben. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-59 - QM-60 - QM-61 - QM-65 - QM-67 - QM-70 external_refs: [] source: framework: BSI QUAIDAL section: MA-18 title_original_de: MA-18 ProvenienzTracking url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-18_ProvenienzTracking.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-19-audit-trails canonical_name: Audit Trails description: Für die Nachvollziehbarkeit von KI-Trainingsprozessen ist ein lückenloses Protokollierungssystem zu implementieren, das alle Datenmanipulationen und Modellupdates zeitgestempelt erfasst. Jeder Zugriff auf Trainingsdatensätze sowie jede Änderung der Modellparameter muss mit eindeutigen Benutzeridentitäten verknüpft werden. Die gespeicherten Logs müssen so strukturiert sein, dass sie eine vollständige Rekonstruktion des Datenflusses und eine Rückführung auf frühere Datenqualitätszustände ermöglichen. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-22 external_refs: [] source: framework: BSI QUAIDAL section: MA-19 title_original_de: MA-19 Audit Trails url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-19_AuditTrails.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-20-prozess-dokumentation canonical_name: Prozess Dokumentation description: Für die Sicherstellung der Datenqualität im KI-Trainingsprozess ist eine vollständige Dokumentation aller Phasen der Datenerstellung und -aufbereitung zwingend erforderlich. Diese Spezifikation muss verbindlich festlegen, welche Aktivitäten auszuführen sind, wer hierfür verantwortlich zeichnet, welche Ressourcen notwendig sind und welche qualitativen Ergebnisse zu erzielen sind. Insbesondere ist die Nachverfolgbarkeit der Datenherkunft innerhalb des Dokumentationsprozesses lückenlos zu gewährleisten, um die Integrität der Trainingsdaten zu validieren. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-15 - QM-31 - QM-62 - QM-65 external_refs: - framework: ISO/IEC 42001 citation: null source: framework: BSI QUAIDAL section: MA-20 title_original_de: MA-20 Prozess Dokumentation url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-20_ProcessDocumentation.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-21-compliance canonical_name: Compliance description: Der Einsatz von KI-Modellen erfordert eine zwingende Prüfung der Trainingsdatensätze auf rechtliche Konformität und ethische Integrität, bevor diese zur Modellgenerierung verwendet werden. Es ist sicherzustellen, dass alle verarbeiteten Informationen die Vorgaben der DSGVO sowie branchenspezifische Regularien vollständig erfüllen und keine unrechtmäßig beschafften oder personenbezogenen Daten ohne explizite Einwilligung enthalten. Die Validierung dieser Datenqualität muss vor jedem Trainingslauf durch einen automatisierten oder manuellen Compliance-Check nachgewiesen werden. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-12 - QM-15 external_refs: - framework: EU GDPR citation: null - framework: AI Act citation: null source: framework: BSI QUAIDAL section: MA-21 title_original_de: MA-21 Compliance url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-21_Compliance.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-22-vertrauenswuerdigkeit canonical_name: Vertrauenswürdigkeit description: Die Integrität und Zuverlässigkeit der für das KI-Training verwendeten Datensätze ist im jeweiligen Anwendungskontext nachweislich zu verifizieren. Es ist sicherzustellen, dass potenzielle Manipulationen oder unbeabsichtigte Korruptionen des Datenflusses durch technische Prüfmechanismen ausgeschlossen werden. Bei der Anwendung von Korrekturverfahren zur Datenbereinigung muss die ursprüngliche Glaubwürdigkeit der Informationen gewahrt bleiben und darf nicht durch die Maßnahme beeinträchtigt werden. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-15 - QM-43 - QM-65 external_refs: [] source: framework: BSI QUAIDAL section: MA-22 title_original_de: MA-22 Vertrauenswürdigkeit url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-22_Credibility.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-23-merkmalsskalierung canonical_name: Merkmalsskalierung description: Für KI-Trainingsdatensätze ist eine Normalisierung der Merkmalswerte auf einen einheitlichen Wertebereich zwingend erforderlich, um Dominanzeffekte durch unterschiedliche Größenordnungen zu vermeiden. Diese Maßnahme stellt sicher, dass Algorithmen, die auf Distanzberechnungen oder Gradientenverfahren basieren, nicht durch skalenbedingte Verzerrungen beeinträchtigt werden. Die Wirksamkeit der Skalierung ist vor dem Training systematisch zu prüfen, um die Vorhersagegenauigkeit des Modells zu garantieren. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-10 - QM-56 external_refs: [] source: framework: BSI QUAIDAL section: MA-23 title_original_de: MA-23 Merkmalsskalierung url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-23_FeatureScaling.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-24-merkmalserstellung canonical_name: Merkmalserstellung description: Es ist sicherzustellen, dass bei der Erstellung neuer Eingangsmerkmale für KI-Modelle ausschließlich validierte Transformationsverfahren angewendet werden, um die Datenqualität zu gewährleisten. Die Generierung neuer Features muss auf nachvollziehbaren Algorithmen basieren, die eine signifikante Verbesserung der Modellleistung gegenüber den Rohdaten nachweisen. Jede angewandte Methode zur Datenanreicherung oder -bereinigung ist vor dem Training auf ihre Eignung zur Mustererkennung und Vorhersagegenauigkeit zu prüfen. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-11 - QM-25 - QM-26 - QM-27 - QM-28 - QM-51 - QM-71 external_refs: [] source: framework: BSI QUAIDAL section: MA-24 title_original_de: MA-24 Merkmalserstellung url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-24_FeatureCreation.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-25-differential-privacy canonical_name: Differential Privacy description: Das System muss bei der Verarbeitung von KI-Trainingsdaten differenzielle Privatsphäre implementieren, indem statistisch signifikante, zufällige Störgrößen zu den Ergebnissen hinzugefügt werden. Es ist sicherzustellen, dass die An- oder Abwesenheit einzelner Datensätze im Trainingsset das Ausgabeergebnis nur marginal beeinflusst. Durch diese Maßnahme ist zu prüfen, ob keine Rückschlüsse auf spezifische Personen aus den generierten Analysen gezogen werden können, während die allgemeine Datenqualität für das Modelltraining erhalten bleibt. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-58 external_refs: [] source: framework: BSI QUAIDAL section: MA-25 title_original_de: MA-25 Differential Privacy url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-25_Differential%20Privacy.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0625 - id: MIT-AI-DATA-MA-26-federated-learning canonical_name: Federated Learning description: Für KI-Systeme, die auf verteilten Datenquellen basieren, ist ein Federated-Learning-Ansatz zwingend vorzusehen, um die Rohdaten dezentral zu belassen. Die lokalen Modelle müssen ausschließlich aggregierte Parameter an eine zentrale Instanz übermitteln, während die ursprünglichen Trainingsdaten niemals die lokale Umgebung verlassen. Eine Prüfung ist sicherzustellen, dass durch diese Architektur keine sensiblen Informationen während des Lernprozesses zentralisiert oder übertragen werden. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-63 external_refs: [] source: framework: BSI QUAIDAL section: MA-26 title_original_de: MA-26 Federated Learning url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-26_Federated%20Learning%20Approach.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-27-statistische-grundlagenthemen canonical_name: Statistische Grundlagenthemen description: Für die Sicherstellung der Datenqualität im KI-Lebenszyklus sind statistische Basisverfahren systematisch zu implementieren und kontinuierlich zu validieren. Es ist sicherzustellen, dass alle relevanten Metriken zur Verteilungsanalyse und Datenintegrität konsistent in die Berechnungspipelines integriert werden. Diese fundamentalen Analysen müssen unabhängig von spezifischen Bausteinen als übergeordnete Prüfkriterien für die Modellgüte dienen. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-01 - QM-02 - QM-03 - QM-04 - QM-06 - QM-07 - QM-09 - QM-23 - QM-51 external_refs: [] source: framework: BSI QUAIDAL section: MA-27 title_original_de: MA-27 Statistische Grundlagenthemen url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-27_StatisticalBasis.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0213 - id: MIT-AI-DATA-MA-28-diversitaetsindizes canonical_name: Diversitätsindizes description: Das System muss quantitative Metriken zur Erfassung der Heterogenität von KI-Trainingsdaten implementieren, um die Verteilung verschiedener Kategorien zu messen. Es ist sicherzustellen, dass diese Kennzahlen sowohl die Anzahl vorhandener Klassen als auch deren Gleichverteilung abbilden. Die Validierung der Datenqualität erfolgt durch die Berechnung von Diversitätsindizes, die statistische Unsicherheit oder Kollisionswahrscheinlichkeiten quantifizieren. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-68 external_refs: [] source: framework: BSI QUAIDAL section: MA-28 title_original_de: MA-28 Diversitätsindizes url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-28_Diversity-Indices.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-29-data-splitting canonical_name: Data-Splitting description: Die Aufteilung von KI-Trainingsdaten in disjunkte Teilmengen ist zwingend erforderlich, um eine unvoreingenommene Validierung der Modellgüte zu gewährleisten. Dabei müssen mindestens drei voneinander getrennte Bereiche für das Training, die Hyperparameter-Optimierung sowie die abschließende Leistungsbewertung definiert werden. Eine zufällige oder stratifizierte Trennung ist sicherzustellen, um Datenlecks zwischen den Phasen auszuschließen und die Generalisierungsfähigkeit des Systems nachweisbar zu prüfen. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-69 external_refs: [] source: framework: BSI QUAIDAL section: MA-29 title_original_de: MA-29 Data-Splitting url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-29_Data%20Splitting.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: MIT-AI-DATA-MA-30-fairness canonical_name: Fairness description: Das System muss sicherstellen, dass KI-Trainingsdaten keine systematischen Verzerrungen bezüglich sensibler demografischer Merkmale aufweisen, um diskriminierende Vorhersagen zu vermeiden. Bei unzureichender Repräsentation von Teilgruppen sind präventive Aufbereitungsverfahren oder algorithmische Transformationsmethoden zur Bias-Korrektur zwingend anzuwenden. Die Wirksamkeit dieser Maßnahmen ist vor der Modellbereitstellung durch quantitative Prüfverfahren auf Gleichbehandlungsgrundsätze zu validieren. kind: measure regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - QM-57 external_refs: [] source: framework: BSI QUAIDAL section: MA-30 title_original_de: MA-30 Fairness url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-30_Fairness.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0