breakpilot-core/control-pipeline/data/quaidal/atomic_controls.yaml

source: Derived from BSI QUAIDAL (Clean-Room)
source_url: https://github.com/BSI-Bund/QUAIDAL
commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
plagiarism_limit_4gram: 0.2
generated_by_model: qwen3.5:35b-a3b
controls:
- id: AC-AI-DATA-QB-01-syntaktische-genauigkeit
  canonical_name: Syntaktische Genauigkeit
  description: Das KI-Trainingsset muss syntaktisch konsistent sein, wobei alle definierten
    Grammatik- und Strukturregeln strikt einzuhalten sind. Eine fehlerfreie Datenstruktur
    ist zwingend erforderlich, um eine korrekte Verarbeitung durch Parser oder Sprachmodelle
    zu gewährleisten. Die Validierung der formalen Korrektheit ist vor jedem Training
    durchzuführen, um Verarbeitungsfehler auszuschließen.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-01
  - MA-02
  - MA-03
  - MA-04
  - MA-05
  - MA-27
  external_refs:
  - framework: BSI AIC4
    citation: null
  - framework: ISO/IEC 25012
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QB-01
    title_original_de: QB-01 Syntaktische Genauigkeit
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-01_Syntactic%20Accuracy.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: AC-AI-DATA-QB-02-semantische-genauigkeit
  canonical_name: Semantische Genauigkeit
  description: Die KI-Trainingsdaten müssen inhaltlich korrekt sein, sodass die zugewiesenen
    Werte dem tatsächlichen Sachverhalt entsprechen und nicht nur formal valide sind.
    Es ist sicherzustellen, dass semantische Zuordnungen keine logischen Fehler aufweisen,
    wie beispielsweise die Klassifizierung von Tieren als technische Geräte. Eine
    Prüfung muss verifizieren, dass die Bedeutung der Datenpunkte im Kontext der Anwendung
    eindeutig und fehlerfrei interpretiert werden kann.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-05
  - MA-06
  - MA-07
  - MA-27
  external_refs:
  - framework: BSI AIC4
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QB-02
    title_original_de: QB-02 Semantische Genauigkeit
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-02_Semantic%20Accuracy.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: AC-AI-DATA-QB-03-vielfalt
  canonical_name: Vielfalt
  description: Das KI-Trainingsdatenset muss eine maximale Varianz in den relevanten
    Merkmalen aufweisen, um die Heterogenität der Eingabewerte zu gewährleisten. Es
    ist sicherzustellen, dass das Spektrum der enthaltenen Werte breit genug ist,
    um das Variationspotential der Zielgruppe vollständig abzudecken. Eine Prüfung
    der Datenverteilung ist vor dem Training durchzuführen, um eine unzureichende
    Diversität auszuschließen.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-08
  - MA-09
  - MA-10
  - MA-12
  - MA-27
  - MA-28
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: QB-03
    title_original_de: QB-03 Vielfalt
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-03_Diversity.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0204
- id: AC-AI-DATA-QB-04-ausgewogenheit
  canonical_name: Ausgewogenheit
  description: Der Trainingsdatensatz ist so zu konzipieren, dass die Verteilung aller
    relevanten Klassen proportional zur Zielrealität erfolgt, um eine einseitige Dominanz
    einzelner Kategorien zu vermeiden. Es ist sicherzustellen, dass keine Gruppe systematisch
    unter- oder überrepräsentiert wird, um Verzerrungen im Modellverhalten auszuschließen.
    Die Datenqualität muss durch eine ausgewogene Varianz aller Merkmale gewährleistet
    werden, um Overfitting und Bias wirksam zu verhindern.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-08
  - MA-09
  - MA-10
  - MA-12
  - MA-14
  - MA-27
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: QB-04
    title_original_de: QB-04 Ausgewogenheit
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-04_Balance.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0182
- id: AC-AI-DATA-QB-05-umfang
  canonical_name: Umfang
  description: Der Trainingsdatensatz muss eine quantitativ ausreichende Anzahl an
    Datenpunkten aufweisen, um statistisch signifikante Muster zu erfassen und das
    Risiko von Overfitting zu minimieren. Die Größe der Datenbasis ist so zu dimensionieren,
    dass sie eine belastbare Analyse der zugrundeliegenden Verteilungen ermöglicht
    und die Generalisierungsfähigkeit des Modells stabilisiert. Eine Prüfung ist durchzuführen,
    um sicherzustellen, dass der reine quantitative Umfang die notwendige Basis für
    eine robuste Modellbildung bildet.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-11
  - MA-12
  - MA-15
  - MA-27
  external_refs:
  - framework: BSI AIC4
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QB-05
    title_original_de: QB-05 Umfang
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-05_Size.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0161
- id: AC-AI-DATA-QB-06-verzerrung
  canonical_name: Verzerrung
  description: Das KI-System muss vor dem produktiven Einsatz auf systematische Verzerrungen
    in den Trainingsdaten und den daraus resultierenden Vorhersagen untersucht werden.
    Es ist sicherzustellen, dass latente Ungleichbehandlungen quantitativ erfasst
    und dokumentiert werden, um eine transparente Bewertung der Fairness zu ermöglichen.
    Die Prüfung umfasst die Identifikation von Abweichungen, die auf unausgewogene
    Datenverteilungen zurückzuführen sind, bevor das Modell für reale Anwendungen
    freigegeben wird.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-01
  - MA-02
  - MA-03
  - MA-04
  - MA-06
  - MA-07
  - MA-08
  - MA-09
  - MA-10
  - MA-11
  - MA-12
  - MA-13
  - MA-14
  - MA-15
  - MA-16
  - MA-17
  - MA-18
  - MA-20
  - MA-23
  - MA-24
  - MA-27
  - MA-28
  - QB-15
  - QM-11
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: QB-06
    title_original_de: QB-06 Verzerrung
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-06_Bias-Detektion.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: AC-AI-DATA-QB-07-gesamtheit
  canonical_name: Gesamtheit
  description: Das Trainingsdatenset muss sämtliche für das spezifische Anwendungsszenario
    definierten Attribute und Entitätsinstanzen vollständig enthalten, um die Anforderung
    der Gesamtheit zu erfüllen. Diese Vollständigkeit ist auf der Ebene des gesamten
    Datensatzes, einzelner Spalten oder einzelner Datenpunkte nachweisbar zu prüfen.
    Die Bewertung der Datenqualität erfolgt stets kontextbezogen unter Berücksichtigung
    der jeweiligen Nutzungszwecke.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-12
  - MA-13
  - MA-27
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: QB-07
    title_original_de: QB-07 Gesamtheit
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-07_Totality.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: AC-AI-DATA-QB-08-konsistenzsicherung
  canonical_name: Konsistenzsicherung
  description: Die Konsistenz der KI-Trainingsdaten ist durch standardisierte Datentypen
    und formatierte Attribute über den gesamten Lebenszyklus sicherzustellen. Automatisierte
    Prüfmechanismen müssen Abweichungen in den Datenwerten sowie zeitlichen Verläufen
    frühzeitig identifizieren, um nachvollziehbare Transformations- oder Imputationsmaßnahmen
    einzuleiten. Eine einheitliche Datenstruktur ist zwingend erforderlich, um die
    Integrität der Trainingsbasis für valide Modellentscheidungen zu gewährleisten.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-01
  - MA-02
  - MA-03
  external_refs:
  - framework: ISO/IEC 25012
    citation: null
  - framework: BSI AIC4
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QB-08
    title_original_de: QB-08 Konsistenzsicherung
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-08_ConsistencyAssurance.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: AC-AI-DATA-QB-09-quellenmanagement
  canonical_name: Quellenmanagement
  description: Die Organisation muss einen durchgängigen Mechanismus implementieren,
    der die Herkunft und den Verarbeitungsweg jeder Trainingsdaten-Einheit lückenlos
    dokumentiert. Es ist sicherzustellen, dass jeder Datenpunkt mit seinem Ursprung
    sowie allen nachfolgenden Transformationsschritten verknüpft bleibt, um die Integrität
    der KI-Datenbasis zu gewährleisten. Zusätzlich sind alle Zugriffe und Modifikationen
    in einem unveränderlichen Protokoll chronologisch festzuhalten, um einen vollständigen
    Audit-Trail für Compliance-Prüfungen zu schaffen.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-18
  - MA-19
  - MA-20
  - MA-22
  external_refs:
  - framework: BSI AIC4
    citation: null
  - framework: AI Act
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QB-09
    title_original_de: QB-09 Quellenmanagement
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-09_Sourcemanagement.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0167
- id: AC-AI-DATA-QB-10-datenpruefung
  canonical_name: _Datenprüfung
  description: Vor der Initialisierung des Trainingsprozesses ist eine systematische
    Validierung der Eingangsdaten auf Vollständigkeit, Konsistenz und Integrität durchzuführen.
    Dabei sind Unregelmäßigkeiten wie fehlende Werte, formatinkonsistenzen oder statistische
    Ausreißer zu identifizieren und zu bereinigen. Das System muss sicherstellen,
    dass keine verzerrten oder fehlerhaften Datensätze das Modelltraining beeinträchtigen
    und die Datenqualität den definierten Qualitätsstandards entspricht.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-05
  - MA-20
  - MA-26
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: QB-10
    title_original_de: QB-10_Datenprüfung
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-10_DataChecks.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0204
- id: AC-AI-DATA-QB-11-prozesse
  canonical_name: Prozesse
  description: Es ist sicherzustellen, dass jeder Schritt der Datenvorbereitung und
    -verarbeitung für KI-Trainingszwecke lückenlos protokolliert wird, um die vollständige
    Nachvollziehbarkeit der Datenherkunft und aller Transformationen zu gewährleisten.
    Diese Dokumentation muss so strukturiert sein, dass sie eine valide Reproduzierbarkeit
    der Modelle sowie eine fundierte Qualitätssicherung der zugrundeliegenden Datensätze
    ermöglicht. Durch die Erfassung aller Änderungsereignisse wird die Integrität
    der Trainingsdaten über den gesamten Lebenszyklus hinweg verifiziert.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-18
  - MA-21
  external_refs:
  - framework: BSI Grundschutz
    citation: null
  - framework: ISO/IEC 23894
    citation: null
  - framework: ISO/IEC 42001
    citation: null
  - framework: AI Act
    citation: null
  source:
    framework: BSI QUAIDAL
    section: QB-11
    title_original_de: QB-11 Prozesse
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-11_Processes.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: AC-AI-DATA-QB-12-merkmalsentwicklung
  canonical_name: Merkmalsentwicklung
  description: Die Erstellung und Auswahl von Eingangsmerkmalen für KI-Modelle ist
    so zu gestalten, dass sie signifikante Korrelationen zur Zielgröße aufweisen und
    redundante Informationen eliminieren. Es ist sicherzustellen, dass die transformierten
    Daten generalisierbar sind und eine hohe Informationsdichte für neue, unbekannte
    Datensätze bieten. Eine Validierung muss nachweisen, dass die abgeleiteten Merkmale
    die Interpretierbarkeit des Modells unterstützen und keine unnötige Komplexität
    verursachen.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-01
  - MA-02
  - MA-03
  - MA-06
  - MA-12
  - MA-14
  - MA-17
  - MA-23
  - MA-24
  - MA-27
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: QB-12
    title_original_de: QB-12 Merkmalsentwicklung
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-12_FeatureEngineering.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: AC-AI-DATA-QB-13-datenvorbereitung
  canonical_name: Datenvorbereitung
  description: Vor der Initialisierung des Trainingsprozesses sind alle Rohdaten durch
    definierte Transformationen in eine qualitätsgeprüfte und für das Modell verarbeitbare
    Struktur zu überführen. Es ist sicherzustellen, dass jede angewandte Datenaufbereitung
    die Integrität der Trainingsmenge gewährleistet und keine nicht validierten Artefakte
    in das Lernsystem einfließen. Die Durchführbarkeit dieser Schritte ist vor dem
    Start der Modellkonvergenz durch systematische Prüfverfahren nachzuweisen.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-02
  - MA-03
  - MA-04
  - MA-13
  - MA-14
  - MA-16
  - MA-17
  - MA-23
  - MA-24
  - MA-25
  - MA-27
  - MA-29
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: QB-13
    title_original_de: QB-13 Datenvorbereitung
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-13_DataPreparation.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: AC-AI-DATA-QB-14-expertanalysis
  canonical_name: _Expertanalysis
  description: Die Qualität der KI-Trainingsdaten ist durch eine unabhängige, manuelle
    Begutachtung durch qualifiziertes Fachpersonal zu validieren. Dabei sind mehrere
    Prüfer eigenständig einzusetzen, um subjektive Verzerrungen und Gruppenkonformitätseffekte
    bei der Bewertung auszuschließen. Die Ergebnisse dieser fachlichen Analyse müssen
    anonymisiert zusammengeführt werden, um eine objektive Beurteilung der Datensatzqualität
    zu gewährleisten.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-06
  - MA-10
  - MA-14
  - MA-15
  - MA-21
  - MA-22
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: QB-14
    title_original_de: QB-14_Expertanalysis
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-14_Expertanalysis.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0
- id: AC-AI-DATA-QB-15-bias-mitigation
  canonical_name: Bias-Mitigation
  description: Das System muss technische Mechanismen implementieren, um systematische
    Verzerrungen in den Trainingsdaten oder während des Lernprozesses zu identifizieren
    und zu kompensieren. Diese Maßnahmen sind unabhängig vom Entwicklungsstadium anzuwenden,
    wobei Datenanpassungen vor dem Training, Regularisierungsverfahren während des
    Lernens oder Korrekturen der Ausgabeergebnisse nach dem Training möglich sind.
    Eine Prüfung der Fairness-Kriterien ist vor der Freigabe des Modells durchzuführen,
    um sicherzustellen, dass keine diskriminierenden Muster in den Ergebnissen verbleiben.
  kind: building_block
  regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)
  related_quaidal_ids:
  - MA-30
  - QM-57
  external_refs: []
  source:
    framework: BSI QUAIDAL
    section: QB-15
    title_original_de: QB-15 Bias-Mitigation
    url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-15_Bias-Mitigation.md
    commit_sha: c39b75369841b359c6bf56d6588e3768c722842f
    license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.
  plagiarism_score_at_generation: 0.0