source: Derived from BSI QUAIDAL (Clean-Room) source_url: https://github.com/BSI-Bund/QUAIDAL commit_sha: c39b75369841b359c6bf56d6588e3768c722842f plagiarism_limit_4gram: 0.2 generated_by_model: qwen3.5:35b-a3b controls: - id: AC-AI-DATA-QB-01-syntaktische-genauigkeit canonical_name: Syntaktische Genauigkeit description: Das KI-Trainingsset muss syntaktisch konsistent sein, wobei alle definierten Grammatik- und Strukturregeln strikt einzuhalten sind. Eine fehlerfreie Datenstruktur ist zwingend erforderlich, um eine korrekte Verarbeitung durch Parser oder Sprachmodelle zu gewährleisten. Die Validierung der formalen Korrektheit ist vor jedem Training durchzuführen, um Verarbeitungsfehler auszuschließen. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-01 - MA-02 - MA-03 - MA-04 - MA-05 - MA-27 external_refs: - framework: BSI AIC4 citation: null - framework: ISO/IEC 25012 citation: null source: framework: BSI QUAIDAL section: QB-01 title_original_de: QB-01 Syntaktische Genauigkeit url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-01_Syntactic%20Accuracy.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: AC-AI-DATA-QB-02-semantische-genauigkeit canonical_name: Semantische Genauigkeit description: Die KI-Trainingsdaten müssen inhaltlich korrekt sein, sodass die zugewiesenen Werte dem tatsächlichen Sachverhalt entsprechen und nicht nur formal valide sind. Es ist sicherzustellen, dass semantische Zuordnungen keine logischen Fehler aufweisen, wie beispielsweise die Klassifizierung von Tieren als technische Geräte. Eine Prüfung muss verifizieren, dass die Bedeutung der Datenpunkte im Kontext der Anwendung eindeutig und fehlerfrei interpretiert werden kann. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-05 - MA-06 - MA-07 - MA-27 external_refs: - framework: BSI AIC4 citation: null source: framework: BSI QUAIDAL section: QB-02 title_original_de: QB-02 Semantische Genauigkeit url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-02_Semantic%20Accuracy.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: AC-AI-DATA-QB-03-vielfalt canonical_name: Vielfalt description: Das KI-Trainingsdatenset muss eine maximale Varianz in den relevanten Merkmalen aufweisen, um die Heterogenität der Eingabewerte zu gewährleisten. Es ist sicherzustellen, dass das Spektrum der enthaltenen Werte breit genug ist, um das Variationspotential der Zielgruppe vollständig abzudecken. Eine Prüfung der Datenverteilung ist vor dem Training durchzuführen, um eine unzureichende Diversität auszuschließen. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-08 - MA-09 - MA-10 - MA-12 - MA-27 - MA-28 external_refs: [] source: framework: BSI QUAIDAL section: QB-03 title_original_de: QB-03 Vielfalt url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-03_Diversity.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0204 - id: AC-AI-DATA-QB-04-ausgewogenheit canonical_name: Ausgewogenheit description: Der Trainingsdatensatz ist so zu konzipieren, dass die Verteilung aller relevanten Klassen proportional zur Zielrealität erfolgt, um eine einseitige Dominanz einzelner Kategorien zu vermeiden. Es ist sicherzustellen, dass keine Gruppe systematisch unter- oder überrepräsentiert wird, um Verzerrungen im Modellverhalten auszuschließen. Die Datenqualität muss durch eine ausgewogene Varianz aller Merkmale gewährleistet werden, um Overfitting und Bias wirksam zu verhindern. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-08 - MA-09 - MA-10 - MA-12 - MA-14 - MA-27 external_refs: [] source: framework: BSI QUAIDAL section: QB-04 title_original_de: QB-04 Ausgewogenheit url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-04_Balance.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0182 - id: AC-AI-DATA-QB-05-umfang canonical_name: Umfang description: Der Trainingsdatensatz muss eine quantitativ ausreichende Anzahl an Datenpunkten aufweisen, um statistisch signifikante Muster zu erfassen und das Risiko von Overfitting zu minimieren. Die Größe der Datenbasis ist so zu dimensionieren, dass sie eine belastbare Analyse der zugrundeliegenden Verteilungen ermöglicht und die Generalisierungsfähigkeit des Modells stabilisiert. Eine Prüfung ist durchzuführen, um sicherzustellen, dass der reine quantitative Umfang die notwendige Basis für eine robuste Modellbildung bildet. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-11 - MA-12 - MA-15 - MA-27 external_refs: - framework: BSI AIC4 citation: null source: framework: BSI QUAIDAL section: QB-05 title_original_de: QB-05 Umfang url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-05_Size.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0161 - id: AC-AI-DATA-QB-06-verzerrung canonical_name: Verzerrung description: Das KI-System muss vor dem produktiven Einsatz auf systematische Verzerrungen in den Trainingsdaten und den daraus resultierenden Vorhersagen untersucht werden. Es ist sicherzustellen, dass latente Ungleichbehandlungen quantitativ erfasst und dokumentiert werden, um eine transparente Bewertung der Fairness zu ermöglichen. Die Prüfung umfasst die Identifikation von Abweichungen, die auf unausgewogene Datenverteilungen zurückzuführen sind, bevor das Modell für reale Anwendungen freigegeben wird. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-01 - MA-02 - MA-03 - MA-04 - MA-06 - MA-07 - MA-08 - MA-09 - MA-10 - MA-11 - MA-12 - MA-13 - MA-14 - MA-15 - MA-16 - MA-17 - MA-18 - MA-20 - MA-23 - MA-24 - MA-27 - MA-28 - QB-15 - QM-11 external_refs: [] source: framework: BSI QUAIDAL section: QB-06 title_original_de: QB-06 Verzerrung url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-06_Bias-Detektion.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: AC-AI-DATA-QB-07-gesamtheit canonical_name: Gesamtheit description: Das Trainingsdatenset muss sämtliche für das spezifische Anwendungsszenario definierten Attribute und Entitätsinstanzen vollständig enthalten, um die Anforderung der Gesamtheit zu erfüllen. Diese Vollständigkeit ist auf der Ebene des gesamten Datensatzes, einzelner Spalten oder einzelner Datenpunkte nachweisbar zu prüfen. Die Bewertung der Datenqualität erfolgt stets kontextbezogen unter Berücksichtigung der jeweiligen Nutzungszwecke. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-12 - MA-13 - MA-27 external_refs: [] source: framework: BSI QUAIDAL section: QB-07 title_original_de: QB-07 Gesamtheit url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-07_Totality.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: AC-AI-DATA-QB-08-konsistenzsicherung canonical_name: Konsistenzsicherung description: Die Konsistenz der KI-Trainingsdaten ist durch standardisierte Datentypen und formatierte Attribute über den gesamten Lebenszyklus sicherzustellen. Automatisierte Prüfmechanismen müssen Abweichungen in den Datenwerten sowie zeitlichen Verläufen frühzeitig identifizieren, um nachvollziehbare Transformations- oder Imputationsmaßnahmen einzuleiten. Eine einheitliche Datenstruktur ist zwingend erforderlich, um die Integrität der Trainingsbasis für valide Modellentscheidungen zu gewährleisten. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-01 - MA-02 - MA-03 external_refs: - framework: ISO/IEC 25012 citation: null - framework: BSI AIC4 citation: null source: framework: BSI QUAIDAL section: QB-08 title_original_de: QB-08 Konsistenzsicherung url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-08_ConsistencyAssurance.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: AC-AI-DATA-QB-09-quellenmanagement canonical_name: Quellenmanagement description: Die Organisation muss einen durchgängigen Mechanismus implementieren, der die Herkunft und den Verarbeitungsweg jeder Trainingsdaten-Einheit lückenlos dokumentiert. Es ist sicherzustellen, dass jeder Datenpunkt mit seinem Ursprung sowie allen nachfolgenden Transformationsschritten verknüpft bleibt, um die Integrität der KI-Datenbasis zu gewährleisten. Zusätzlich sind alle Zugriffe und Modifikationen in einem unveränderlichen Protokoll chronologisch festzuhalten, um einen vollständigen Audit-Trail für Compliance-Prüfungen zu schaffen. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-18 - MA-19 - MA-20 - MA-22 external_refs: - framework: BSI AIC4 citation: null - framework: AI Act citation: null source: framework: BSI QUAIDAL section: QB-09 title_original_de: QB-09 Quellenmanagement url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-09_Sourcemanagement.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0167 - id: AC-AI-DATA-QB-10-datenpruefung canonical_name: _Datenprüfung description: Vor der Initialisierung des Trainingsprozesses ist eine systematische Validierung der Eingangsdaten auf Vollständigkeit, Konsistenz und Integrität durchzuführen. Dabei sind Unregelmäßigkeiten wie fehlende Werte, formatinkonsistenzen oder statistische Ausreißer zu identifizieren und zu bereinigen. Das System muss sicherstellen, dass keine verzerrten oder fehlerhaften Datensätze das Modelltraining beeinträchtigen und die Datenqualität den definierten Qualitätsstandards entspricht. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-05 - MA-20 - MA-26 external_refs: [] source: framework: BSI QUAIDAL section: QB-10 title_original_de: QB-10_Datenprüfung url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-10_DataChecks.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0204 - id: AC-AI-DATA-QB-11-prozesse canonical_name: Prozesse description: Es ist sicherzustellen, dass jeder Schritt der Datenvorbereitung und -verarbeitung für KI-Trainingszwecke lückenlos protokolliert wird, um die vollständige Nachvollziehbarkeit der Datenherkunft und aller Transformationen zu gewährleisten. Diese Dokumentation muss so strukturiert sein, dass sie eine valide Reproduzierbarkeit der Modelle sowie eine fundierte Qualitätssicherung der zugrundeliegenden Datensätze ermöglicht. Durch die Erfassung aller Änderungsereignisse wird die Integrität der Trainingsdaten über den gesamten Lebenszyklus hinweg verifiziert. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-18 - MA-21 external_refs: - framework: BSI Grundschutz citation: null - framework: ISO/IEC 23894 citation: null - framework: ISO/IEC 42001 citation: null - framework: AI Act citation: null source: framework: BSI QUAIDAL section: QB-11 title_original_de: QB-11 Prozesse url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-11_Processes.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: AC-AI-DATA-QB-12-merkmalsentwicklung canonical_name: Merkmalsentwicklung description: Die Erstellung und Auswahl von Eingangsmerkmalen für KI-Modelle ist so zu gestalten, dass sie signifikante Korrelationen zur Zielgröße aufweisen und redundante Informationen eliminieren. Es ist sicherzustellen, dass die transformierten Daten generalisierbar sind und eine hohe Informationsdichte für neue, unbekannte Datensätze bieten. Eine Validierung muss nachweisen, dass die abgeleiteten Merkmale die Interpretierbarkeit des Modells unterstützen und keine unnötige Komplexität verursachen. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-01 - MA-02 - MA-03 - MA-06 - MA-12 - MA-14 - MA-17 - MA-23 - MA-24 - MA-27 external_refs: [] source: framework: BSI QUAIDAL section: QB-12 title_original_de: QB-12 Merkmalsentwicklung url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-12_FeatureEngineering.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: AC-AI-DATA-QB-13-datenvorbereitung canonical_name: Datenvorbereitung description: Vor der Initialisierung des Trainingsprozesses sind alle Rohdaten durch definierte Transformationen in eine qualitätsgeprüfte und für das Modell verarbeitbare Struktur zu überführen. Es ist sicherzustellen, dass jede angewandte Datenaufbereitung die Integrität der Trainingsmenge gewährleistet und keine nicht validierten Artefakte in das Lernsystem einfließen. Die Durchführbarkeit dieser Schritte ist vor dem Start der Modellkonvergenz durch systematische Prüfverfahren nachzuweisen. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-02 - MA-03 - MA-04 - MA-13 - MA-14 - MA-16 - MA-17 - MA-23 - MA-24 - MA-25 - MA-27 - MA-29 external_refs: [] source: framework: BSI QUAIDAL section: QB-13 title_original_de: QB-13 Datenvorbereitung url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-13_DataPreparation.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: AC-AI-DATA-QB-14-expertanalysis canonical_name: _Expertanalysis description: Die Qualität der KI-Trainingsdaten ist durch eine unabhängige, manuelle Begutachtung durch qualifiziertes Fachpersonal zu validieren. Dabei sind mehrere Prüfer eigenständig einzusetzen, um subjektive Verzerrungen und Gruppenkonformitätseffekte bei der Bewertung auszuschließen. Die Ergebnisse dieser fachlichen Analyse müssen anonymisiert zusammengeführt werden, um eine objektive Beurteilung der Datensatzqualität zu gewährleisten. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-06 - MA-10 - MA-14 - MA-15 - MA-21 - MA-22 external_refs: [] source: framework: BSI QUAIDAL section: QB-14 title_original_de: QB-14_Expertanalysis url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-14_Expertanalysis.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0 - id: AC-AI-DATA-QB-15-bias-mitigation canonical_name: Bias-Mitigation description: Das System muss technische Mechanismen implementieren, um systematische Verzerrungen in den Trainingsdaten oder während des Lernprozesses zu identifizieren und zu kompensieren. Diese Maßnahmen sind unabhängig vom Entwicklungsstadium anzuwenden, wobei Datenanpassungen vor dem Training, Regularisierungsverfahren während des Lernens oder Korrekturen der Ausgabeergebnisse nach dem Training möglich sind. Eine Prüfung der Fairness-Kriterien ist vor der Freigabe des Modells durchzuführen, um sicherzustellen, dass keine diskriminierenden Muster in den Ergebnissen verbleiben. kind: building_block regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) related_quaidal_ids: - MA-30 - QM-57 external_refs: [] source: framework: BSI QUAIDAL section: QB-15 title_original_de: QB-15 Bias-Mitigation url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-15_Bias-Mitigation.md commit_sha: c39b75369841b359c6bf56d6588e3768c722842f license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. plagiarism_score_at_generation: 0.0