From 7d721a67878458052402a264070ab3b635004280 Mon Sep 17 00:00:00 2001 From: Benjamin Admin Date: Tue, 19 May 2026 13:02:49 +0200 Subject: [PATCH] feat(control-pipeline): BSI QUAIDAL Clean-Room ingestion (AI Act Art. 10) MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Clean-Room derivation of 195 controls from BSI QUAIDAL (10 criteria + 15 building blocks + 30 measures + 140 metrics) for EU AI Act Art. 10 training-data quality compliance. - ingest_bsi_quaidal.py parses YAML frontmatter into a structural index (no protected prose stored on disk). - derive_quaidal_mcs.py rewrites each entry via local LLM (qwen3.5:35b-a3b) with a hard 4-gram plagiarism gate < 20%; achieved mean overlap 0.5%. - Migration 011 adds compliance.derived_controls table with full source provenance (framework, section, url, commit SHA, license note). - apply_quaidal_to_db.py UPSERTs YAML into DB. - Source repo (legal-sources/bsi-quaidal/) gitignored. Same pattern as IACE module DIN-reference handling: name the norm and section, never quote. Backed by BSI license clarification 2026-05: § 5 UrhG anwendbar, share:true im Frontmatter; Clean-Room derivation is the safe path. Co-Authored-By: Claude Opus 4.7 (1M context) --- .gitignore | 5 + .../data/quaidal/atomic_controls.yaml | 430 +++ .../data/quaidal/master_controls.yaml | 280 ++ control-pipeline/data/quaidal/metrics.yaml | 2881 +++++++++++++++ .../data/quaidal/mitigations.yaml | 753 ++++ .../data/quaidal/quaidal_index.json | 3157 +++++++++++++++++ .../migrations/011_derived_controls.sql | 58 + .../scripts/apply_quaidal_to_db.py | 170 + .../scripts/derive_quaidal_mcs.py | 400 +++ .../scripts/ingest_bsi_quaidal.py | 242 ++ 10 files changed, 8376 insertions(+) create mode 100644 control-pipeline/data/quaidal/atomic_controls.yaml create mode 100644 control-pipeline/data/quaidal/master_controls.yaml create mode 100644 control-pipeline/data/quaidal/metrics.yaml create mode 100644 control-pipeline/data/quaidal/mitigations.yaml create mode 100644 control-pipeline/data/quaidal/quaidal_index.json create mode 100644 control-pipeline/migrations/011_derived_controls.sql create mode 100644 control-pipeline/scripts/apply_quaidal_to_db.py create mode 100644 control-pipeline/scripts/derive_quaidal_mcs.py create mode 100644 control-pipeline/scripts/ingest_bsi_quaidal.py diff --git a/.gitignore b/.gitignore index c90f2b8..eab86ad 100644 --- a/.gitignore +++ b/.gitignore @@ -41,6 +41,11 @@ backups/*.backup *.mp3 *.wav +# Cloned external legal-source repos (gitignored; pulled fresh at ingest time) +legal-sources/bsi-quaidal/ +legal-sources/bsi-quaidal-src/ +legal-sources/bsi-grundschutz-plus/ + # Compiled binaries billing-service/billing-service consent-service/server diff --git a/control-pipeline/data/quaidal/atomic_controls.yaml b/control-pipeline/data/quaidal/atomic_controls.yaml new file mode 100644 index 0000000..07383b5 --- /dev/null +++ b/control-pipeline/data/quaidal/atomic_controls.yaml @@ -0,0 +1,430 @@ +source: Derived from BSI QUAIDAL (Clean-Room) +source_url: https://github.com/BSI-Bund/QUAIDAL +commit_sha: c39b75369841b359c6bf56d6588e3768c722842f +plagiarism_limit_4gram: 0.2 +generated_by_model: qwen3.5:35b-a3b +controls: +- id: AC-AI-DATA-QB-01-syntaktische-genauigkeit + canonical_name: Syntaktische Genauigkeit + description: Das KI-Trainingsset muss syntaktisch konsistent sein, wobei alle definierten + Grammatik- und Strukturregeln strikt einzuhalten sind. Eine fehlerfreie Datenstruktur + ist zwingend erforderlich, um eine korrekte Verarbeitung durch Parser oder Sprachmodelle + zu gewährleisten. Die Validierung der formalen Korrektheit ist vor jedem Training + durchzuführen, um Verarbeitungsfehler auszuschließen. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-01 + - MA-02 + - MA-03 + - MA-04 + - MA-05 + - MA-27 + external_refs: + - framework: BSI AIC4 + citation: null + - framework: ISO/IEC 25012 + citation: null + source: + framework: BSI QUAIDAL + section: QB-01 + title_original_de: QB-01 Syntaktische Genauigkeit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-01_Syntactic%20Accuracy.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: AC-AI-DATA-QB-02-semantische-genauigkeit + canonical_name: Semantische Genauigkeit + description: Die KI-Trainingsdaten müssen inhaltlich korrekt sein, sodass die zugewiesenen + Werte dem tatsächlichen Sachverhalt entsprechen und nicht nur formal valide sind. + Es ist sicherzustellen, dass semantische Zuordnungen keine logischen Fehler aufweisen, + wie beispielsweise die Klassifizierung von Tieren als technische Geräte. Eine + Prüfung muss verifizieren, dass die Bedeutung der Datenpunkte im Kontext der Anwendung + eindeutig und fehlerfrei interpretiert werden kann. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-05 + - MA-06 + - MA-07 + - MA-27 + external_refs: + - framework: BSI AIC4 + citation: null + source: + framework: BSI QUAIDAL + section: QB-02 + title_original_de: QB-02 Semantische Genauigkeit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-02_Semantic%20Accuracy.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: AC-AI-DATA-QB-03-vielfalt + canonical_name: Vielfalt + description: Das KI-Trainingsdatenset muss eine maximale Varianz in den relevanten + Merkmalen aufweisen, um die Heterogenität der Eingabewerte zu gewährleisten. Es + ist sicherzustellen, dass das Spektrum der enthaltenen Werte breit genug ist, + um das Variationspotential der Zielgruppe vollständig abzudecken. Eine Prüfung + der Datenverteilung ist vor dem Training durchzuführen, um eine unzureichende + Diversität auszuschließen. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-08 + - MA-09 + - MA-10 + - MA-12 + - MA-27 + - MA-28 + external_refs: [] + source: + framework: BSI QUAIDAL + section: QB-03 + title_original_de: QB-03 Vielfalt + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-03_Diversity.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0204 +- id: AC-AI-DATA-QB-04-ausgewogenheit + canonical_name: Ausgewogenheit + description: Der Trainingsdatensatz ist so zu konzipieren, dass die Verteilung aller + relevanten Klassen proportional zur Zielrealität erfolgt, um eine einseitige Dominanz + einzelner Kategorien zu vermeiden. Es ist sicherzustellen, dass keine Gruppe systematisch + unter- oder überrepräsentiert wird, um Verzerrungen im Modellverhalten auszuschließen. + Die Datenqualität muss durch eine ausgewogene Varianz aller Merkmale gewährleistet + werden, um Overfitting und Bias wirksam zu verhindern. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-08 + - MA-09 + - MA-10 + - MA-12 + - MA-14 + - MA-27 + external_refs: [] + source: + framework: BSI QUAIDAL + section: QB-04 + title_original_de: QB-04 Ausgewogenheit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-04_Balance.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0182 +- id: AC-AI-DATA-QB-05-umfang + canonical_name: Umfang + description: Der Trainingsdatensatz muss eine quantitativ ausreichende Anzahl an + Datenpunkten aufweisen, um statistisch signifikante Muster zu erfassen und das + Risiko von Overfitting zu minimieren. Die Größe der Datenbasis ist so zu dimensionieren, + dass sie eine belastbare Analyse der zugrundeliegenden Verteilungen ermöglicht + und die Generalisierungsfähigkeit des Modells stabilisiert. Eine Prüfung ist durchzuführen, + um sicherzustellen, dass der reine quantitative Umfang die notwendige Basis für + eine robuste Modellbildung bildet. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-11 + - MA-12 + - MA-15 + - MA-27 + external_refs: + - framework: BSI AIC4 + citation: null + source: + framework: BSI QUAIDAL + section: QB-05 + title_original_de: QB-05 Umfang + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-05_Size.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0161 +- id: AC-AI-DATA-QB-06-verzerrung + canonical_name: Verzerrung + description: Das KI-System muss vor dem produktiven Einsatz auf systematische Verzerrungen + in den Trainingsdaten und den daraus resultierenden Vorhersagen untersucht werden. + Es ist sicherzustellen, dass latente Ungleichbehandlungen quantitativ erfasst + und dokumentiert werden, um eine transparente Bewertung der Fairness zu ermöglichen. + Die Prüfung umfasst die Identifikation von Abweichungen, die auf unausgewogene + Datenverteilungen zurückzuführen sind, bevor das Modell für reale Anwendungen + freigegeben wird. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-01 + - MA-02 + - MA-03 + - MA-04 + - MA-06 + - MA-07 + - MA-08 + - MA-09 + - MA-10 + - MA-11 + - MA-12 + - MA-13 + - MA-14 + - MA-15 + - MA-16 + - MA-17 + - MA-18 + - MA-20 + - MA-23 + - MA-24 + - MA-27 + - MA-28 + - QB-15 + - QM-11 + external_refs: [] + source: + framework: BSI QUAIDAL + section: QB-06 + title_original_de: QB-06 Verzerrung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-06_Bias-Detektion.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: AC-AI-DATA-QB-07-gesamtheit + canonical_name: Gesamtheit + description: Das Trainingsdatenset muss sämtliche für das spezifische Anwendungsszenario + definierten Attribute und Entitätsinstanzen vollständig enthalten, um die Anforderung + der Gesamtheit zu erfüllen. Diese Vollständigkeit ist auf der Ebene des gesamten + Datensatzes, einzelner Spalten oder einzelner Datenpunkte nachweisbar zu prüfen. + Die Bewertung der Datenqualität erfolgt stets kontextbezogen unter Berücksichtigung + der jeweiligen Nutzungszwecke. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-12 + - MA-13 + - MA-27 + external_refs: [] + source: + framework: BSI QUAIDAL + section: QB-07 + title_original_de: QB-07 Gesamtheit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-07_Totality.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: AC-AI-DATA-QB-08-konsistenzsicherung + canonical_name: Konsistenzsicherung + description: Die Konsistenz der KI-Trainingsdaten ist durch standardisierte Datentypen + und formatierte Attribute über den gesamten Lebenszyklus sicherzustellen. Automatisierte + Prüfmechanismen müssen Abweichungen in den Datenwerten sowie zeitlichen Verläufen + frühzeitig identifizieren, um nachvollziehbare Transformations- oder Imputationsmaßnahmen + einzuleiten. Eine einheitliche Datenstruktur ist zwingend erforderlich, um die + Integrität der Trainingsbasis für valide Modellentscheidungen zu gewährleisten. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-01 + - MA-02 + - MA-03 + external_refs: + - framework: ISO/IEC 25012 + citation: null + - framework: BSI AIC4 + citation: null + source: + framework: BSI QUAIDAL + section: QB-08 + title_original_de: QB-08 Konsistenzsicherung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-08_ConsistencyAssurance.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: AC-AI-DATA-QB-09-quellenmanagement + canonical_name: Quellenmanagement + description: Die Organisation muss einen durchgängigen Mechanismus implementieren, + der die Herkunft und den Verarbeitungsweg jeder Trainingsdaten-Einheit lückenlos + dokumentiert. Es ist sicherzustellen, dass jeder Datenpunkt mit seinem Ursprung + sowie allen nachfolgenden Transformationsschritten verknüpft bleibt, um die Integrität + der KI-Datenbasis zu gewährleisten. Zusätzlich sind alle Zugriffe und Modifikationen + in einem unveränderlichen Protokoll chronologisch festzuhalten, um einen vollständigen + Audit-Trail für Compliance-Prüfungen zu schaffen. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-18 + - MA-19 + - MA-20 + - MA-22 + external_refs: + - framework: BSI AIC4 + citation: null + - framework: AI Act + citation: null + source: + framework: BSI QUAIDAL + section: QB-09 + title_original_de: QB-09 Quellenmanagement + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-09_Sourcemanagement.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0167 +- id: AC-AI-DATA-QB-10-datenpruefung + canonical_name: _Datenprüfung + description: Vor der Initialisierung des Trainingsprozesses ist eine systematische + Validierung der Eingangsdaten auf Vollständigkeit, Konsistenz und Integrität durchzuführen. + Dabei sind Unregelmäßigkeiten wie fehlende Werte, formatinkonsistenzen oder statistische + Ausreißer zu identifizieren und zu bereinigen. Das System muss sicherstellen, + dass keine verzerrten oder fehlerhaften Datensätze das Modelltraining beeinträchtigen + und die Datenqualität den definierten Qualitätsstandards entspricht. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-05 + - MA-20 + - MA-26 + external_refs: [] + source: + framework: BSI QUAIDAL + section: QB-10 + title_original_de: QB-10_Datenprüfung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-10_DataChecks.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0204 +- id: AC-AI-DATA-QB-11-prozesse + canonical_name: Prozesse + description: Es ist sicherzustellen, dass jeder Schritt der Datenvorbereitung und + -verarbeitung für KI-Trainingszwecke lückenlos protokolliert wird, um die vollständige + Nachvollziehbarkeit der Datenherkunft und aller Transformationen zu gewährleisten. + Diese Dokumentation muss so strukturiert sein, dass sie eine valide Reproduzierbarkeit + der Modelle sowie eine fundierte Qualitätssicherung der zugrundeliegenden Datensätze + ermöglicht. Durch die Erfassung aller Änderungsereignisse wird die Integrität + der Trainingsdaten über den gesamten Lebenszyklus hinweg verifiziert. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-18 + - MA-21 + external_refs: + - framework: BSI Grundschutz + citation: null + - framework: ISO/IEC 23894 + citation: null + - framework: ISO/IEC 42001 + citation: null + - framework: AI Act + citation: null + source: + framework: BSI QUAIDAL + section: QB-11 + title_original_de: QB-11 Prozesse + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-11_Processes.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: AC-AI-DATA-QB-12-merkmalsentwicklung + canonical_name: Merkmalsentwicklung + description: Die Erstellung und Auswahl von Eingangsmerkmalen für KI-Modelle ist + so zu gestalten, dass sie signifikante Korrelationen zur Zielgröße aufweisen und + redundante Informationen eliminieren. Es ist sicherzustellen, dass die transformierten + Daten generalisierbar sind und eine hohe Informationsdichte für neue, unbekannte + Datensätze bieten. Eine Validierung muss nachweisen, dass die abgeleiteten Merkmale + die Interpretierbarkeit des Modells unterstützen und keine unnötige Komplexität + verursachen. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-01 + - MA-02 + - MA-03 + - MA-06 + - MA-12 + - MA-14 + - MA-17 + - MA-23 + - MA-24 + - MA-27 + external_refs: [] + source: + framework: BSI QUAIDAL + section: QB-12 + title_original_de: QB-12 Merkmalsentwicklung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-12_FeatureEngineering.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: AC-AI-DATA-QB-13-datenvorbereitung + canonical_name: Datenvorbereitung + description: Vor der Initialisierung des Trainingsprozesses sind alle Rohdaten durch + definierte Transformationen in eine qualitätsgeprüfte und für das Modell verarbeitbare + Struktur zu überführen. Es ist sicherzustellen, dass jede angewandte Datenaufbereitung + die Integrität der Trainingsmenge gewährleistet und keine nicht validierten Artefakte + in das Lernsystem einfließen. Die Durchführbarkeit dieser Schritte ist vor dem + Start der Modellkonvergenz durch systematische Prüfverfahren nachzuweisen. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-02 + - MA-03 + - MA-04 + - MA-13 + - MA-14 + - MA-16 + - MA-17 + - MA-23 + - MA-24 + - MA-25 + - MA-27 + - MA-29 + external_refs: [] + source: + framework: BSI QUAIDAL + section: QB-13 + title_original_de: QB-13 Datenvorbereitung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-13_DataPreparation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: AC-AI-DATA-QB-14-expertanalysis + canonical_name: _Expertanalysis + description: Die Qualität der KI-Trainingsdaten ist durch eine unabhängige, manuelle + Begutachtung durch qualifiziertes Fachpersonal zu validieren. Dabei sind mehrere + Prüfer eigenständig einzusetzen, um subjektive Verzerrungen und Gruppenkonformitätseffekte + bei der Bewertung auszuschließen. Die Ergebnisse dieser fachlichen Analyse müssen + anonymisiert zusammengeführt werden, um eine objektive Beurteilung der Datensatzqualität + zu gewährleisten. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-06 + - MA-10 + - MA-14 + - MA-15 + - MA-21 + - MA-22 + external_refs: [] + source: + framework: BSI QUAIDAL + section: QB-14 + title_original_de: QB-14_Expertanalysis + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-14_Expertanalysis.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: AC-AI-DATA-QB-15-bias-mitigation + canonical_name: Bias-Mitigation + description: Das System muss technische Mechanismen implementieren, um systematische + Verzerrungen in den Trainingsdaten oder während des Lernprozesses zu identifizieren + und zu kompensieren. Diese Maßnahmen sind unabhängig vom Entwicklungsstadium anzuwenden, + wobei Datenanpassungen vor dem Training, Regularisierungsverfahren während des + Lernens oder Korrekturen der Ausgabeergebnisse nach dem Training möglich sind. + Eine Prüfung der Fairness-Kriterien ist vor der Freigabe des Modells durchzuführen, + um sicherzustellen, dass keine diskriminierenden Muster in den Ergebnissen verbleiben. + kind: building_block + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-30 + - QM-57 + external_refs: [] + source: + framework: BSI QUAIDAL + section: QB-15 + title_original_de: QB-15 Bias-Mitigation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-15_Bias-Mitigation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 diff --git a/control-pipeline/data/quaidal/master_controls.yaml b/control-pipeline/data/quaidal/master_controls.yaml new file mode 100644 index 0000000..eb1c2a2 --- /dev/null +++ b/control-pipeline/data/quaidal/master_controls.yaml @@ -0,0 +1,280 @@ +source: Derived from BSI QUAIDAL (Clean-Room) +source_url: https://github.com/BSI-Bund/QUAIDAL +commit_sha: c39b75369841b359c6bf56d6588e3768c722842f +plagiarism_limit_4gram: 0.2 +generated_by_model: qwen3.5:35b-a3b +controls: +- id: MC-AI-DATA-QKB-01-repraesentativitaet + canonical_name: Repräsentativität + description: Der Trainingsdatensatz muss die statistische Verteilung der Zielpopulation + exakt abbilden, um systematische Verzerrungen im Modell zu vermeiden. Es ist sicherzustellen, + dass alle relevanten Merkmalsausprägungen in ausreichender Häufigkeit und ohne + Über- oder Unterrepräsentation vorliegen. Die Datenmenge ist so zu dimensionieren, + dass eine robuste Generalisierungsfähigkeit für alle Subgruppen der Gesamtpopulation + gewährleistet wird. Eine Prüfung auf Stichprobenqualität ist vor dem Training + durchzuführen. + kind: criterion + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QB-03 + - QB-04 + - QB-05 + - QB-06 + - QB-15 + external_refs: + - framework: AI Act + citation: Artikel 10 + - framework: ISO/IEC 25012 + citation: null + source: + framework: BSI QUAIDAL + section: QKB-01 + title_original_de: QKB-01 Repräsentativität + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-01_Representativity.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MC-AI-DATA-QKB-02-vollstaendigkeit + canonical_name: Vollständigkeit + description: Der Datensatz muss sämtliche für das spezifische KI-Modell erwarteten + Attribute und Merkmalsausprägungen lückenlos beinhalten. Es ist sicherzustellen, + dass keine Entitätsinstanzen fehlen und alle definierten Merkmale mit Werten belegt + sind. Eine Prüfung auf fehlende Werte oder unvollständige Attributmengen ist vor + dem Training zwingend durchzuführen, um Verzerrungen zu vermeiden. + kind: criterion + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QB-07 + - QB-09 + external_refs: + - framework: AI Act + citation: Artikel 10 + - framework: BSI AIC4 + citation: null + - framework: ISO/IEC 25012 + citation: null + - framework: ISO/IEC 25024 + citation: null + source: + framework: BSI QUAIDAL + section: QKB-02 + title_original_de: QKB-02 Vollständigkeit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-02_Completeness.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MC-AI-DATA-QKB-03-genauigkeit + canonical_name: Genauigkeit + description: Die Integrität der KI-Trainingsdaten erfordert, dass jeder einzelne + Datenelementwert eine definierte numerische oder symbolische Übereinstimmung mit + dem referenzierten Sollwert aufweist. Es ist sicherzustellen, dass Abweichungen + innerhalb festgelegter Toleranzgrenzen bezüglich Rundung, Formatierung und Messauflösung + bleiben. Die Einhaltung dieser Spezifikation ist durch automatisierte Prüfverfahren + vor jedem Trainingslauf zu verifizieren. + kind: criterion + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QB-01 + - QB-02 + external_refs: + - framework: ISO/IEC 25012 + citation: null + source: + framework: BSI QUAIDAL + section: QKB-03 + title_original_de: QKB-03 Genauigkeit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-03_Accuracy.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MC-AI-DATA-QKB-04-konsistenz + canonical_name: Konsistenz + description: Das System muss sicherstellen, dass alle Eingabedaten für das KI-Training + logisch kohärent und frei von internen Widersprüchen sind. Einheitliche Kodierungen + für Kategorien sowie konsistente Formatierungen sind zwingend erforderlich, um + eine fehlerfreie Generalisierung durch das Modell zu ermöglichen. Jede Abweichung + von den definierten Datenstandards ist durch automatische Prüfmechanismen zu identifizieren + und zu unterbinden. + kind: criterion + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QB-02 + - QB-07 + - QB-08 + - QB-10 + - QB-11 + - QB-12 + external_refs: + - framework: ISO/IEC 25012 + citation: null + source: + framework: BSI QUAIDAL + section: QKB-04 + title_original_de: QKB-04 Konsistenz + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-04_Consistency.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MC-AI-DATA-QKB-05-korrektheit + canonical_name: Korrektheit + description: Das KI-Modell muss ausschließlich auf Datensätzen trainiert werden, + die inhaltlich frei von Fehlern sind und den tatsächlichen Gegebenheiten oder + definierten Referenzstandards exakt entsprechen. Es ist sicherzustellen, dass + jede annotierte Information den als wahr geltenden Zustand im Anwendungskontext + fehlerfrei abbildet. Die Validierung der Trainingsdaten ist vor Beginn des Lernprozesses + durchzuführen, um sicherzustellen, dass keine inkorrekten Werte die Modellleistung + beeinträchtigen. + kind: criterion + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QB-09 + - QB-10 + - QB-12 + - QB-14 + external_refs: + - framework: ISO/IEC 25012 + citation: null + - framework: BSI AIC4 + citation: null + - framework: AI Act + citation: Artikel 10 + source: + framework: BSI QUAIDAL + section: QKB-05 + title_original_de: QKB-05 Korrektheit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-05_Correctness.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MC-AI-DATA-QKB-06-einheitlichkeit + canonical_name: Einheitlichkeit + description: Die Konsistenz der KI-Trainingsdaten ist durch die strikte Einhaltung + definierter Syntaxregeln und Datenstrukturen sicherzustellen. Jedes Datenelement + muss vor der Verarbeitung gemäß festgelegten Standards formatiert werden, um strukturelle + Abweichungen auszuschließen. Eine Prüfung der formalen Einheitlichkeit ist unabhängig + von der inhaltlichen Richtigkeit der Werte durchzuführen. + kind: criterion + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QB-02 + - QB-08 + - QB-10 + - QB-12 + - QB-14 + external_refs: + - framework: ISO/IEC 25012 + citation: null + source: + framework: BSI QUAIDAL + section: QKB-06 + title_original_de: QKB-06 Einheitlichkeit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-06_Uniformity.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MC-AI-DATA-QKB-07-gueltigkeit + canonical_name: Gültigkeit + description: Das System muss sicherstellen, dass die für das KI-Training verwendeten + Daten inhaltlich exakt das intendierte Zielkonstrukt abbilden und nicht nur oberflächliche + Korrelationen erfassen. Es ist zu prüfen, ob die erfassten Merkmale den theoretischen + Anforderungen an den Messgegenstand entsprechen, um eine valide Grundlage für + Ableitungen zu gewährleisten. Eine Abweichung zwischen dem gemessenen Inhalt und + dem definierten Zielkonzept ist als Fehlerzustand zu klassifizieren und muss ausgeschlossen + werden. + kind: criterion + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QB-02 + - QB-05 + - QB-09 + - QB-10 + - QB-14 + external_refs: + - framework: ISO/IEC 25012 + citation: null + source: + framework: BSI QUAIDAL + section: QKB-07 + title_original_de: QKB-07 Gültigkeit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-07_Validity.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MC-AI-DATA-QKB-08-eindeutigkeit + canonical_name: Eindeutigkeit + description: Jeder Datensatz im Trainingskorpus muss eine eindeutige Identität besitzen, + um die Entstehung redundanter Instanzen auszuschließen. Es ist sicherzustellen, + dass keine doppelten oder mehrdeutigen Einträge vorliegen, da diese die Modellgeneralisierung + beeinträchtigen und zu Overfitting führen können. Die Validierung muss nachweisen, + dass jede Dateneinheit eindeutig identifizierbar ist und logisch von anderen unterscheidbar + bleibt. + kind: criterion + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QB-05 + - QB-10 + - QB-13 + external_refs: + - framework: ISO/IEC 25012 + citation: null + source: + framework: BSI QUAIDAL + section: QKB-08 + title_original_de: QKB-08 Eindeutigkeit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-08_Uniqueness.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MC-AI-DATA-QKB-09-sichere-quellen + canonical_name: Sichere Quellen + description: Für KI-Trainingsdaten muss eine lückenlose Provenienz-Dokumentation + etabliert werden, die jeden Verarbeitungsschritt von der Erfassung bis zur finalen + Nutzung nachvollziehbar macht. Es ist sicherzustellen, dass alle Transformationen + und Herkunftsinformationen vollständig erfasst sind, um die Datenintegrität und + -qualität kontinuierlich verifizieren zu können. Die Nachprüfbarkeit dieser Metadaten + ist zwingend erforderlich, um potenzielle Qualitätsmängel oder Manipulationen + in den Trainingsbeständen frühzeitig zu identifizieren. + kind: criterion + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QB-09 + - QB-11 + external_refs: + - framework: ISO/IEC 25012 + citation: null + - framework: BSI AIC4 + citation: null + source: + framework: BSI QUAIDAL + section: QKB-09 + title_original_de: QKB-09 Sichere Quellen + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-09_SecureSource.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MC-AI-DATA-QKB-10-daten-mit-personenbezug + canonical_name: Daten mit Personenbezug + description: Das System muss vor der Nutzung von Trainingsdaten eine automatisierte + Prüfung durchführen, um personenbezogene Informationen zu identifizieren. Ist + derartige Datenbestandteil der Eingabedaten, ist deren vollständige und nachweisbare + Entfernung sicherzustellen, bevor ein Modelltraining initiiert wird. Die Integrität + der verbleibenden Datensätze ist durch technische Maßnahmen gegen unbeabsichtigte + Wiederverwendung zu gewährleisten. + kind: criterion + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QB-09 + - QB-10 + - QB-11 + - QB-14 + external_refs: + - framework: EU GDPR + citation: null + source: + framework: BSI QUAIDAL + section: QKB-10 + title_original_de: QKB-10 Daten mit Personenbezug + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-10_PersonalDataCheck.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 diff --git a/control-pipeline/data/quaidal/metrics.yaml b/control-pipeline/data/quaidal/metrics.yaml new file mode 100644 index 0000000..a92d381 --- /dev/null +++ b/control-pipeline/data/quaidal/metrics.yaml @@ -0,0 +1,2881 @@ +source: Derived from BSI QUAIDAL (Clean-Room) +source_url: https://github.com/BSI-Bund/QUAIDAL +commit_sha: c39b75369841b359c6bf56d6588e3768c722842f +plagiarism_limit_4gram: 0.2 +generated_by_model: qwen3.5:35b-a3b +controls: +- id: MET-AI-DATA-QM-01-meanabsoluteerror + canonical_name: MeanAbsoluteError + description: Das System muss die mittlere absolute Abweichung zwischen den tatsächlichen + und den imputierten Werten in den Trainingsdatensätzen berechnen. Diese Kennzahl + dient als objektiver Indikator zur Validierung der Plausibilität von Datenlückenfüllungen. + Die Einhaltung definierter Schwellenwerte ist zwingend erforderlich, um die Datenqualität + vor dem Modelltraining sicherzustellen. Eine Abweichung, die diesen Grenzwert + überschreitet, muss als kritischer Fehler protokolliert werden. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-01 + title_original_de: QM-01 MeanAbsoluteError + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-01_MeanAbsoluteError.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0377 +- id: MET-AI-DATA-QM-02-mittlerer-quadratischer-fehler + canonical_name: Mittlerer quadratischer Fehler + description: Das System muss den mittleren quadratischen Fehler berechnen, um die + Abweichung zwischen den generierten KI-Ausgaben und den Referenzdaten quantitativ + zu erfassen. Diese Metrik ist sicherzustellen, da sie größere Diskrepanzen im + Datensatz stärker gewichtet als lineare Fehlermaße. Die Prüfung erfolgt durch + den automatisierten Abgleich von Vorhersagewerten mit den tatsächlichen Zielgrößen + im Trainings- und Validierungsdatensatz. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-02 + title_original_de: QM-02 Mittlerer quadratischer Fehler + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-02_RootMeanSquareError.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-03-f-mass + canonical_name: F-Maß + description: Das System muss einen harmonischen Mittelwert aus der Trefferquote + und dem positiven Vorhersagewert für binäre Klassifizierungsaufgaben berechnen, + um die Vorhersagegüte zu quantifizieren. Dieser Qualitätsindikator ist als F-Maß + zu definieren und muss während des gesamten Trainingsprozesses kontinuierlich + überwacht werden. Die Einhaltung der definierten Schwellenwerte ist durch automatisierte + Prüfungen sicherzustellen, um die Zuverlässigkeit der KI-Modelle zu garantieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-03 + title_original_de: QM-03 F-Maß + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-03_F-Measure.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-04-genauigkeit + canonical_name: Genauigkeit + description: Das System muss sicherstellen, dass der Anteil der korrekt klassifizierten + Instanzen im Validierungsdatensatz einen definierten Schwellenwert überschreitet. + Diese Metrik ist als primäres Maß für die Vorhersagegenauigkeit bei ausgewogenen + Datensätzen zu prüfen. Abweichungen von der Soll-Genauigkeit sind durch eine Analyse + der Trainingsdatenqualität zu untersuchen. Die Einhaltung dieser Vorgabe ist vor + jedem Deployment nachzuweisen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-04 + title_original_de: QM-04 Genauigkeit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-04_Accuracy.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-05-praezision + canonical_name: Präzision + description: Die Genauigkeit positiver Klassifizierungen im KI-Modell ist als Verhältnis + der korrekt identifizierten positiven Instanzen zur Gesamtzahl aller als positiv + bewerteten Fälle zu quantifizieren. Dieser Qualitätsindikator muss insbesondere + dann überwacht werden, wenn die Konsequenzen von Fehlalarmen signifikant sind. + Eine Abweichung unter dem definierten Schwellenwert ist als Verstoß gegen die + Datenqualitätsanforderungen zu werten und erfordert eine sofortige Überprüfung + des Trainingsdatensatzes. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-05 + title_original_de: QM-05 Präzision + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-05_Precision.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0179 +- id: MET-AI-DATA-QM-06-recall + canonical_name: Recall + description: Das System muss die Fähigkeit nachweisen, alle tatsächlich vorhandenen + Defekte in den Trainingsdaten korrekt zu identifizieren, wobei der Anteil der + erkannten Fälle an der Gesamtzahl der Defekte einen definierten Mindestwert erreichen + muss. Diese Kennzahl ist als primärer Qualitätsindikator für die Vollständigkeit + der Erkennungsleistung zu etablieren und regelmäßig zu validieren. Eine unzureichende + Abdeckung positiver Fälle ist als kritischer Mangel an der Datenqualität zu bewerten, + der sofortige Korrekturmaßnahmen auslöst. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-06 + title_original_de: QM-06 Recall + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-06_Recall.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0156 +- id: MET-AI-DATA-QM-07-spezifizitaet + canonical_name: Spezifizität + description: Das KI-Modell muss in der Lage sein, nicht-zutreffende Eingaben mit + hoher Zuverlässigkeit als negativ zu klassifizieren, um Fehlalarme bei kritischen + Prozessen zu minimieren. Die Spezifität ist als quantitativer Indikator zu ermitteln + und muss einen definierten Schwellenwert überschreiten, um die Datenqualität des + Trainingssets zu validieren. Eine Prüfung ist durchzuführen, um sicherzustellen, + dass das System irrelevante Muster korrekt ausschließt und keine unnötigen Interventionen + auslöst. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-07 + title_original_de: QM-07 Spezifizität + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-07_Specificity.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0164 +- id: MET-AI-DATA-QM-08-lernkurven + canonical_name: Lernkurven + description: Es ist sicherzustellen, dass die Entwicklung des KI-Modells durch eine + Analyse der Modellgüte in Abhängigkeit von der Trainingsdatengröße begleitet wird. + Diese Untersuchung muss nachweisen, ob eine weitere Vergrößerung des Datensatzes + zu einer signifikanten Verbesserung der Validierungsleistung führt oder ob ein + Sättigungseffekt eingetreten ist. Die Prüfung erfolgt durch die Auswertung der + Metrikverläufe während des Trainings, um die Angemessenheit der gewählten Datenmenge + zu validieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-08 + title_original_de: QM-08 Lernkurven + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-08_LearningCurve.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-09-konfidenzniveau + canonical_name: KonfidenzNiveau + description: Das System muss eine statistische Schätzung der Datenqualität für KI-Trainingsdaten + bereitstellen, die mit einer definierten Wahrscheinlichkeit den wahren Wert der + zugrundeliegenden Population abdeckt. Es ist sicherzustellen, dass das berechnete + Konfidenzniveau die Gültigkeit von Stichprobenstatistiken auf die Gesamtheit der + Daten validiert. Die Einhaltung dieses Parameters ist durch regelmäßige Prüfungen + der Intervallgrenzen nachzuweisen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-09 + title_original_de: QM-09 KonfidenzNiveau + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-09_KonfidenzNiveau.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-10-1-principal-component-analysis + canonical_name: -1 Principal Component Analysis + description: Für die Validierung der KI-Trainingsdaten ist eine dimensionsreduzierende + Analyse durchzuführen, um redundante Merkmalskorrelationen zu identifizieren und + die Datenstruktur zu komprimieren. Es ist sicherzustellen, dass die ursprünglichen + Variablen in eine reduzierte Menge orthogonaler Hauptkomponenten transformiert + werden, wobei der Informationsverlust minimiert wird. Die Effektivität dieses + Prozesses ist durch den Nachweis einer signifikanten Reduktion der Datenkomplexität + bei gleichzeitiger Wahrung der interpretierbaren Informationsdichte zu prüfen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-10 + title_original_de: QM-10-1 Principal Component Analysis + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-10_Dimension%20Reduction/QM-10-1_PrincipalComponentAnalysis.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-10-2-clustergraph-analysisqm-10-2-clustergr + canonical_name: -2_Clustergraph AnalysisQM-10-2 Clustergraph Analysis + description: Das System muss eine topologische Analyse der KI-Trainingsdaten durchführen, + um die globale Struktur und relative Distanz zwischen identifizierten Datenclustern + explizit abzubilden. Es ist sicherzustellen, dass bei der Dimensionsreduktion + die strukturellen Beziehungen zwischen den Clustern erhalten bleiben und nicht + durch lokale Verzerrungen verfälscht werden. Die Korrektheit dieser Darstellung + ist durch einen automatisierten Validierungsprozess zu prüfen, der Abweichungen + von der ursprünglichen multidimensionalen Verteilung quantifiziert. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-10 + title_original_de: QM-10-2_Clustergraph AnalysisQM-10-2 Clustergraph Analysis + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-10_Dimension%20Reduction/QM-10-2_Clustergraph%20Analysis.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0333 +- id: MET-AI-DATA-QM-10-3-robustprincipalcomponentanalysis + canonical_name: -3 RobustPrincipalComponentAnalysis + description: Das System muss zur Sicherstellung der Datenintegrität ein Verfahren + zur Trennung von Grundmustern und Anomalien implementieren, das über klassische + Hauptkomponentenanalysen hinausgeht. Durch die Zerlegung der Eingabedatenmatrix + in eine niedrigrangige Strukturkomponente und eine spärliche Störkomponente ist + eine robuste Filterung von Ausreißern im Trainingsdatensatz sicherzustellen. Diese + Methode ist zwingend erforderlich, um die Modellgenauigkeit bei verrauschten oder + fehlerbehafteten Eingaben zu gewährleisten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-10 + title_original_de: QM-10-3 RobustPrincipalComponentAnalysis + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-10_Dimension%20Reduction/QM-10-3_RobustPrincipalComponentAnalysis.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-10-dimensionsreduktion + canonical_name: Dimensionsreduktion + description: Das System muss Verfahren zur Reduktion der Merkmalsdimensionalität + in KI-Trainingsdatensätzen anwenden, um redundante Variablen zu eliminieren und + den Informationsgehalt zu maximieren. Es ist sicherzustellen, dass die Anzahl + der verbleibenden Merkmale strikt unter der ursprünglichen Dimensionalität liegt, + während die wesentlichen Datenstrukturen erhalten bleiben. Die Eignung der eingesetzten + Algorithmen ist durch technische Prüfungen nachzuweisen, um die Interpretierbarkeit + der Ergebnisse zu gewährleisten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-10 + title_original_de: QM-10 Dimensionsreduktion + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-10_Dimension%20Reduction/QM-10_Dimension%20Reduction.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-11-1-pearson-korrelationskoeffizient + canonical_name: -1 Pearson-Korrelationskoeffizient + description: Für kontinuierliche Trainingsdaten ist sicherzustellen, dass die lineare + Abhängigkeit zwischen zwei Variablen durch den Bravais-Pearson-Koeffizienten quantifiziert + wird. Der berechnete Wert muss im Intervall von -1 bis 1 liegen, um die Stärke + und Richtung des Zusammenhangs eindeutig zu bewerten. Eine Prüfung ist durchzuführen, + ob die Daten auf einer Intervall- oder Verhältnisskala vorliegen, bevor die Metrik + angewendet wird. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-11 + title_original_de: QM-11-1 Pearson-Korrelationskoeffizient + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-11_Korrelationskoeffizienten/QM-11-1_Pearson-Korrelationskoeffizient.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.1273 +- id: MET-AI-DATA-QM-11-2-spearman-rangkorrelationskoeffizient + canonical_name: -2 Spearman-Rangkorrelationskoeffizient + description: Das System muss den Spearman-Rangkorrelationskoeffizienten zur Validierung + der monotonen Abhängigkeit zwischen KI-Trainingsvariablen berechnen. Diese Kennzahl + ist als nichtparametrisches Maß zwingend einzusetzen, um Zusammenhänge bei nicht-normalverteilten + Daten oder Vorhandensein von Ausreißern zu quantifizieren. Die Prüfung ist erfolgreich, + wenn der ermittelte Wert im definierten Intervall von -1 bis 1 liegt und die Richtung + der Beziehung eindeutig identifiziert wird. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-11 + title_original_de: QM-11-2 Spearman-Rangkorrelationskoeffizient + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-11_Korrelationskoeffizienten/QM-11-2_Spearman-Rangkorrelationskoeffizient.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-11-3-kendalls-tau + canonical_name: -3 Kendalls Tau + description: Die Korrelation zwischen den Rangfolgen von KI-Vorhersagen und manuell + verifizierten Qualitätslabels ist mittels des Kendall-Tau-Koeffizienten zu ermitteln. + Dieses nichtparametrische Verfahren ist zwingend anzuwenden, um monotone Zusammenhänge + auch bei nichtlinearen Mustern oder vorhandenen Ausreißern robust zu validieren. + Die Prüfung muss sicherstellen, dass die berechnete Stärke der Assoziation die + Datenqualität der Trainingsdaten unabhängig von der Verteilungsform bestätigt. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-11 + title_original_de: QM-11-3 Kendalls Tau + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-11_Korrelationskoeffizienten/QM-11-3_Kendalls%20Tau.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-11-4-punktbiserialer-korrelationskoeffizien + canonical_name: -4 Punktbiserialer Korrelationskoeffizient + description: Für die Validierung von KI-Trainingsdaten ist der punktbiseriale Korrelationskoeffizient + zwingend anzuwenden, um die Abhängigkeit zwischen binären Klassifikationsmerkmalen + und kontinuierlichen Wertefeldern quantitativ zu bewerten. Diese Kennzahl muss + die Stärke und Richtung des linearen Zusammenhangs exakt erfassen, wobei sie als + spezialisierte Form der Pearson-Korrelation für den Fall einer dichotomen und + einer metrischen Variable fungiert. Die Berechnung ist vor dem finalen Modelltraining + durchzuführen, um sicherzustellen, dass relevante Einflussfaktoren auf die Datenqualität + hinreichend identifiziert werden. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-11 + title_original_de: QM-11-4 Punktbiserialer Korrelationskoeffizient + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-11_Korrelationskoeffizienten/QM-11-4_Koeffizient%20der%20punktbiserialen%20Korrelation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0286 +- id: MET-AI-DATA-QM-11-5-phi-koeffizient + canonical_name: -5 Phi-Koeffizient + description: Für die Validierung von KI-Trainingsdaten ist der Phi-Koeffizient als + statistisches Maß zur Quantifizierung der Assoziationsstärke zwischen zwei binären + Variablen anzuwenden. Die Berechnung basiert ausschließlich auf den Häufigkeitsverteilungen + einer 2x2-Kontingenztafel, um die Korrelation zwischen den Ausprägungen zu ermitteln. + Es ist sicherzustellen, dass dieses Verfahren nur bei Daten mit genau zwei diskreten + Kategorien eingesetzt wird, um die Datenqualität objektiv zu prüfen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-11 + title_original_de: QM-11-5 Phi-Koeffizient + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-11_Korrelationskoeffizienten/QM-11-5_Phi-Koeffizient.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-11-korrelationskoeffizient-diverse + canonical_name: Korrelationskoeffizient(diverse) + description: Für die Validierung von KI-Trainingsdatensätzen ist der lineare Zusammenhang + zwischen relevanten Eingangsvariablen durch den Korrelationskoeffizienten quantitativ + zu ermitteln. Es ist sicherzustellen, dass die berechneten Werte im Intervall + von -1 bis +1 liegen und die Stärke sowie Richtung der Abhängigkeit eindeutig + identifizieren. Abweichungen von definierten Schwellenwerten für signifikante + Korrelationen sind als Qualitätsmangel zu protokollieren und zu analysieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-11 + title_original_de: QM-11 Korrelationskoeffizient(diverse) + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-11_Korrelationskoeffizienten/QM-11_Korrelationskoeffizient(diverse).md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-12-prozent-fehl-variablen + canonical_name: Prozent fehl. Variablen + description: Der Anteil nicht verfügbarer Werte innerhalb definierter Eingabemerkmale + ist als prozentualer Indikator für die Datenintegrität zu ermitteln. Diese Kennzahl + muss den relativen Umfang von Lücken im Trainingskorpus quantifizieren, um die + Zuverlässigkeit der KI-Modelle zu bewerten. Die Berechnung ist auf Basis des Gesamtvolumens + des Datensatzes durchzuführen und regelmäßig zu validieren, um Datenbereinigungsmaßnahmen + einzuleiten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-12 + title_original_de: QM-12 Prozent fehl. Variablen + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-12_Prozentsatz%20auf%20Daten.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-13-lineare-diskriminanzanalyse + canonical_name: Lineare Diskriminanzanalyse + description: Das KI-Modell muss ein lineares Diskriminanzverfahren implementieren, + um Trainingsdatenpunkte basierend auf definierten Merkmalsvektoren optimal in + vorab festgelegte Klassen zu segmentieren. Es ist sicherzustellen, dass die Trennhyperflächen + so berechnet werden, dass der Abstand zwischen den Klassenmittelwerten maximiert + und die Varianz innerhalb jeder Klasse gleichzeitig minimiert wird. Die Güte der + Klassifizierung ist durch die Prüfung der Normalverteilungsannahme der Eingabedaten + sowie der Homogenität der Kovarianzmatrizen vor dem Training zu validieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-13 + title_original_de: QM-13 Lineare Diskriminanzanalyse + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-13%20Linear%20Discriminant%20Analysis.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-15-sixsigmaprocess + canonical_name: SixSigmaProcess + description: Das System muss die statistische Prozessfähigkeit von KI-Trainingsdatensätzen + kontinuierlich überwachen, um die Standardabweichung der Qualitätsmerkmale auf + maximal sechs Sigma zu begrenzen. Es ist sicherzustellen, dass die Fehlerrate + bei der Datenerstellung und -verarbeitung unter 3,4 Defekte pro Million Möglichkeiten + bleibt. Jede Abweichung von diesem Zielwert ist durch automatische Ausreißererkennung + zu identifizieren und innerhalb definierter Toleranzgrenzen zu korrigieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-15 + title_original_de: QM-15 SixSigmaProcess + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-15_SixSigmaProcess.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0182 +- id: MET-AI-DATA-QM-16-1-interrater-reliabilitaet + canonical_name: -1 Interrater-Reliabilität + description: Für die Validierung der KI-Trainingsdaten ist die Konsistenz zwischen + mehreren unabhängigen annotierenden Instanzen quantifizativ zu prüfen. Dabei ist + ein statistisches Maß zur Berechnung der Übereinstimmung unter Berücksichtigung + des Zufallseinflusses anzuwenden. Die resultierende Kennzahl muss einen definierten + Mindestwert überschreiten, um die Datenqualität als gesichert zu bewerten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-16 + title_original_de: QM-16-1 Interrater-Reliabilität + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-16_Reliability/QM-16-1_Inter%20Rater%20Reliability.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-16-2-test-retest-reliabilitaet + canonical_name: -2 Test-Retest-Reliabilität + description: Das System muss die Stabilität der KI-Ausgaben über die Zeit quantifizieren, + indem es identische Eingabedaten zu zwei separaten Zeitpunkten verarbeitet. Die + daraus resultierenden Ergebnisse sind durch einen statistischen Korrelationskoeffizienten + zu verknüpfen, um die Konsistenz der Modellleistung zu validieren. Eine Abweichung + unterhalb des definierten Schwellenwerts ist als Qualitätsmangel zu protokollieren + und zu untersuchen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-16 + title_original_de: QM-16-2 Test-Retest-Reliabilität + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-16_Reliability/QM-16-2_Test-Retest-Reliability.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-16-3-split-half-reliability + canonical_name: -3 Split-Half-Reliability + description: Das System muss die Konsistenz der KI-Entscheidungen durch eine Aufteilung + der Trainingsdaten in zwei unabhängige Teilmengen verifizieren. Die Korrelation + der Ergebnisse beider Teilmengen ist zu ermitteln und mittels einer statistischen + Korrekturformel auf die Gesamtreliabilität hochzurechnen. Diese Kennzahl ist als + messbarer Indikator für die Datenqualität bei der Modellvalidierung heranzuziehen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-16 + title_original_de: QM-16-3 Split-Half-Reliability + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-16_Reliability/QM-16-3_Split-Half-Reliability.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-16-4-cronsbachsches-alpha + canonical_name: -4 Cronsbachsches Alpha + description: Das System muss einen quantitativen Indikator zur Bewertung der internen + Konsistenz der zugrundeliegenden Trainingsdaten implementieren. Dieser Koeffizient + ist so zu berechnen, dass er die Korrelation zwischen einzelnen Datenelementen + einer Messskala präzise abbildet. Eine Einhaltung der definierten Schwellenwerte + ist zwingend erforderlich, um die Zuverlässigkeit der KI-Modellierung sicherzustellen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-16 + title_original_de: QM-16-4 Cronsbachsches Alpha + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-16_Reliability/QM-16-4_Cronsbach%20Alpha.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-16-zuverlaessigkeit + canonical_name: Zuverlässigkeit + description: Der Anteil der im Trainingskorpus verifizierten und qualitätsgeprüften + Datensätze muss einen definierten Mindestwert überschreiten, um die statistische + Verlässlichkeit des Modells zu gewährleisten. Diese Kennzahl ist ausschließlich + auf Daten anzuwenden, deren Herkunft und Integrität durch autorisierte Quellen + bestätigt wurden. Eine regelmäßige Prüfung der Datenherkunft ist zwingend erforderlich, + um Abweichungen von der festgelegten Qualitätsbasis frühzeitig zu identifizieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-16 + title_original_de: QM-16 Zuverlässigkeit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-16_Reliability/QM-16_Reliability.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-17-abdeckungsgrad-von-auditmassnahmen + canonical_name: Abdeckungsgrad von Auditmaßnahmen + description: Der Erfassungsgrad der Audit-Logs muss quantifiziert werden, um die + Vollständigkeit der protokollierten Systemereignisse im Kontext spezifischer KI-Trainingsprozesse + zu verifizieren. Es ist sicherzustellen, dass mindestens 100 % der definierten + kritischen Aktionen und Datenqualitätsänderungen lückenlos in den Aufzeichnungen + nachvollziehbar sind. Abweichungen von dieser Vollständigkeit sind als Defekt + zu bewerten und müssen durch eine detaillierte Analyse der fehlenden Einträge + identifiziert werden. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-17 + title_original_de: QM-17 Abdeckungsgrad von Auditmaßnahmen + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-17_CoverageLevel.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-18-haeufigkeits-und-gewichtungsfeldern + canonical_name: Häufigkeits- und Gewichtungsfeldern + description: Für die Validierung von KI-Modellen ist sicherzustellen, dass Trainingsdatensätze + explizite Metadaten zur Repräsentativität und Relevanz enthalten. Diese Attribute + müssen numerische Werte zur Häufigkeit und zur semantischen Gewichtung der einzelnen + Instanzen definieren, wobei die Gewichtung nicht auf Ganzzahlen beschränkt sein + darf. Während diese Parameter den Lernprozess steuern, sind sie bei der finalen + Leistungsbewertung auf repräsentativen Testsets zu ignorieren, um eine unverzerrte + Vergleichbarkeit zwischen verschiedenen Modellen zu gewährleisten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-18 + title_original_de: QM-18 Häufigkeits- und Gewichtungsfeldern + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-18_Frequency%20and%20weighting%20fields.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-19-erklaerte-varianz + canonical_name: Erklärte Varianz + description: Das System muss den Anteil der durch das Modell erklärten Varianz der + Zielvariable in den Trainingsdaten quantifizieren, um die Reduktionsqualität zu + validieren. Dieser Wert ist als normierter Indikator zwischen null und eins sicherzustellen + und muss bei jeder Validierung der Datenqualität explizit berechnet werden. Eine + Abweichung von definierten Schwellenwerten ist als Qualitätsmangel zu protokollieren, + da sie auf eine unzureichende Merkmalsextraktion hinweist. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-19 + title_original_de: QM-19 Erklärte Varianz + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-19_Explained%20Variance.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-21-kumulative-erklaerte-varianz + canonical_name: Kumulative erklärte Varianz + description: Das System muss einen quantitativen Indikator zur kumulativen Erklärung + der Datenvarianz implementieren, der den Anteil der durch gewählte Merkmale abgedeckten + Gesamtvariation erfasst. Dieser Wert ist bei jeder Validierung des Trainingsdatensatzes + zu berechnen, um die Angemessenheit der Dimensionsreduktion zu verifizieren. Die + Auswertung dient dazu, die minimale Anzahl an Features zu bestimmen, die für eine + repräsentative Datenabbildung erforderlich ist. Eine Unterschreitung des definierten + Schwellenwerts ist als Qualitätsabweichung zu protokollieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-21 + title_original_de: QM-21 Kumulative erklärte Varianz + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-21_Cummulative_explained_variance.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-22-rekonstruktionsfehler + canonical_name: Rekonstruktionsfehler + description: Das System muss die Qualität der KI-Trainingsdaten durch den Vergleich + von Eingabevektoren mit deren rekonstruierten Versionen quantifizieren. Zur Sicherstellung + der Datenintegrität ist der mittlere quadratische Fehler als primäres Maß für + die Rekonstruktionsgenauigkeit zu ermitteln. Ein niedriger Abweichungswert bestätigt, + dass die extrahierten Merkmalsdimensionen die ursprünglichen Datenstrukturen hinreichend + abbilden. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-22 + title_original_de: QM-22 Rekonstruktionsfehler + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-22_ReconstructionError.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-23-mittlerer-quadratischer-abweichung + canonical_name: Mittlerer quadratischer Abweichung + description: Das System muss einen metrischen Qualitätsindikator implementieren, + der die durchschnittliche quadrierte Abweichung zwischen den von der KI generierten + Vorhersagen und den referenzierten Sollwerten berechnet. Diese Kennzahl ist als + primäres Maß für die Modellgenauigkeit zu werten, wobei ein Wert nahe Null eine + hohe Übereinstimmung der Trainingsdatenqualität anzeigt. Die Berechnung muss sowohl + zufällige Schwankungen als auch systematische Verzerrungen in den Daten erfassen, + um eine valide Bewertung der Vorhersagegüte sicherzustellen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-23 + title_original_de: QM-23 Mittlerer quadratischer Abweichung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-23_MeanSquaredError.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-25-1-variance-treshold + canonical_name: -1 Variance-Treshold + description: Für jedes Eingangsmerkmal ist die statistische Varianz zu ermitteln + und mit einem definierten Grenzwert zu vergleichen. Merkmale, deren Varianz diesen + Schwellenwert unterschreiten, sind als irrelevant für die Zielvariablen-Unterscheidung + zu klassifizieren und aus dem Trainingsdatensatz zu entfernen. Diese Maßnahme + ist zwingend erforderlich, um konstante oder nahezu konstante Merkmale zu eliminieren, + die keinen Beitrag zur Modellgenauigkeit leisten. Die Einhaltung dieses Filters + ist vor jedem Trainingsschritt durch einen automatisierten Validierungslauf zu + prüfen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-25 + title_original_de: QM-25-1 Variance-Treshold + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-25_Feature%20Importance%20Scores/QM-25-1_Variance-Treshold.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-25-feature-importance-scores-diverse + canonical_name: Feature Importance Scores (diverse) + description: Das System muss für jedes trainierte Modell quantifizierbare Metriken + zur Relevanz der Eingangsmerkmale berechnen, um den Einfluss einzelner Variablen + auf die Vorhersageergebnisse zu bewerten. Es ist sicherzustellen, dass diese Kennzahlen + eine diverse Verteilung aufweisen, um eine einseitige Abhängigkeit von wenigen + Merkmalen auszuschließen. Die Validierung dieser Scores ist durch einen automatisierten + Prüfprozess nachzuweisen, bevor das Modell in den produktiven Einsatz überführt + wird. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-26 + - QM-27 + - QM-28 + - QM-29 + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-25 + title_original_de: QM-25 Feature Importance Scores (diverse) + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-25_Feature%20Importance%20Scores/QM-25_Feature%20Importance%20Scores.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-26-gini-importance + canonical_name: Gini-Importance + description: Für jedes im Modell eingesetzte Feature ist der Beitrag zur Reduktion + der Gini-Unreinheit über alle Baumstrukturen zu quantifizieren. Die relative Wichtigkeit + der Eingangsvariablen muss durch die Aggregation der Impurity-Reduktionen an allen + Splits bestimmt werden. Eine Validierung ist sicherzustellen, um die korrekte + Berechnung der Feature-Bedeutung für die Datenqualitätsbewertung nachzuweisen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-26 + title_original_de: QM-26 Gini-Importance + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-25_Feature%20Importance%20Scores/QM-26_Gini%20Importance%20Score.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0625 +- id: MET-AI-DATA-QM-27-permutation-feature-importance + canonical_name: Permutation Feature Importance + description: Das System muss die Relevanz einzelner Eingangsvariablen für die Vorhersagegüte + quantifizieren, indem zufällig vertauschte Datenwerte mit dem ursprünglichen Modellverhalten + verglichen werden. Diese Prüfung ist sicherzustellen, um nachzuweisen, dass die + gewählten Merkmale einen signifikanten Beitrag zur Modellleistung leisten und + keine irrelevante Datenqualität die Ergebnisse verfälscht. Die Validierung erfolgt + durch den Vergleich der Metriken vor und nach der Permutation jedes einzelnen + Merkmals im Trainingsdatensatz. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-27 + title_original_de: QM-27 Permutation Feature Importance + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-25_Feature%20Importance%20Scores/QM-27_Permutation%20Feature%20Importance.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-28-koeffizienten-linearer-modelle + canonical_name: Koeffizienten linearer Modelle + description: Für lineare Regressionsmodelle ist sicherzustellen, dass die absoluten + Werte der Merkmalskoeffizienten als primärer Indikator für die relative Bedeutung + der Eingangsvariablen dienen. Ein höherer Koeffizientenwert muss zwingend eine + stärkere Gewichtung des jeweiligen Merkmals im Trainingsdatensatz widerspiegeln. + Die Validierung dieser Korrelation ist vor der Modellfreigabe durchzuführen, um + die Datenqualität der Feature-Importanz zu gewährleisten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-28 + title_original_de: QM-28 Koeffizienten linearer Modelle + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-25_Feature%20Importance%20Scores/QM-28_Koeffizienten%20linearer%20Modelle.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-29-shap-feature-importance + canonical_name: SHAP Feature Importance + description: Das KI-System muss die individuelle Gewichtung aller Eingangsvariablen + für jede einzelne Vorhersage mittels Shapley-Werten quantifizieren. Es ist sicherzustellen, + dass diese Berechnung sowohl positive als auch negative Einflussfaktoren auf das + Endergebnis konsistent abbildet. Die Validierung der Datenqualität erfolgt durch + die Prüfung der Aggregation dieser Beiträge über alle möglichen Feature-Kombinationen + hinweg. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-57 + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-29 + title_original_de: QM-29 SHAP Feature Importance + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-25_Feature%20Importance%20Scores/QM-29_SHAP%20Feature%20Importance.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0408 +- id: MET-AI-DATA-QM-30-literatur-recherche + canonical_name: Literatur Recherche + description: Das System muss vor dem Training eine systematische Analyse des aktuellen + Forschungsstands durchführen, um relevante Datenqualitätsstandards zu identifizieren. + Es ist sicherzustellen, dass etablierte Methoden zur Erkennung von Mustern in + wissenschaftlichen Publikationen und Datenbanken angewendet werden. Die Qualität + der Trainingsdaten ist durch den Abgleich mit diesen ermittelten Referenzwerten + zu validieren, bevor ein Modell initiiert wird. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-30 + title_original_de: QM-30 Literatur Recherche + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-30_LiteraturRecherche.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-31-prozessanalysemetriken + canonical_name: Prozessanalysemetriken + description: Für die Validierung des KI-Trainingsprozesses ist ein quantitatives + Maß zur Erfassung der Datenqualität pro Use-Case zu definieren. Es ist sicherzustellen, + dass Indikatoren zur Effizienz, Zuverlässigkeit und Compliance regelmäßig ausgewertet + werden, um die Prozesswirksamkeit objektiv zu bewerten. Die Prüfung muss nachweisen, + dass definierte Qualitätsziele im gesamten Lebenszyklus des Modells erreicht werden. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: + - framework: EU GDPR + citation: null + source: + framework: BSI QUAIDAL + section: QM-31 + title_original_de: QM-31 Prozessanalysemetriken + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-31_ProcessAnalysis.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-32-regulaere-ausdruecke + canonical_name: Reguläre Ausdrücke + description: Das System muss die Validierung von KI-Trainingsdaten durch algorithmische + Mustererkennung sicherstellen, um strukturelle Integrität zu gewährleisten. Es + ist zu prüfen, ob spezifische Datenqualitätsmerkmale mittels definierter Suchlogiken + identifiziert und transformiert werden können. Diese Mechanismen sind erforderlich, + um ungültige oder fehlerhafte Dateneinträge in den Trainingskorpora zuverlässig + zu filtern. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-32 + title_original_de: QM-32 Reguläre Ausdrücke + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-32_RegularExpression.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-34-validierung-der-feldgroesse + canonical_name: Validierung der Feldgröße + description: Die Länge aller in KI-Trainingsdatensätzen enthaltenen Textfelder muss + innerhalb definierter, domänenspezifischer Grenzen liegen. Es ist sicherzustellen, + dass Abweichungen von diesen Grenzen durch automatisierte Prüfmechanismen oder + Expertenanalysen identifiziert werden, um Datenqualitätsmängel auszuschließen. + Die Validierung muss nachweisbar dokumentieren, ob die Feldgrößen den erwarteten + Spezifikationen entsprechen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-34 + title_original_de: QM-34 Validierung der Feldgröße + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-34_FieldSizeValidation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-35-confusionmatrix + canonical_name: ConfusionMatrix + description: Das System muss eine matrixbasierte Auswertung der Klassifikationsleistung + bereitstellen, die wahre und falsche Positive sowie Negative nach tatsächlichen + und prognostizierten Klassen differenziert. Diese Aufschlüsselung ist zwingend + erforderlich, um die Datenqualität der Trainingsdaten und die Zuverlässigkeit + der KI-Entscheidungen objektiv zu bewerten. Die Genauigkeit der Vorhersagen ist + durch den Vergleich der Kreuztabellenwerte gegen definierte Schwellenwerte zu + validieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-35 + title_original_de: QM-35 ConfusionMatrix + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-35_ConfusionMatrix.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-36-area-under-curce-auc + canonical_name: Area Under Curce (AUC) + description: Das System muss die Diskriminierungsfähigkeit des Klassifikators durch + Berechnung der Fläche unter der ROC-Kurve quantifizieren, um die Trennschärfe + zwischen positiven und negativen Instanzen über alle Entscheidungsschwellen hinweg + zu bewerten. Es ist sicherzustellen, dass dieser Indikator als aggregierter Qualitätsmaßstab + dient, der eine Leistungsfähigkeit deutlich über dem Zufallsniveau von 0,5 nachweist. + Die Validierung erfolgt durch Prüfung der berechneten Metrik gegen definierte + Mindestgrenzwerte im Rahmen des Datenqualitätsmonitorings. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-36 + title_original_de: QM-36 Area Under Curce (AUC) + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-36_AreaUnderCurce-ReceiverOperatingCharacteristic%20(AUC-ROC).md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-37-area-under-precision-recall-curve-auprc + canonical_name: Area Under Precision-Recall Curve (AUPRC) + description: Das System muss die Flächengröße unter der Präzision-Recall-Kurve als + zentralen Qualitätsindikator für Klassifikationsmodelle ermitteln. Diese Metrik + ist zwingend zu nutzen, um die Modellgüte bei stark unausgewogenen Datensätzen + zu quantifizieren, bei denen seltene positive Ereignisse dominieren. Die Einhaltung + dieses Kriteriums ist durch automatische Auswertung der Trainings- und Validierungsdaten + sicherzustellen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-37 + title_original_de: QM-37 Area Under Precision-Recall Curve (AUPRC) + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-37_Area%20Under%20Precision-Recall%20Curve%20(AUPRC).md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-38-gewichtete-metriken + canonical_name: Gewichtete Metriken + description: Das System muss die Berechnung von Klassifikationsmetriken so implementieren, + dass die Bedeutung einzelner Klassen und Stichproben durch individuelle Gewichtungsfaktoren + berücksichtigt wird. Es ist sicherzustellen, dass aggregierte Kennzahlen wie die + gewichtete F1-Score oder die gewichtete Genauigkeit auf Basis dieser Faktoren + ermittelt werden, um Verzerrungen in den Trainingsdaten auszugleichen. Die Korrektheit + dieser gewichteten Berechnungen ist bei jeder Validierung der KI-Datenqualität + explizit zu prüfen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-38 + title_original_de: QM-38 Gewichtete Metriken + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-38_WeightedMetrics.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-39-power-analyse + canonical_name: Power Analyse + description: Vor Beginn des KI-Trainings ist eine statistische Poweranalyse durchzuführen, + um die erforderliche Datenmenge für die Erkennung signifikanter Effekte zu quantifizieren. + Die Berechnung muss auf Basis definierter Effektgrößen, des Signifikanzniveaus + und der erwarteten Populationsvarianz erfolgen, um eine ausreichende Teststärke + sicherzustellen. Eine valide Ableitung der Stichprobengröße setzt zwingend voraus, + dass relevante Parameter der Zielpopulation im Vorfeld bekannt sind und in das + Modell eingehen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-39 + title_original_de: QM-39 Power Analyse + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-39_PowerAnalysis.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-40-chi-quadrat-test + canonical_name: Chi-Quadrat Test + description: Die Qualität der KI-Trainingsdaten ist durch einen statistischen Unabhängigkeitstest + zu validieren, um systematische Verzerrungen in kategorialen Merkmalen zu identifizieren. + Es ist sicherzustellen, dass die beobachteten Häufigkeitsverteilungen signifikant + von den theoretisch erwarteten Werten abweichen, sofern keine Unabhängigkeit zwischen + den Variablen besteht. Diese Prüfung muss für alle nominal skalierten Eingangsattribute + durchgeführt werden, um die statistische Integrität des Datensatzes vor dem Training + zu gewährleisten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-40 + title_original_de: QM-40 Chi-Quadrat Test + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-40_Chi-Quadrat%20Test.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-41-konfidenzintervall + canonical_name: KonfidenzIntervall + description: Für jede statistische Schätzung der KI-Datenqualität ist ein Konfidenzintervall + zu berechnen, das die Unsicherheit des Parameters quantifiziert. Dieses Intervall + muss so definiert sein, dass der wahre Wert mit dem festgelegten Konfidenzniveau + mit hoher Wahrscheinlichkeit darin enthalten ist. Die Einhaltung dieser statistischen + Grenzen ist durch automatische Prüfungen bei jedem Trainingsschritt sicherzustellen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-41 + title_original_de: QM-41 KonfidenzIntervall + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-41_KonfidenzIntervalle.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-43-kreuzabgleich + canonical_name: Kreuzabgleich + description: Für die Validierung von KI-Trainingsdaten ist ein quellenübergreifender + Konsistenzcheck zwingend erforderlich, bei dem die zu verarbeitenden Informationen + mit unabhängigen Referenzdatensätzen abgeglichen werden. Vor Beginn des Abgleichs + sind definierte Toleranzgrenzen festzulegen, um Abweichungen objektiv zu bewerten. + Die Prüfung muss sicherstellen, dass signifikante Diskrepanzen zwischen den Datensätzen + identifiziert und dokumentiert werden, um die Datenintegrität für das Training + zu garantieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-43 + title_original_de: QM-43 Kreuzabgleich + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-43_Kreuzabgleich.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-44-1-mittelwert-imputation + canonical_name: -1 Mittelwert Imputation + description: Für den Umgang mit fehlenden Werten in KI-Trainingsdatensätzen ist + die Imputation durch den arithmetischen Mittelwert als alleinige Maßnahme unzulässig, + da sie die natürliche Varianz der Daten ignoriert und systematische Verzerrungen + erzeugt. Es ist sicherzustellen, dass bei der Behandlung von Lücken in den Datenelementen + alternative Verfahren zur Anwendung kommen, welche die Streuung der beobachteten + Werte berücksichtigen. Die Einhaltung dieser Vorgabe ist durch eine technische + Prüfung der Imputationslogik vor dem Training zu verifizieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-44 + title_original_de: QM-44-1 Mittelwert Imputation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-1_Mittelwert%20Imputation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-44-2-median-imputation + canonical_name: -2 Median Imputation + description: Fehlende Werte in numerischen Trainingsdatensätzen sind durch den Median + der vorhandenen Beobachtungen zu ersetzen, um die Robustheit gegenüber Ausreißern + zu gewährleisten. Diese Maßnahme ist zwingend vor dem Training anzuwenden, wobei + die Varianz der ursprünglichen Verteilung bewusst nicht rekonstruiert wird. Die + Anwendung dieses Verfahrens ist ausschließlich für metrische Merkmale zulässig + und für kategoriale Daten explizit ausgeschlossen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-44 + title_original_de: QM-44-2 Median Imputation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-2_Median%20Imputation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0192 +- id: MET-AI-DATA-QM-44-3-modus-imputation + canonical_name: -3 Modus Imputation + description: Für kategoriale Merkmale ist eine Imputation mittels des häufigsten + Auftretens zulässig, sofern der Anteil fehlender Werte fünf Prozent nicht überschreitet. + Diese Methode ist nur anzuwenden, wenn die Varianz der Daten als vernachlässigbar + eingestuft wird, um systematische Verzerrungen zu vermeiden. Die Einhaltung dieser + Schwelle ist vor jeder Trainingsdatenaufbereitung durch eine quantitative Prüfung + sicherzustellen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-44 + title_original_de: QM-44-3 Modus Imputation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-3_Modus%20Imputation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-44-4-multiple-imputation + canonical_name: -4 Multiple Imputation + description: Das System muss bei der Aufbereitung von KI-Trainingsdaten mit unvollständigen + Einträgen stochastische Verfahren anwenden, um mehrere plausible Varianten der + fehlenden Werte zu generieren. Diese Mehrfach-Imputationen sind erforderlich, + um die inhärente Unsicherheit der Datenvollständigkeit quantitativ abzubilden. + Die finale Datenqualität ist durch die Aggregation der Ergebnisse aus allen simulierten + Datensätzen zu validieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-44 + title_original_de: QM-44-4 Multiple Imputation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-4_Multiple%20Imputation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-44-5-knn-imputation + canonical_name: -5 KNN Imputation + description: Für den Umgang mit fehlenden Werten im KI-Trainingsdatensatz ist die + K-Nearest-Neighbors-Methode als Imputationsverfahren zwingend vorzusehen, sofern + die Datenstruktur signifikante Ähnlichkeitsmuster aufweist. Das System muss für + jeden fehlenden Eintrag die k-ähnlichsten Referenzpunkte identifizieren und deren + Merkmalswerte zur Rekonstruktion heranziehen. Eine Anwendung einfacher statistischer + Mittelwerte ist bei Vorliegen dieser Nachbarschaftsabhängigkeiten unzulässig, + da sie die Datenintegrität gefährden würde. Die Korrektheit dieses Algorithmus + ist vor dem Training durch Validierung der Rekonstruktionsgüte zu prüfen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-44 + title_original_de: QM-44-5 KNN Imputation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-5_KNN%20Imputation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-44-6-hot-deck-imputation + canonical_name: -6 Hot Deck Imputation + description: Für den Einsatz in KI-Trainingsdatensätzen ist sicherzustellen, dass + fehlende Attributwerte durch Imputation aus statistisch ähnlichen Referenzfällen + ersetzt werden. Die Auswahl der Ersatzwerte muss auf einer definierten Ähnlichkeitsmetrik + basieren, um die Datenintegrität und Verteilungseigenschaften des Modells zu wahren. + Eine Validierung ist durchzuführen, um nachzuweisen, dass die generierten Werte + keine systematischen Verzerrungen in die Trainingsdaten引入. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-44 + title_original_de: QM-44-6 Hot Deck Imputation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-6_Hot%20Deck%20Imputation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-44-7-llm-basierte-imputation + canonical_name: -7 LLM-basierte Imputation + description: Das System muss bei der Verarbeitung von Datensätzen mit fehlenden + Werten auf KI-Modelle zurückgreifen, um diese basierend auf kontextuellen Zusammenhängen + und Umgebungsvariablen zu rekonstruieren. Die Qualität der generierten Ersatzwerte + ist durch Plausibilitätsprüfungen sicherzustellen, um die Integrität des Gesamtdatensatzes + zu wahren. Eine Validierung der Imputationsergebnisse ist vor der weiteren Datenverarbeitung + durchzuführen, um systematische Fehler auszuschließen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-44 + title_original_de: QM-44-7 LLM-basierte Imputation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-7_LLM-Based%20Imputation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-44-8-regression-imputation + canonical_name: -8 Regression Imputation + description: Das System muss fehlende Werte in KI-Trainingsdatensätzen durch statistische + Regressionsmodelle schätzen, wobei vorhandene Merkmale als Prädiktoren zur Vorhersage + der Zielvariable genutzt werden. Es ist sicherzustellen, dass die gewählte Regressionsmethode + linear oder nicht-linear ist und die Vorhersagegenauigkeit durch Validierung mit + verbleibenden Datenpunkten quantifiziert wird. Die Plausibilität der imputierten + Werte ist vor der weiteren Datenverarbeitung auf Konsistenz mit den identifizierten + Variablenbeziehungen zu prüfen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-44 + title_original_de: QM-44-8 Regression Imputation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-8_Regression%20Imputation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-44-9-diffusion-imputation-augmentation + canonical_name: -9 Diffusion Imputation/Augmentation + description: Das System muss fehlende Werte in Trainingsdatensätzen durch stochastische + Rekonstruktionsverfahren auf Basis gelerntter Datenverteilungen ergänzen. Es ist + sicherzustellen, dass der Imputationsprozess den zugrundeliegenden Datenraum durch + schrittweise Rauschprozesse modelliert, um plausible Ergänzungen zu generieren. + Die Qualität der rekonstruierten Daten ist durch Prüfung auf statistische Plausibilität + im Kontext der vorhandenen Merkmale zu validieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-44 + title_original_de: QM-44-9 Diffusion Imputation/Augmentation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-9_Diffusion%20Imputation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0208 +- id: MET-AI-DATA-QM-44-data-imputation-methoden + canonical_name: Data Imputation Methoden + description: Für KI-Trainingsdatensätze ist ein automatisiertes Verfahren zur Behandlung + fehlender Werte zwingend vorzusehen, das auf den spezifischen Datenmerkmalen und + dem Anwendungskontext basiert. Die eingesetzten Imputationsalgorithmen müssen + so konfiguriert werden, dass sie die statistische Integrität des Datensatzes wahren + und Verzerrungen in den Analyseergebnissen ausschließen. Eine Prüfung der Datenqualität + ist erforderlich, um sicherzustellen, dass die vervollständigten Werte die Aussagekraft + der nachfolgenden Modelle nicht beeinträchtigen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-44 + title_original_de: QM-44 Data Imputation Methoden + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44_Data%20Imputation%20Methods.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-45-prior-ermittlung + canonical_name: Prior Ermittlung + description: Vor Beginn der statistischen Auswertung von KI-Trainingsdaten ist systematisch + Expertenwissen zu ermitteln, um fundierte Vorannahmen über Parameterverteilungen + zu definieren. Dieser Prozess muss subjektive Unsicherheiten quantifizieren und + in die Modellbildung einfließen, um die Datenqualität vor der eigentlichen Analyse + zu sichern. Die gewonnenen Prior-Verteilungen sind durch dokumentierte Befragungsmethoden + oder historische Datenquellen nachvollziehbar zu begründen. Eine Validierung der + abgeleiteten Annahmen ist vor der ersten Datenverarbeitung zwingend durchzuführen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-45 + title_original_de: QM-45 Prior Ermittlung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-45_Prior%20Elicitation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-46-daten-standardisierung + canonical_name: Daten Standardisierung + description: Für KI-Trainingsdatensätze ist eine Normalisierung auf eine Standardverteilung + sicherzustellen, bei der der Mittelwert Null und die Standardabweichung Eins beträgt. + Diese Transformation muss vor dem Training durchgeführt werden, um unterschiedliche + Skalierungen der Eingabevariablen zu vereinheitlichen und die Konvergenz der Optimierungsalgorithmen + zu beschleunigen. Die Einhaltung dieser statistischen Parameter ist durch automatische + Prüfungen vor jedem Training zu verifizieren, um die Modellgenauigkeit zu gewährleisten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-46 + title_original_de: QM-46 Daten Standardisierung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-46_DataStandardizing.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-47-kovarianz-matrix + canonical_name: Kovarianz Matrix + description: Das System muss eine Kovarianzmatrix der Eingangsmerkmale generieren, + um statistische Abhängigkeiten im Trainingsdatensatz quantitativ zu erfassen. + Die Diagonalelemente dieser Matrix sind zwingend als Varianzen der einzelnen Merkmale + zu berechnen, während die Off-Diagonalen die linearen Zusammenhänge zwischen Merkmalspaaren + abbilden. Diese Metriken sind vor jedem Trainingslauf zu validieren, um eine stabile + Datenstruktur für multivariate Lernverfahren sicherzustellen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-47 + title_original_de: QM-47 Kovarianz Matrix + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-47_KovarianzMatrix.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0192 +- id: MET-AI-DATA-QM-48-eigenvektoren + canonical_name: Eigenvektoren + description: Das KI-Trainingsdatenset muss so strukturiert sein, dass die dominanten + latenten Merkmale bei der Modellverarbeitung ihre relative Ausrichtung beibehalten, + während sich lediglich ihre Intensität skaliert. Es ist sicherzustellen, dass + die Identifizierung dieser invarianten Richtungsvektoren durch quantitative Analyse + der Datenmatrix validiert wird. Die Skalierungsfaktoren dieser Merkmale sind als + messbare Qualitätsindikatoren für die Stabilität des Trainingsprozesses zu dokumentieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-48 + title_original_de: QM-48 Eigenvektoren + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-48_Eigenwerte_Vektoren.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-49-wasserstein-distanz + canonical_name: Wasserstein Distanz + description: Die Qualität von KI-Trainingsdaten ist durch die Wasserstein-Distanz + zu quantifizieren, welche den minimalen Transformationsaufwand zwischen der Trainings- + und der Referenzverteilung misst. Es ist sicherzustellen, dass dieser metrische + Wert unterhalb eines definierten Schwellenwerts bleibt, um signifikante Verteilungsverschiebungen + auszuschließen. Die Prüfung erfolgt durch den Vergleich der empirischen Verteilungsdaten + mittels des Earth-Mover-Ansatzes. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-49 + title_original_de: QM-49 Wasserstein Distanz + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-49_Wasserstein%20Distance.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-50-little-s-mcar-test + canonical_name: Little's MCAR Test + description: Das System muss den statistischen Little-Test anwenden, um zu validieren, + ob fehlende Werte in den KI-Trainingsdaten vollständig zufällig verteilt sind. + Es ist sicherzustellen, dass keine systematischen Abhängigkeiten zwischen den + Ausfallmustern und den verbleibenden Datenwerten bestehen. Eine signifikante Abweichung + von der Zufälligkeit ist als Qualitätsmangel zu dokumentieren und zu melden. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-50 + title_original_de: QM-50 Little's MCAR Test + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-50_Little's%20MCAR%20Test.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0208 +- id: MET-AI-DATA-QM-33-falsepositiverate + canonical_name: _FalsePositiveRate + description: Die Rate falsch positiver Klassifizierungen ist als Verhältnis der + fälschlich als positiv bewerteten negativen Instanzen zu allen tatsächlich negativen + Instanzen im Trainingsdatensatz zu ermitteln. Es ist sicherzustellen, dass dieser + Anteil einen definierten Schwellenwert nicht überschreitet, um die Datenqualität + und Modellzuverlässigkeit zu gewährleisten. Die Prüfung erfolgt durch statistische + Analyse der Ausgabeverteilung bei bekannten negativen Referenzdaten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-33 + title_original_de: QM-33_FalsePositiveRate + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-33_FalsePositiveRate.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0196 +- id: MET-AI-DATA-QM-51-10-kolmogorov-smirnov-test + canonical_name: -10 Kolmogorov-Smirnov-Test + description: Die Verteilung der KI-Trainingsdaten ist mittels eines nichtparametrischen + Tests auf signifikante Abweichungen von der Referenzverteilung zu prüfen. Dabei + ist die maximale Distanz zwischen der empirischen und der theoretischen kumulativen + Verteilungsfunktion zu ermitteln. Ein Abweichungswert, der einen definierten Schwellenwert + überschreitet, invalidiert die Datenqualität für den Trainingsprozess. Diese Prüfung + ist vor jedem Trainingsschritt durchzuführen, um die statistische Homogenität + sicherzustellen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-51 + title_original_de: QM-51-10 Kolmogorov-Smirnov-Test + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-51_DistributionAnalysis/QM-51-10_Kolmogorov%20Smirnov%20Test.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-51-11-radon-kolmogorov-smirnov-test-rks + canonical_name: -11 Radon-Kolmogorov-Smirnov Test (RKS) + description: Die Verteilung der KI-Trainingsdaten muss mittels des Radon-Kolmogorov-Smirnov-Tests + auf signifikante Abweichungen in höherdimensionalen Merkmalsräumen geprüft werden. + Es ist sicherzustellen, dass die statistische Signifikanz zwischen Referenz- und + Testverteilungen unterhalb eines definierten Schwellenwerts liegt, um Datenqualitätsverluste + zu vermeiden. Eine positive Abweichung ist als kritischer Fehler zu klassifizieren + und erfordert eine sofortige Datenbereinigung. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-51 + title_original_de: QM-51-11 Radon-Kolmogorov-Smirnov Test (RKS) + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-51_DistributionAnalysis/QM-51-11_Radon-Kolmogorov-Smirnov%20Test%20(RKS).md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-51-1-normalverteilung + canonical_name: -1 Normalverteilung + description: Die Verteilung der relevanten Qualitätsindikatoren im KI-Trainingsdatensatz + muss eine symmetrische, glockenförmige Struktur um den arithmetischen Mittelwert + aufweisen. Es ist sicherzustellen, dass die Datenpunkte in der Nähe des Erwartungswerts + signifikant dichter konzentriert sind als in den Randbereichen. Diese Eigenschaft + ist durch statistische Tests auf Normalverteilung zu verifizieren, bevor das Modell + in den produktiven Einsatz überführt wird. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-51 + title_original_de: QM-51-1 Normalverteilung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-51_DistributionAnalysis/QM-51-1_Normalverteilung.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-51-2-binomialverteilung + canonical_name: -2 Binomialverteilung + description: Die Qualität des KI-Trainingsdatensatzes ist durch die Analyse der + Fehlerraten bei binär klassifizierten Stichproben zu validieren. Es ist sicherzustellen, + dass die Verteilung der korrekten Vorhersagen dem statistischen Modell einer Binomialverteilung + entspricht, wobei jede Prüfung als unabhängiges Bernoulli-Experiment mit definiertem + Erfolgswahrscheinlichkeitswert betrachtet wird. Die Abweichung zwischen der beobachteten + Trefferquote und dem theoretischen Erwartungswert ist innerhalb eines festgelegten + Konfidenzintervalls zu prüfen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-51 + title_original_de: QM-51-2 Binomialverteilung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-51_DistributionAnalysis/QM-51-2_Binomialverteilung.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-51-3-exponentialverteilung + canonical_name: -3 Exponentialverteilung + description: Das System muss sicherstellen, dass die Zeitintervalle zwischen aufeinanderfolgenden + Störereignissen im Trainingsdatensatz einer Exponentialverteilung folgen. Diese + Verteilung ist erforderlich, um Prozesse mit konstanter Ausfallrate und unabhängigen + Ereignissen korrekt abzubilden. Die Einhaltung dieser statistischen Eigenschaft + ist durch eine formale Verteilungsanalyse bei der Datenqualitätsprüfung zu verifizieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-51 + title_original_de: QM-51-3 Exponentialverteilung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-51_DistributionAnalysis/QM-51-3_Exponentialverteilung.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-51-4-gleichverteilung + canonical_name: -4 Gleichverteilung + description: Die Verteilung der generierten Trainingsdaten muss innerhalb des definierten + Wertebereichs eine gleichmäßige Wahrscheinlichkeitsdichte aufweisen, sodass kein + einzelner Subbereich gegenüber anderen bevorzugt wird. Es ist sicherzustellen, + dass jede mögliche Ausprägung im zulässigen Intervall statistisch gleich häufig + vorkommt. Diese Gleichverteilung ist durch eine systematische Prüfung der Datenverteilung + auf Abweichungen von der Idealform zu validieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-51 + title_original_de: QM-51-4 Gleichverteilung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-51_DistributionAnalysis/QM-51-4_Gleichverteilung.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-51-5-chi-quadrat-verteilung + canonical_name: -5 Chi-Quadrat Verteilung + description: Das System muss die Verteilung der Abweichungen zwischen den KI-Trainingsdaten + und den erwarteten Modellen mittels einer Chi-Quadrat-Prüfung quantifizieren. + Es ist sicherzustellen, dass die berechneten Teststatistiken signifikante Abweichungen + in den Varianzen der Eingabedaten identifizieren, um Datenqualitätsmängel zu validieren. + Eine regelmäßige Überprüfung dieser Kennzahlen ist erforderlich, um die statistische + Konsistenz des Datensatzes nachzuweisen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-51 + title_original_de: QM-51-5 Chi-Quadrat Verteilung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-51_DistributionAnalysis/QM-51-5_Chi-Quadrat%20Verteilung.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-51-6-t-verteilung + canonical_name: -6 t-Verteilung + description: Für die Validierung von KI-Modellen auf Basis kleiner Datensätze muss + die Unsicherheit der Stichprobenmittelwerte mittels einer t-Verteilung quantifiziert + werden. Es ist sicherzustellen, dass die berechneten Konfidenzintervalle die erhöhte + Varianz bei geringen Fallzahlen durch dickere Verteilungsschwänze adäquat abbilden. + Die Prüfung erfolgt durch den Vergleich der empirischen Datenverteilung mit dem + theoretischen Modell, um Ausreißereffekte robust zu erfassen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-51 + title_original_de: QM-51-6 t-Verteilung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-51_DistributionAnalysis/QM-51-6_t-Verteilung.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-51-7-f-verteilung + canonical_name: -7 F-Verteilung + description: Die Verteilung der Varianzquotienten aus den KI-Trainingsdaten muss + statistisch auf Homogenität geprüft werden, um signifikante Abweichungen zwischen + den Subgruppen zu identifizieren. Es ist sicherzustellen, dass die Varianzunterschiede + durch eine F-Verteilung-basierte Signifikanzanalyse quantifiziert werden, bevor + Daten für das Modelltraining freigegeben werden. Diese Prüfung ist zwingend erforderlich, + um die Datenqualität und die statistische Validität der Trainingspopulation zu + gewährleisten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-51 + title_original_de: QM-51-7 F-Verteilung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-51_DistributionAnalysis/QM-51-7_F-Verteilung.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-51-8-gamma-verteilung + canonical_name: -8 Gamma Verteilung + description: Das System muss die statistische Verteilung von Wartezeiten zwischen + unabhängigen Ereignissen im Trainingsdatensatz auf Konformität mit der Gamma-Verteilung + prüfen. Dabei sind die Form- und Skalenparameter der Daten explizit zu extrahieren + und mit den theoretischen Erwartungswerten abzugleichen. Eine Abweichung der empirischen + Dichtefunktion von dem modellierten Gamma-Verlauf ist als Qualitätsmangel zu dokumentieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-51 + title_original_de: QM-51-8 Gamma Verteilung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-51_DistributionAnalysis/QM-51-8_Gamma%20Verteilung.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-51-9-weibull-verteilung + canonical_name: -9 Weibull Verteilung + description: Die Verteilung der KI-Trainingsdaten muss mittels eines parametrischen + Modells analysiert werden, das die Zuverlässigkeit von Datenpunkten über deren + Lebensdauer abbildet. Es ist sicherzustellen, dass die Formparameter des Modells + flexibel an die spezifischen Ausfallmuster der verwendeten Datensätze angepasst + werden, um eine realistische Qualitätsbewertung zu ermöglichen. Die Einhaltung + dieser Verteilungsannahmen ist bei der Validierung der Datenqualität durchzuführen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-51 + title_original_de: QM-51-9 Weibull Verteilung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-51_DistributionAnalysis/QM-51-9_Weibull%20Verteilung.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-51-verteilungstypen + canonical_name: Verteilungstypen + description: Das System muss die statistische Verteilung von Trainingsdaten quantifizieren, + um diskrete und stetige Zufallsvariablen korrekt zu modellieren. Es ist sicherzustellen, + dass für jeden Datentyp die passende Wahrscheinlichkeitsfunktion identifiziert + und validiert wird. Die Analyseverfahren müssen nachweislich die Wahrscheinlichkeit + spezifischer Ereignisse im probabilistischen System erfassen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-51 + title_original_de: QM-51 Verteilungstypen + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-51_DistributionAnalysis/QM-51_DistributionTypes.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-52-01-durchschnittswert + canonical_name: -01 Durchschnittswert + description: Die durchschnittliche Abweichung eines definierten Merkmals innerhalb + des KI-Trainingsdatensatzes ist als zentraler Qualitätsindikator zu berechnen. + Diese Kennzahl muss aus der Summe aller Einzelwerte dividiert durch die Gesamtanzahl + der Datapunkte ermittelt werden. Eine Prüfung auf die Stabilität des Ergebnisses + gegenüber Ausreißern ist zwingend erforderlich, da der Mittelwert bei Extremwerten + verzerrt sein kann. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-52 + title_original_de: QM-52-01 Durchschnittswert + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-52-01_Average%20Value.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-52-02-median + canonical_name: -02 Median + description: Die Verteilung der KI-Trainingsdaten muss so analysiert werden, dass + der Median als robustes Maß für die zentrale Tendenz ermittelt wird. Diese Kennzahl + ist sicherzustellen, um den Einfluss von Ausreißern auf die Datenqualität zu minimieren. + Eine Prüfung muss nachweisen, dass der berechnete Wert die Mitte der sortierten + Datenmenge repräsentiert. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-52 + title_original_de: QM-52-02 Median + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-52-02_Median.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-52-03-modus + canonical_name: -03_Modus + description: Die Verteilung der Trainingsdaten ist auf den häufigsten Wert oder + die häufigsten Werte zu analysieren, um den Modus der Datenqualität zu bestimmen. + Es ist sicherzustellen, dass die Identifikation dieser dominanten Werte durch + einen validierten Zählprozess erfolgt, wobei auch das gleichzeitige Auftreten + mehrerer Modi zu berücksichtigen ist. Die Prüfung muss nachweisen, dass die ermittelten + Modalwerte die tatsächliche Häufigkeitsverteilung im Datensatz korrekt abbilden. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-52 + title_original_de: QM-52-03_Modus + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-52-03_Modus.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-52-04-standardabweichung + canonical_name: -04 Standardabweichung + description: Die Variabilität der KI-Trainingsdaten ist durch die Berechnung der + Standardabweichung um den arithmetischen Mittelwert quantitativ zu erfassen. Ein + zulässiger Grenzwert für diese Streuung muss vor dem Start des Trainingsprozesses + definiert und im laufenden Betrieb kontinuierlich überwacht werden. Abweichungen, + die diesen definierten Schwellenwert überschreiten, sind als Qualitätsmangel zu + klassifizieren und auszuwerten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-52 + title_original_de: QM-52-04 Standardabweichung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-52-04_StandardDeviation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-52-05-streuung + canonical_name: -05 Streuung + description: Das System muss die statistische Variabilität der Trainingsdaten quantifizieren, + um die Homogenität der Eingabedaten zu validieren. Es ist sicherzustellen, dass + Kennzahlen wie Standardabweichung oder Interquartilsabstand berechnet werden, + um Abweichungen vom Mittelwert zu erfassen. Die Einhaltung definierter Schwellenwerte + für diese Streuungsmaße ist vor jedem Training zu prüfen und bei Überschreitung + zu melden. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-52 + title_original_de: QM-52-05 Streuung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-52-05_Streuung.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-52-06-spannweite + canonical_name: -06 Spannweite + description: Die Spannweite der Trainingsdaten ist als Differenz zwischen dem maximalen + und minimalen Wert eines Merkmals zu berechnen, um den gesamten Wertebereich zu + quantifizieren. Es ist sicherzustellen, dass dieser Indikator regelmäßig auf Ausreißer + und Datenlücken überprüft wird, da er besonders empfindlich gegenüber Extremwerten + reagiert. Die Einhaltung definierter Grenzwerte ist zwingend erforderlich, um + die Stabilität des KI-Modells während des Trainings zu gewährleisten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-52 + title_original_de: QM-52-06 Spannweite + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-52-06_Spannweite.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-52-07-interquartilsabstand + canonical_name: -07 Interquartilsabstand + description: Die Spannweite des mittleren Datenbereichs muss durch die Differenz + zwischen dem oberen und unteren Quartil quantifiziert werden, um die Variabilität + der Trainingsdaten zu bewerten. Dieser Indikator ist sicherzustellen, um Ausreißer + in den Eingabedaten zu identifizieren und die Datenqualität für das KI-Modell + zu validieren. Die Berechnung ist bei jedem Daten-Update durchzuführen und muss + dokumentiert werden, um die Konsistenz der Verteilung nachzuweisen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-52 + title_original_de: QM-52-07 Interquartilsabstand + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-52-07_Interquartilsabstand.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0339 +- id: MET-AI-DATA-QM-52-08-visualisierungsmethoden + canonical_name: -08 Visualisierungsmethoden + description: Die Qualität der KI-Trainingsdaten ist durch automatisierte Visualisierungsverfahren + zu validieren, um Anomalien und Verteilungsabweichungen in Echtzeit zu identifizieren. + Es ist sicherzustellen, dass grafische Repräsentationen statistischer Kennzahlen + genutzt werden, um komplexe Muster und Korrelationen zwischen Variablen effizient + zu analysieren. Die Prüfung erfolgt durch den Abgleich der visuellen Ergebnisse + mit definierten Qualitätskriterien, um die Eignung der Datenbasis für den Trainingsprozess + nachzuweisen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-52 + title_original_de: QM-52-08 Visualisierungsmethoden + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-52-08_VisualizationTypes.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-52-techniken-der-deskriptiven-statistik + canonical_name: Techniken der deskriptiven Statistik + description: Das System muss vor dem Training einer KI-Modellierung deskriptive + Kennwerte wie Mittelwert, Standardabweichung und Verteilungsform der Eingabedaten + berechnen, um systematische Verzerrungen oder Ausreißer zu identifizieren. Diese + statistischen Analysen sind zwingend erforderlich, um die Datenqualität zu validieren + und als Basis für nachfolgende Modellierungsentscheidungen zu dienen. Eine Prüfung + der Ergebnisse ist sicherzustellen, bevor der Trainingsprozess initiiert wird. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-52 + title_original_de: QM-52 Techniken der deskriptiven Statistik + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-52_Descriptive-Statistics.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-20-scree-plot + canonical_name: Scree-Plot + description: Für die Validierung von KI-Trainingsdaten ist ein Scree-Plot zur Visualisierung + der Eigenwerte in absteigender Reihenfolge zwingend erforderlich. Dieser Plot + dient dazu, die optimale Anzahl an Hauptkomponenten für die Dimensionsreduktion + durch Identifikation des charakteristischen Knickpunkts zu ermitteln. Ist die + Kurve nach diesem Punkt signifikant abgeflacht, sind weitere Komponenten als irrelevant + für die Varianzaufklärung zu betrachten und auszuschließen. Die Einhaltung dieses + Kriteriums ist vor jedem Training zu prüfen, um eine Überdimensionierung des Modells + zu verhindern. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-20 + title_original_de: QM-20 Scree-Plot + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-54_ChartTypes/QM-20_Scree-Plot.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-24-bi-plot + canonical_name: Bi-Plot + description: Das System muss ein zweidimensionales Visualisierungstool implementieren, + das die Ergebnisse einer Hauptkomponentenanalyse simultan mit den ursprünglichen + Variablenvektoren darstellt. Die Qualität der KI-Trainingsdaten ist durch die + korrekte Projektion aller relevanten Merkmale auf die ersten beiden Hauptkomponenten + sicherzustellen. Eine Prüfung ist durchzuführen, um zu verifizieren, dass sowohl + die Datenpunkte als auch die Variablenladungen in einem einzigen Diagramm konsistent + und ohne Informationsverlust abgebildet werden. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-24 + title_original_de: QM-24 Bi-Plot + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-54_ChartTypes/QM-24_Biplot.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0169 +- id: MET-AI-DATA-QM-42-qq-diagramm + canonical_name: QQ-Diagramm + description: Es ist sicherzustellen, dass die Verteilung der KI-Trainingsdaten durch + einen quantilenbasierten Plot mit der Referenzverteilung verglichen wird, um Abweichungen + in den Datenqualitätsparametern zu identifizieren. Die grafische Gegenüberstellung + der Quantilwerte muss eine visuelle Prüfung auf Normalverteilung und Ausreißer + ermöglichen. Diese Analyse ist vor jedem Trainingsschritt durchzuführen und muss + dokumentiert werden, um die statistische Integrität der Eingabedaten zu gewährleisten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-42 + title_original_de: QM-42 QQ-Diagramm + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-54_ChartTypes/QM-42_QQ-Diagramm.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-54-1-shap-summaryplot + canonical_name: -1 SHAP-Summaryplot + description: Das System muss für jedes trainierte Modell einen aggregierten Feature-Importance-Plot + generieren, der den Beitrag einzelner Eingangsvariablen zur Vorhersageabweichung + quantifiziert. Die Darstellung ist so zu gestalten, dass die Rangfolge der Merkmale + und deren Einflussrichtung (positiv oder negativ) auf die Ergebnisverteilung eindeutig + identifizierbar sind. Eine manuelle Prüfung ist sicherzustellen, um die Plausibilität + der abgeleiteten Shapley-Werte gegenüber den Rohdaten zu validieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-54 + title_original_de: QM-54-1 SHAP-Summaryplot + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-54_ChartTypes/QM-54-1_SHAP-Summaryplot.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-54-2-shap-dependence-plot + canonical_name: -2 SHAP-Dependence-Plot + description: Das System muss die Sensitivität einzelner Eingabevariablen gegenüber + den Modellvorhersagen durch additive Erklärungsansätze quantifizieren. Es ist + sicherzustellen, dass die grafische Darstellung die nichtlineare Beziehung zwischen + Merkmalswerten und deren Beitrag zur Ausgabe eindeutig abbildet. Diese Analyse + ist vor der Freigabe des Modells zu prüfen, um die Nachvollziehbarkeit der Datenqualität + und der Feature-Wirkung zu validieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-54 + title_original_de: QM-54-2 SHAP-Dependence-Plot + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-54_ChartTypes/QM-54-2_SHAP-Dependence-Plot.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-54-3-shap-force-plot + canonical_name: -3 SHAP-Force-Plot + description: Das System muss für jedes generierte Vorhersageergebnis eine additive + Merkmalsbeitragsanalyse bereitstellen, die die Abweichung vom Basiswert quantifiziert. + Diese Darstellung ist so zu gestalten, dass der Einfluss einzelner Eingangsvariablen + auf die finale Klassifikation durch farblich kodierte Segmente visuell hervorgehoben + wird. Die Plausibilität der dargestellten Datenbeiträge ist durch einen automatisierten + Validierungsprozess auf Konsistenz mit den Trainingsdaten zu prüfen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-54 + title_original_de: QM-54-3 SHAP-Force-Plot + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-54_ChartTypes/QM-54-3_SHAP-Force-Plot.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-54-charttypes + canonical_name: ChartTypes + description: Das System muss eine validierte Bibliothek an Visualisierungstypen + bereitstellen, die spezifisch auf die Erkennung von Mustern und Trends in KI-Trainingsdaten + ausgelegt ist. Es ist sicherzustellen, dass jede grafische Darstellung die strukturelle + Integrität der zugrundeliegenden Datenqualität bewahrt und keine Verzerrungen + erzeugt. Die Eignung der gewählten Charttypen für die jeweilige Datenstruktur + ist vor der Ausgabe durch eine automatisierte Prüfung zu verifizieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-20 + - QM-24 + - QM-42 + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-54 + title_original_de: QM-54 ChartTypes + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive%20Statistics/QM-54_ChartTypes/QM-54_ChartTypes.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-53-1-logistische-regression + canonical_name: -1 Logistische Regression + description: Für KI-Modelle mit binärer oder multiklassiger Klassifikation ist sicherzustellen, + dass die zugrundeliegende logistische Regression Wahrscheinlichkeiten basierend + auf definierten Eingangsvariablen korrekt berechnet. Die Gültigkeit des Modells + ist durch die Prüfung nachzuweisen, ob der ermittelte Schwellenwert eine zuverlässige + Trennung der Ergebnisgruppen gewährleistet. Eine fehlerhafte Kalibrierung der + Wahrscheinlichkeiten ist als Qualitätsmangel zu bewerten und muss durch Validierung + der Trainingsdaten ausgeschlossen werden. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-53 + title_original_de: QM-53-1 Logistische Regression + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-53_Regression-Methoden/QM-53-1_LogisticRegression.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-53-2-lineare-regression + canonical_name: -2 Lineare Regression + description: Für KI-Trainingsdatensätze ist sicherzustellen, dass eine lineare Abhängigkeit + zwischen den Eingabe- und Zielvariablen durch statistische Regressionsanalysen + quantifiziert wird. Die Güte der Anpassung ist mittels geeigneter Kennzahlen zu + prüfen, um die Vorhersagequalität des Modells valide zu bewerten. Eine signifikante + lineare Korrelation muss nachgewiesen werden, bevor das Modell für den Einsatz + in der Produktion freigegeben wird. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-53 + title_original_de: QM-53-2 Lineare Regression + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-53_Regression-Methoden/QM-53-2_LinearRegression.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-53-regression-methoden + canonical_name: Regression Methoden + description: Das System muss statistische Regressionsverfahren anwenden, um den + funktionalen Zusammenhang zwischen den Eingabevariablen und den Zielwerten im + KI-Trainingsdatensatz zu quantifizieren. Die Güte der Modellanpassung ist durch + die Analyse der Residualfehler systematisch zu validieren, um Abweichungen von + der theoretischen Abhängigkeit zu identifizieren. Eine vollständige Dokumentation + der identifizierten Prädiktoren und der resultierenden Fehlerverteilung ist als + Nachweis der Datenqualität sicherzustellen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-53 + title_original_de: QM-53 Regression Methoden + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-53_Regression-Methoden/QM-53_Regression%20Methods.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-55-bestimmtheitsmass + canonical_name: Bestimmtheitsmaß + description: Für KI-Trainingsdatensätze ist ein quantitatives Maß zur Bewertung + der Varianzaufklärung durch die gewählten Eingangsmerkmale sicherzustellen. Dieser + Indikator muss den prozentualen Anteil der Gesamtvarianz der Zielvariable erfassen, + der durch das Modell erklärt werden kann. Die Prüfung ist ausschließlich für lineare + Abhängigkeitsstrukturen zulässig und erfordert die Berechnung des Koeffizienten + der Determination. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-19 + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-55 + title_original_de: QM-55 Bestimmtheitsmaß + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-55_Coefficient%20of%20determination%20(PCA).md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-56-1-min-max-skalierung + canonical_name: -1 Min/Max Skalierung + description: Für das Training von KI-Modellen ist sicherzustellen, dass alle numerischen + Eingabevariablen mittels Min-Max-Normalisierung auf einen definierten Wertebereich + transformiert werden. Diese Skalierung muss die Extremwerte jedes Features berücksichtigen, + um eine Verzerrung durch unterschiedliche Maßstäbe zu verhindern. Die korrekte + Anwendung dieser Transformation ist vor jedem Trainingslauf zu prüfen, um die + Stabilität und Konvergenz des Modells zu gewährleisten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-56 + title_original_de: QM-56-1 Min/Max Skalierung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-56_Normalization/QM-56-1_MinMaxDatascaling.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-56-2-z-score-normalization + canonical_name: -2 Z-Score Normalization + description: Das System muss vor dem Training eine Standardisierung der Eingabemerkmale + durchführen, um einen Erwartungswert von null und eine Varianz von eins zu erreichen. + Diese Transformation ist zwingend erforderlich, um numerische Verzerrungen durch + unterschiedliche Skalierungen zu eliminieren und die Stabilität von Regularisierungsverfahren + zu gewährleisten. Die korrekte Anwendung der Normalisierung ist durch automatische + Prüfungen auf statistische Kennwerte nach der Verarbeitung zu verifizieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-56 + title_original_de: QM-56-2 Z-Score Normalization + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-56_Normalization/QM-56-2_Z-Score%20Normalization.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-56-3-l1-normalization + canonical_name: -3 L1-Normalization + description: Für KI-Trainingsdaten ist sicherzustellen, dass Vektoren mittels L1-Normalisierung + skaliert werden, sodass die Summe der absoluten Komponentenwerte exakt eins ergibt. + Diese Maßnahme gewährleistet die Vergleichbarkeit von Merkmalen unterschiedlicher + Wertebereiche und ermöglicht die Interpretation als gewichtete Verteilung. Die + Einhaltung dieser Normierung ist durch eine automatisierte Prüfprozedur vor jedem + Trainingslauf zu verifizieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-56 + title_original_de: QM-56-3 L1-Normalization + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-56_Normalization/QM-56-3_L1-Normalization.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0208 +- id: MET-AI-DATA-QM-56-4-logarithmische-transformation + canonical_name: -4 Logarithmische Transformation + description: Für KI-Trainingsdatensätze mit positiver Schiefe oder heteroskedastischer + Varianz ist eine logarithmische Skalierung der numerischen Merkmale zwingend vorzusehen. + Diese Transformation muss so angewendet werden, dass die Datenverteilung annähernd + normalisiert und der Einfluss extremer Ausreißer signifikant reduziert wird. Die + Wirksamkeit der Maßnahme ist durch statistische Tests auf Varianzstabilität und + Verteilungsform vor dem Training zu validieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-56 + title_original_de: QM-56-4 Logarithmische Transformation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-56_Normalization/QM-56-4_LogarithmicTransformation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-56-5-l2-normalisierung + canonical_name: -5 L2-Normalisierung + description: Die Eingabevektoren des KI-Trainingsdatensatzes sind vor der Verarbeitung + so zu skalieren, dass ihre euklidische Norm exakt den Wert eins annimmt. Diese + Maßnahme stellt sicher, dass die geometrische Distanzberechnung nicht durch unterschiedliche + Wertebereiche der einzelnen Merkmale verzerrt wird. Die Einhaltung dieser Normierung + ist durch eine automatisierte Validierung der Vektorlängen nach jedem Normalisierungsschritt + zu prüfen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-56 + title_original_de: QM-56-5 L2-Normalisierung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-56_Normalization/QM-56-5_L2-Normalization.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-56-6-batch-normalization + canonical_name: -6 Batch Normalization + description: Für neuronale Netze ist sicherzustellen, dass Aktivierungswerte pro + Schicht durch eine statistische Normalisierung über Mini-Batches stabilisiert + werden, um die Verteilungseigenschaften zu konsolidieren. Die Berechnung von Mittelwert + und Standardabweichung muss so erfolgen, dass systematische Verzerrungen durch + Regularisierungsmaßnahmen ausgeschlossen werden. Die Einhaltung dieser Verfahren + ist durch eine Prüfung der Datenverteilung während des Trainings zu verifizieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-56 + title_original_de: QM-56-6 Batch Normalization + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-56_Normalization/QM-56-6_Batch%20Normalization.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-56-normalisierung + canonical_name: Normalisierung + description: Für KI-Trainingsdaten ist eine statistische Normalisierung durchzuführen, + um numerische Werte auf einen einheitlichen Skalierungsbereich oder eine definierte + Verteilung zu transformieren. Diese Maßnahme ist sicherzustellen, um die Konsistenz + der Eingabedaten und die Vergleichbarkeit von Merkmalen über verschiedene Datensätze + hinweg zu gewährleisten. Die Einhaltung der definierten statistischen Parameter + ist vor jedem Trainingslauf durch einen automatisierten Validierungsprozess zu + prüfen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-56 + title_original_de: QM-56 Normalisierung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-56_Normalization/QM-56_Normalization.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-57-1-synthetic-minority-over-sampling-techn + canonical_name: -1 Synthetic Minority Over-sampling Technique + description: Das KI-Trainingsdatenset muss durch synthetische Generierung von Minderheitsklassen-Instanzen + ausgeglichen werden, um eine Verzerrung zugunsten der Mehrheitsklasse zu vermeiden. + Die Erzeugung neuer Datenpunkte ist durch Interpolation zwischen existierenden + Beispielen und deren k-nächsten Nachbarn im Merkmalsraum sicherzustellen. Eine + Validierung der resultierenden Klassenverteilung ist vor dem Training des Modells + durchzuführen, um die statistische Repräsentativität der Minderheit zu gewährleisten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-57 + title_original_de: QM-57-1 Synthetic Minority Over-sampling Technique + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-57_Fairness-Methoden/QM-57-1_SMOTE.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-57-2-lfr + canonical_name: -2 LFR + description: Das System muss während des Trainingsprozesses eine repräsentative + Merkmalsabbildung generieren, die sensible Attribute von den eigentlichen Vorhersagefeatures + entkoppelt. Dies ist sicherzustellen, indem die Datenpunkte auf eine Menge von + Prototypen projiziert werden, wobei Bias-Reduktion und Vorhersagegenauigkeit simultan + optimiert werden. Die Wirksamkeit dieser Entkopplung ist durch quantitative Metriken + zur Fairness im latenten Raum zu prüfen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-57 + title_original_de: QM-57-2 LFR + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-57_Fairness-Methoden/QM-57-2_LFR.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0196 +- id: MET-AI-DATA-QM-58-1-laplacescher-mechanismus + canonical_name: -1 Laplacescher Mechanismus + description: Das KI-Trainingsmodell muss bei der Generierung von Ergebnissen aus + sensiblen Datensätzen ein stochastisches Rauschen gemäß einer Laplace-Verteilung + hinzufügen, um differentielle Privatsphäre zu gewährleisten. Die Amplitude dieses + Rauschens ist dynamisch an den definierten Datenschutzparameter zu koppeln, wobei + eine Erhöhung des Parameters zwingend eine proportionale Steigerung der Störgröße + erfordert. Die Wirksamkeit dieser Maßnahme ist durch eine Prüfung der Datenqualität + zu verifizieren, die sicherstellt, dass der Schutz individueller Datenpunkte trotz + der hinzugefügten Unsicherheit die statistische Nützlichkeit der aggregierten + Ergebnisse nicht vollständig kompromittiert. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-58 + title_original_de: QM-58-1 Laplacescher Mechanismus + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-58_DiffentialPrivacyMethods/QM-58-1_Laplacescher%20Mechanismus.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-58-2-exponentialmechanismus + canonical_name: -2 Exponentialmechanismus + description: Das System muss bei der Auswahl von Ergebnissen aus KI-Trainingsdaten + einen Wahrscheinlichkeitsmechanismus anwenden, der die Ausgabe basierend auf einem + Nutzenwert steuert. Die Verteilung der Wahrscheinlichkeiten ist so zu gestalten, + dass Ergebnisse mit hohem Risiko für die Offenlegung individueller Datenpunkte + signifikant seltener generiert werden. Eine Prüfung ist sicherzustellen, ob die + gewählte Ausgabe die Privatsphäre der einzelnen Datensätze unter Einhaltung definierter + Grenzen effektiv schützt. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-58 + title_original_de: QM-58-2 Exponentialmechanismus + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-58_DiffentialPrivacyMethods/QM-58-2_Exponentialmechanismus.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-58-3-lokale-differentielle-privatsphaere + canonical_name: -3 Lokale differentielle Privatsphäre + description: Die Integrität der KI-Trainingsdaten ist sicherzustellen, indem jedes + individuelle Datenelement vor der Übermittlung an den zentralen Server durch einen + lokal auf dem Endgerät ausgeführten Rauschalgorithmus anonymisiert wird. Es ist + zu prüfen, dass die Aggregation der Daten erst nach dieser lokalen Störung erfolgt, + um eine Rekonstruktion der Rohdaten auf Serverseite auszuschließen. Dieser Prozess + gewährleistet, dass die Differenzialprivatsphäre bereits auf der Ebene des Nutzers + implementiert ist und keine vertraulichen Informationen ungeschützt das Gerät + verlassen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-58 + title_original_de: QM-58-3 Lokale differentielle Privatsphäre + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-58_DiffentialPrivacyMethods/QM-58-3_LokaleDifferentiellePrivatsphäre.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0143 +- id: MET-AI-DATA-QM-58-methoden-der-differential-privacy + canonical_name: Methoden der "Differential Privacy" + description: Das KI-Trainingsverfahren muss einen mathematisch fundierten Mechanismus + zur Hinzufügung von kontrolliertem Rauschen implementieren, um die Rekonstruierbarkeit + individueller Datensätze im Ergebnis zu verhindern. Die Sensitivität der verwendeten + Abfragen ist vor der Datenverarbeitung zu ermitteln, um die Rauschstärke entsprechend + der Datenschutzanforderungen zu dimensionieren. Eine Validierung ist durchzuführen, + um sicherzustellen, dass die generierten Modelle keine Rückschlüsse auf einzelne + Trainingsbeispiele zulassen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-58 + title_original_de: QM-58 Methoden der "Differential Privacy" + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-58_DiffentialPrivacyMethods/QM-58_DifferentialPrivacyMethods.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-59-1-metadatenkataloge + canonical_name: -1 Metadatenkataloge + description: Für alle im Rahmen von KI-Trainingsprozessen genutzten Datensätze ist + ein zentraler Metadatenkatalog als verbindliche Referenzinstanz zu etablieren. + Dieser Katalog muss strukturelle Merkmale, Herkunftsinformationen sowie Qualitätsmetriken + jeder einzelnen Datenquelle eindeutig dokumentieren und für autorisierte Prüfer + abrufbar halten. Die Vollständigkeit und Konsistenz der gespeicherten Metadaten + sind vor jedem Trainingslauf systematisch zu validieren, um eine nachvollziehbare + Datenherkunft sicherzustellen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-59 + title_original_de: QM-59-1 Metadatenkataloge + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-59%20Metadaten/QM-59-1_Metadatenkataloge.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-59-2-integration-von-metadaten + canonical_name: -2 Integration von Metadaten + description: Der Trainingsdatensatz muss um strukturelle Metadaten erweitert werden, + um dem Modell kontextuelle Parameter wie Zeitstempel oder räumliche Zuordnungen + bereitzustellen. Diese Zusatzinformationen sind so zu kodieren, dass sie die Erkennung + von Mustern ermöglichen, welche in den reinen Rohdaten nicht identifizierbar sind. + Die Wirksamkeit dieser Erweiterung ist durch einen Vergleich der Modellgenauigkeit + vor und nach der Integration zu verifizieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-59 + title_original_de: QM-59-2 Integration von Metadaten + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-59%20Metadaten/QM-59-2_Integration%20von%20Metadaten.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-59-3-metadaten-vollstaendigkeit + canonical_name: -3_Metadaten-Vollständigkeit + description: Für KI-Trainingsdatensätze muss der Anteil der Einträge mit vollständig + dokumentierten Herkunftsinformationen quantifiziert werden. Es ist sicherzustellen, + dass für jeden Datensatz die Ursprungsquelle, der Erfassungszeitpunkt und die + verantwortliche Instanz lückenlos erfasst sind. Diese Vollständigkeit ist zwingend + zu prüfen, um die Rückverfolgbarkeit der Datenherkunft im gesamten Datenbestand + nachzuweisen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-59 + title_original_de: QM-59-3_Metadaten-Vollständigkeit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-59%20Metadaten/QM-59-3_Metadaten-Vollständigkeit.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-59-metadatenmanagement + canonical_name: Metadatenmanagement + description: Für KI-Trainingsdatensätze ist ein automatisiertes Metadatenmanagement + durchzuführen, das Klassifizierung und Extraktion zur strukturierten Erfassung + von Datenmerkmalen nutzt. Die Integrität der Metadaten ist kontinuierlich auf + Vollständigkeit, Konsistenz und Genauigkeit zu prüfen, um deren Eignung für spezifische + Lernziele sicherzustellen. Eine valide Nutzung der Metadaten erfordert deren Nachweisbarkeit + in einem zentralen Katalog, der den Zugriff auf die Qualitätskriterien für alle + Anwendungsfälle gewährleistet. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-59 + title_original_de: QM-59 Metadatenmanagement + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-59%20Metadaten/QM-59_Metadatenmanagement.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0175 +- id: MET-AI-DATA-QM-60-provinienztracking-blockchain + canonical_name: Provinienztracking-Blockchain + description: Das System muss für jede KI-Trainingsinstanz einen unveränderlichen + Lebenszyklus-Eintrag in einer dezentralen Ledger-Struktur generieren, der Ursprung, + Verarbeitungsschritte und Weitergabe dokumentiert. Diese Einträge sind so zu gestalten, + dass eine lückenlose und fälschungssichere Rückverfolgung der Datenherkunft jederzeit + möglich ist. Die Integrität der gespeicherten Metadaten ist durch kryptografische + Verfahren gegen nachträgliche Manipulationen zu schützen. Eine Prüfung der Vollständigkeit + dieser Provenienzketten ist vor jedem Trainingsschritt durchzuführen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-60 + title_original_de: QM-60 Provinienztracking-Blockchain + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-60_Provinienztracking-Blockchain.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-61-1-marginal-contribution-approach + canonical_name: -1 Marginal Contribution Approach + description: Für die Validierung von KI-Trainingsdaten ist der marginale Einfluss + einzelner Datensätze auf die Modellleistung durch systematisches Hinzufügen oder + Entfernen zu quantifizieren. Es ist sicherzustellen, dass dieser Beitrag als messbare + Veränderung der Gesamtnote des Systems bewertet wird, um die Datenqualität zu + verifizieren. Die Prüfung muss nachweisen, dass relevante Datenpunkte einen signifikanten + positiven Effekt auf die Performance aufweisen oder bei Ausschluss eine Verschlechterung + verursachen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-61 + title_original_de: QM-61-1 Marginal Contribution Approach + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-61_Datenbewertungsmethoden/QM-61-1_Marginal%20Contribution%20Importance.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-61-2-data-re-weighting-strategies + canonical_name: -2 Data Re-weighting Strategies + description: Das System muss Mechanismen implementieren, um die Gewichtung von Trainingsdatenpunkten + dynamisch anzupassen, um Verzerrungen auszugleichen und die Modellleistung zu + optimieren. Es ist sicherzustellen, dass die Re-Weighting-Strategie explizit dokumentiert + und auf ihre Wirksamkeit zur Sicherstellung der Fairness überprüft wird. Die Anpassung + der Datenprioritäten ist so zu konfigurieren, dass sie die Zielkonflikte zwischen + Genauigkeit und Gleichbehandlung adressiert. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-61 + title_original_de: QM-61-2 Data Re-weighting Strategies + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-61_Datenbewertungsmethoden/QM-61-2_Data%20Re-weighting%20Strategies.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0185 +- id: MET-AI-DATA-QM-61-3-neural-dynamic-data-valuation + canonical_name: -3 Neural Dynamic Data Valuation + description: Das System muss eine dynamische Bewertungsfunktion implementieren, + die den Beitrag einzelner Trainingsdatenpunkte im Kontext der aktuellen Inferenzleistung + quantifiziert. Dabei ist sicherzustellen, dass die Sensitivität der Ausgabe gegenüber + Datenänderungen kontinuierlich analysiert wird, um eine adaptive Gewichtung der + Datensätze zu ermöglichen. Die Validierung dieser Mechanismen erfolgt durch den + Nachweis einer zeitabhängigen Anpassung der Datenprioritäten basierend auf den + aktuellen Modellzuständen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-61 + title_original_de: QM-61-3 Neural Dynamic Data Valuation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-61_Datenbewertungsmethoden/QM-61-3_Neural%20Dynamic%20Data%20Valuation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-61-datenpunkt-einflussanalyse + canonical_name: Datenpunkt-Einflussanalyse + description: Das System muss die individuelle Gewichtung jedes Trainingsdatums auf + die finale Modellperformance quantifizieren, um kritische Ausreißer oder redundante + Einträge zu identifizieren. Es ist sicherzustellen, dass Datenpunkte mit hohem + Informationsgehalt oder signifikanter Wirkung auf die Robustheit explizit nachvollziehbar + gekennzeichnet werden. Eine Prüfung muss validieren, dass die Entfernung weniger + relevanter Samples die allgemeine Vorhersagegenauigkeit nicht unerlaubt mindert. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-61 + title_original_de: QM-61 Datenpunkt-Einflussanalyse + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-61_Datenbewertungsmethoden/QM-61_Datenpunkteinflussanalyse.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-62-verzeichnis-von-verarbeitungstaetigkeit + canonical_name: Verzeichnis von Verarbeitungstätigkeit + description: Das System muss eine durchgängige Dokumentation aller KI-Datenverarbeitungsprozesse + bereitstellen, die Zweck, Datenkategorien und Empfänger explizit definiert. Die + Aktualisierung dieser Metadaten ist vor jedem Trainingsschritt sicherzustellen, + um die Datenherkunft und Löschzyklen nachvollziehbar zu machen. Die Gültigkeit + der dokumentierten Sicherheitsmaßnahmen ist regelmäßig zu prüfen, um die Integrität + der Trainingsdaten zu gewährleisten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: + - framework: EU GDPR + citation: Artikel 32 + - framework: EU GDPR + citation: null + - framework: EU GDPR + citation: Art. 49 + - framework: BSI AIC4 + citation: null + - framework: AI Act + citation: Artikel 10 + - framework: BSI Grundschutz + citation: null + source: + framework: BSI QUAIDAL + section: QM-62 + title_original_de: QM-62 Verzeichnis von Verarbeitungstätigkeit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-62_Verzeichnis%20von%20Verarbeitungstätigkeit.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-63-1-horizontal-federated-learning + canonical_name: -1 Horizontal Federated Learning + description: Das System muss horizontale Federated-Learning-Verfahren implementieren, + bei denen Modell-Updates aggregiert werden, ohne dass Rohdaten die lokalen Speicherorte + der beteiligten Parteien verlassen. Es ist sicherzustellen, dass alle Knoten identische + Merkmalsvektoren nutzen, während die zugrundeliegenden Datensätze ausschließlich + aus unterschiedlichen Individuen bestehen. Die Datenintegrität ist durch eine + Prüfung zu verifizieren, die bestätigt, dass keine direkten Datenaustausche zwischen + den Partnern während des Trainingsprozesses stattfinden. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: + - framework: EU GDPR + citation: null + source: + framework: BSI QUAIDAL + section: QM-63 + title_original_de: QM-63-1 Horizontal Federated Learning + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-63_FederatedLearning/QM-63-1_Horizontal%20Federated%20Learning.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-63-2-vertical-federated-learning + canonical_name: -2 Vertical Federated Learning + description: Das System muss die Integrität von vertikal federierten KI-Trainingsprozessen + sicherstellen, bei denen mehrere Parteien komplementäre Merkmalsvektoren für identische + Entitäten beisteuern. Es ist zu prüfen, ob die Datenfusion ausschließlich auf + nicht-dekodierbaren Modellparametern basiert, um die Originaldaten der einzelnen + Instanzen während des gemeinsamen Lernvorgangs zu schützen. Die Validierung muss + nachweisen, dass keine direkten Rohdaten zwischen den Knoten ausgetauscht werden, + bevor ein aggregiertes Modell aktualisiert wird. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-63 + title_original_de: QM-63-2 Vertical Federated Learning + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-63_FederatedLearning/QM-63-2_Vertical%20Federated%20Learning.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-63-3-federated-transfer-learning + canonical_name: -3 Federated Transfer Learning + description: Das System muss die Fähigkeit zur Übertragung von Modellwissen zwischen + heterogenen Datenquellen bereitstellen, um bei nicht vollständiger Merkmals- oder + Proben-Überschneidung eine gemeinsame Modellbildung zu ermöglichen. Es ist sicherzustellen, + dass Transfermechanismen explizit implementiert sind, um Wissenslücken bei unterschiedlichen + Datenvolumina und -strukturen zu schließen. Die Wirksamkeit dieser Mechanismen + ist durch Prüfung der Modellkonvergenz über die beteiligten Parteien hinweg zu + validieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-63 + title_original_de: QM-63-3 Federated Transfer Learning + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-63_FederatedLearning/QM-63-3_Federated%20Transfer%20Learning.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-63-federated-learning + canonical_name: Federated Learning + description: Für KI-Trainingsprozesse mit dezentralen Architekturen ist sicherzustellen, + dass Rohdaten niemals den lokalen Speicherort der Datenbesitzer verlassen. Stattdessen + müssen Modellparameter ausschließlich auf den Endgeräten oder lokalen Servern + aktualisiert und anschließend aggregiert werden, um den Datenschutz zu gewährleisten. + Die Integrität des Federated-Learning-Verfahrens ist durch Prüfung der Datenlokalisierung + und des Parametertransfers zu verifizieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-63 + title_original_de: QM-63 Federated Learning + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-63_FederatedLearning/QM-63_Federated%20Learning.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-64-similarity-scores + canonical_name: Similarity Scores + description: Für die Validierung der KI-Trainingsdaten ist eine kontextspezifische + Auswahl eines geeigneten Ähnlichkeitsmaßes zwingend erforderlich. Bei vektorisierten + Daten sind metrische Verfahren wie die Kosinus-Ähnlichkeit anzuwenden, während + bei sparse Darstellungen Distanzmaße wie der Jaccard-Koeffizient vorzuziehen sind. + In Szenarien mit hoher semantischer Komplexität sind fortgeschrittene Verfahren + wie BERTScore zur Sicherstellung der Datenqualität einzusetzen. Die Eignung des + gewählten Algorithmus ist vor der Nutzung nachzuweisen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-64 + title_original_de: QM-64 Similarity Scores + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-64_Similarity%20Scores.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0167 +- id: MET-AI-DATA-QM-65-ai-or-s-bom + canonical_name: AI or S-Bom + description: Das System muss eine vollständige Inventarisierung aller Trainingsdaten, + Modelle und externen Abhängigkeiten als strukturierte KI-Bill-of-Materials dokumentieren. + Diese Dokumentation ist sicherzustellen, um Lizenzkonflikte, Sicherheitslücken + und ethische Risiken in der Lieferkette frühzeitig zu identifizieren. Die Prüfung + muss nachweisen, dass alle Komponenten sowie deren Versionsstände und Qualitätsmetriken + lückenlos erfasst sind. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: + - framework: AI Act + citation: null + source: + framework: BSI QUAIDAL + section: QM-65 + title_original_de: QM-65 AI or S-Bom + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-65_AI_or_S_Bom.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-67-provenienz-vollstaendigkeitsrate + canonical_name: Provenienz-Vollständigkeitsrate + description: Die Provenienz-Vollständigkeit ist als messbarer Indikator für die + Qualität von KI-Trainingsdaten zu definieren und muss den Anteil der Datensätze + quantifizieren, bei denen sämtliche Herkunftsdetails lückenlos dokumentiert sind. + Es ist sicherzustellen, dass für jeden Dateneintrag alle relevanten Transformationen, + Erhebungsmethoden und Ursprungsinformationen vollständig in den Metadaten erfasst + wurden. Die Prüfung erfolgt durch Berechnung des Quotienten aus vollständig dokumentierten + Datensätzen und der Gesamtmenge aller Trainingsdaten, wobei das Ergebnis als Prozentsatz + auszudrücken ist. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-67 + title_original_de: QM-67 Provenienz-Vollständigkeitsrate + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-67_Provenienz_Vollständigkeitsrate.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0147 +- id: MET-AI-DATA-QM-68-1-shannon-index + canonical_name: -1 Shannon-Index + description: Das System muss die Entropie der Verteilung von KI-Trainingsdaten quantifizieren, + um die Diversität der enthaltenen Klassen zu bewerten. Es ist sicherzustellen, + dass der berechnete Shannon-Index als messbarer Indikator für die Informationsunsicherheit + in den Datensätzen dient. Die Prüfung erfolgt durch Analyse der Häufigkeitsverteilung, + um eine ausreichende Varianz der Eingabemuster zu garantieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-68 + title_original_de: QM-68-1 Shannon-Index + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-68_Diversity%20Indices%20Metrics/QM-68-1_Shannon-Index.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-68-2-simpson-index + canonical_name: -2 Simpson-Index + description: Die Verteilung der Trainingsdaten hinsichtlich relevanter Klassenmerkmale + ist durch einen statistischen Diversitätsindikator zu quantifizieren, der die + Wahrscheinlichkeit für eine zufällige Übereinstimmung zweier ausgewählter Instanzen + misst. Ein niedriger berechneter Wert ist als Indikator für eine hohe Klassenbalance + und damit für eine robuste Datenqualität zu werten. Die Einhaltung dieses Qualitätsziels + ist durch regelmäßige Berechnung und Dokumentation des Indexwertes während des + gesamten Trainingsprozesses sicherzustellen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-68 + title_original_de: QM-68-2 Simpson-Index + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-68_Diversity%20Indices%20Metrics/QM-68-2_Simpson-Index.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-68-3-pielous-eveness-index + canonical_name: -3 Pielous Eveness Index + description: Das System muss die Verteilung von Trainingsinstanzen über alle Zielklassen + quantifizieren, um eine signifikante Verzerrung zu vermeiden. Der errechnete Gleichmäßigkeitsindikator + ist als Maß für die Datenqualität heranzuziehen und muss einen Wert nahe dem Idealzustand + aufweisen. Eine Abweichung von der gleichmäßigen Verteilung ist durch eine automatische + Prüfung zu validieren, bevor das Modell trainiert wird. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-68 + title_original_de: QM-68-3 Pielous Eveness Index + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-68_Diversity%20Indices%20Metrics/QM-68-3_Pielous%20Eveness%20Index.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-68-4-berger-parker-index + canonical_name: -4 Berger-Parker Index + description: Das System muss sicherstellen, dass die Verteilung der Kategorien in + den KI-Trainingsdaten eine ausgewogene Vielfalt aufweist und keine einzelne Klasse + übermäßig dominiert. Es ist zu prüfen, ob der Anteil der häufigsten Kategorie + einen definierten Schwellenwert unterschreitet, um eine Verzerrung der Datenqualität + auszuschließen. Eine unzureichende Heterogenität der Labels ist als Defekt zu + bewerten, der die Modellleistung negativ beeinflusst. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-68 + title_original_de: QM-68-4 Berger-Parker Index + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-68_Diversity%20Indices%20Metrics/QM-68-4_Berger%20Parker%20Index.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-68-5-margalefs-richness-index + canonical_name: -5 Margalefs Richness Index + description: Die Qualität der KI-Trainingsdaten ist durch einen Diversitätsindikator + zu quantifizieren, der das Verhältnis der Anzahl einzigartiger Entitäten zur Gesamtmenge + der verarbeiteten Instanzen ermittelt. Dieser Kennwert muss sicherstellen, dass + die Datengrundlage eine hinreichende Heterogenität aufweist, um eine einseitige + Verzerrung des Modells zu verhindern. Die Prüfung erfolgt durch die Berechnung + des Index und den Abgleich mit definierten Mindestschwellenwerten für die Datenrepräsentativität. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-68 + title_original_de: QM-68-5 Margalefs Richness Index + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-68_Diversity%20Indices%20Metrics/QM-68-5_Margalefs%20Richness%20Index.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-68-6-menhinicks-index + canonical_name: -6 Menhinicks Index + description: Die Qualität der KI-Trainingsdaten ist durch einen normalisierten Diversitätsindex + zu bewerten, der das Verhältnis der unique Token-Klassen zur Gesamtmenge der Token + erfasst. Dieser Kennwert muss die Vergleichbarkeit von Datensätzen unterschiedlicher + Volumina sicherstellen, indem er den Artenreichtum der Datenstruktur unabhängig + von der absoluten Stichprobengröße quantifiziert. Die Berechnung ist bei jedem + Validierungslauf durchzuführen, um eine objektive Messung der Datenheterogenität + zu gewährleisten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-68 + title_original_de: QM-68-6 Menhinicks Index + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-68_Diversity%20Indices%20Metrics/QM-68-6_Menhinicks%20Index.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-69-1-hold-out + canonical_name: -1 Hold Out + description: Die Datenbasis für das KI-Modell ist vorab in strikt getrennte, nicht + überlappende Teilmengen zur Modellbildung, Parameteroptimierung und abschließenden + Evaluation zu zerlegen. Eine Nutzung der Evaluationsdaten während des Trainingsprozesses + ist zwingend auszuschließen, um Verzerrungen der Leistungsmessung zu verhindern. + Die Einhaltung dieser Trennung ist durch eine nachvollziehbare Protokollierung + der Aufteilungsratios und der Datenpfade zu verifizieren. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-69 + title_original_de: QM-69-1 Hold Out + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-69_DataSplitting/QM-69-1_Hold%20Out.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-69-2-k-fold-cross-validation + canonical_name: -2 K-Fold Cross Validation + description: Das KI-Modell ist mittels K-Fold-Verfahren zu validieren, wobei der + Datensatz in K disjunkte Teilmengen zu zerlegen ist. In jedem Iterationslauf muss + eine Teilmenge als Testdatensatz dienen, während die verbleibenden Mengen zum + Training herangezogen werden. Die Wiederholung dieses Prozesses über alle K Kombinationen + ist sicherzustellen, um eine robuste Schätzung der Modellgüte zu gewährleisten. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-69 + title_original_de: QM-69-2 K-Fold Cross Validation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-69_DataSplitting/QM-69-2_K-Fold%20Cross%20Validation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-70-datasheet + canonical_name: Datasheet + description: Es ist sicherzustellen, dass für alle KI-Trainingsdatensätze ein strukturiertes + Begleitdokument existiert, welches den vollständigen Lebenszyklus der Daten transparent + abbildet. Dieses Dokument muss zwingend Metriken zur Vollständigkeit enthalten + und spezifische Anwendungsempfehlungen sowie Wartungsanforderungen definieren. + Durch diese Dokumentation ist nachweislich zu prüfen, ob der Datensatz für den + vorgesehenen Einsatzzweck geeignet ist und Missbrauchspotenziale ausgeschlossen + werden. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-70 + title_original_de: QM-70 Datasheet + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-70_Datasheet.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MET-AI-DATA-QM-71-polynomiale-features + canonical_name: Polynomiale Features + description: Das System muss bei der Verarbeitung von Trainingsdaten nicht-lineare + Beziehungen durch die Generierung höherer Potenzen und Kreuzterme aus den Eingangsvariablen + abbilden. Es ist sicherzustellen, dass diese transformierten Merkmale explizit + zur Erfassung komplexer Muster in linearen Modellen verwendet werden. Die Qualität + der Daten ist zu prüfen, indem verifiziert wird, ob die Basis-Expansion korrekt + implementiert ist und keine unbeabsichtigten Datenlecks entstehen. + kind: metric + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: [] + external_refs: [] + source: + framework: BSI QUAIDAL + section: QM-71 + title_original_de: QM-71 Polynomiale Features + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-71%20Polynomiale%20Features.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0345 diff --git a/control-pipeline/data/quaidal/mitigations.yaml b/control-pipeline/data/quaidal/mitigations.yaml new file mode 100644 index 0000000..3eee31d --- /dev/null +++ b/control-pipeline/data/quaidal/mitigations.yaml @@ -0,0 +1,753 @@ +source: Derived from BSI QUAIDAL (Clean-Room) +source_url: https://github.com/BSI-Bund/QUAIDAL +commit_sha: c39b75369841b359c6bf56d6588e3768c722842f +plagiarism_limit_4gram: 0.2 +generated_by_model: qwen3.5:35b-a3b +controls: +- id: MIT-AI-DATA-MA-01-datentyp-validierung + canonical_name: Datentyp Validierung + description: Es ist sicherzustellen, dass alle Eingabedaten und Trainingsdatensätze + vor der Verarbeitung auf Konformität mit den definierten Schemata und Datentypen + des Modells geprüft werden. Abweichungen von den erwarteten Formaten sind automatisch + zu identifizieren und müssen entweder bereinigt oder ausgeschlossen werden, um + Inferenzfehler zu verhindern. Diese Validierung ist als automatisierter Schritt + in den Datenpipelines zu implementieren, um die Integrität der KI-Systeme zu gewährleisten. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-32 + - QM-34 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-01 + title_original_de: MA-01 Datentyp Validierung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-01_Datatype%20Validation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-02-format-pruefung + canonical_name: Format Prüfung + description: Die Eingabedaten für KI-Trainingszwecke sind vor der Verarbeitung auf + strukturelle Korrektheit zu validieren, wobei Datentypen wie Zeitstempel oder + Textfelder exakt den definierten Schemata entsprechen müssen. Durch die erzwingung + einer einheitlichen Formatierung wird verhindert, dass regionale Abweichungen + oder inkonsistente Darstellungen zu Fehlinterpretationen im Modell führen. Die + Konformität ist automatisiert zu prüfen, um sicherzustellen, dass keine nicht + konformen Datensätze in den Lernprozess eingehen. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-32 + - QM-34 + - QM-43 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-02 + title_original_de: MA-02 Format Prüfung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-02_Format%20Check.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-03-bereichspruefung + canonical_name: Bereichsprüfung + description: Das System muss vor dem KI-Training eine automatische Validierung aller + Eingangsmerkmale durchführen, um Werte außerhalb definierter physikalischer oder + logischer Grenzen zu identifizieren. Dabei sind insbesondere inkonsistente Datentypen, + fehlerhafte Maßeinheiten und statistisch unplausible Ausreißer zu detektieren + und zu isolieren. Die Integrität des Trainingsdatensatzes ist erst dann gewährleistet, + wenn alle nicht konformen Einträge ausgeschlossen oder korrigiert wurden, bevor + der Lernprozess initiiert wird. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-51 + - QM-52 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-03 + title_original_de: MA-03 Bereichsprüfung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-03_Range%20Check.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-04-over-undersampling + canonical_name: Over-Undersampling + description: Das Daten-Set für das KI-Training ist auf ein ausgewogenes Klassenverhältnis + zu prüfen, wobei eine künstliche Aufstockung seltener Kategorien durch synthetische + Generierung oder Duplizierung zulässig ist. Alternativ ist eine Reduktion der + Datenpunkte der Mehrheitsklasse nach definierten Kriterien durchzuführen, um eine + Verzerrung des Modells zu vermeiden. Die angewandte Methode zur Erreichung dieses + Gleichgewichts ist dokumentiert und muss reproduzierbar sein. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-34 + - QM-38 + - QM-57 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-04 + title_original_de: MA-04 Over-Undersampling + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-04_Over-Undersampling.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-05-automatisierte-aufgaben + canonical_name: Automatisierte Aufgaben + description: Wiederkehrende Prozesse der Datenvorverarbeitung und Qualitätsprüfung + im KI-Lebenszyklus sind durch automatisierte Mechanismen zu implementieren. Die + Ausführung dieser Aufgaben muss so konfiguriert sein, dass eine konsistente Ergebnisqualität + über alle Durchläufe hinweg sichergestellt wird. Es ist zu prüfen, dass die eingesetzten + Automatisierungswerkzeuge spezifische Validierungsregeln für Trainingsdaten zuverlässig + anwenden. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-02 + - MA-03 + - QM-10 + - QM-34 + - QM-64 + external_refs: + - framework: AI Act + citation: null + source: + framework: BSI QUAIDAL + section: MA-05 + title_original_de: MA-05 Automatisierte Aufgaben + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-05_Automated%20Tasks.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-06-experten-auswertung + canonical_name: Experten Auswertung + description: Für die Validierung von KI-Trainingsdaten ist eine manuelle Prüfung + durch qualifizierte Fachexperten zwingend erforderlich. Diese Experten müssen + die inhaltliche Gültigkeit, Relevanz und Korrektheit der Datensätze auf Basis + domänenspezifischen Wissens systematisch evaluieren. Das Ergebnis dieser Begutachtung + dient dazu, methodische Fehler oder qualitative Mängel frühzeitig zu identifizieren + und konkrete Maßnahmen zur Datenbereinigung abzuleiten. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-16 + - QM-30 + - QM-43 + - QM-45 + - QM-59 + - QM-70 + external_refs: + - framework: ISO/IEC 25012 + citation: null + - framework: ISO/IEC 25024 + citation: null + source: + framework: BSI QUAIDAL + section: MA-06 + title_original_de: MA-06 Experten Auswertung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-06_Expert%20Evaluation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0204 +- id: MIT-AI-DATA-MA-07-massenbeteiligung + canonical_name: Massenbeteiligung + description: Das System muss Mechanismen implementieren, um die Qualität von Trainingsdaten + durch dezentrale Validierung durch eine heterogene Gruppe externer Prüfer sicherzustellen. + Es ist zwingend erforderlich, dass die Ergebnisse dieser kollektiven Überprüfung + mit internen Qualitätsstandards abgeglichen werden, um systematische Fehler in + den annotierten Datensätzen zu identifizieren. Die Integrität der KI-Modelle ist + nur gewährleistet, wenn diese skalierbare Prüfprozedur für kritische Datenmengen + routinemäßig angewendet wird. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-06 + - QM-03 + - QM-16 + - QM-43 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-07 + title_original_de: MA-07 Massenbeteiligung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-07_Crowdsourcing.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-08-verteilungsanalyse + canonical_name: Verteilungsanalyse + description: Es ist sicherzustellen, dass die Verteilung der Trainingsdaten über + alle relevanten Klassen und Merkmalsbereiche systematisch auf statistische Verzerrungen + und Anomalien geprüft wird. Diese Analyse muss nachweisen, dass das Modell auf + einer repräsentativen und ausgewogenen Datenbasis trainiert wurde, um die Generalisierungsfähigkeit + der Vorhersagen zu gewährleisten. Die Ergebnisse der Verteilungsprüfung sind vor + Beginn des Trainings zu dokumentieren und bei signifikanten Abweichungen sind + Korrekturmaßnahmen einzuleiten. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-06 + - QM-10 + - QM-11 + - QM-51 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-08 + title_original_de: MA-08 Verteilungsanalyse + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-08_DistributionAnalysis.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0339 +- id: MIT-AI-DATA-MA-09-vergleichgrundgesamtheit + canonical_name: VergleichGrundgesamtheit + description: Das System muss eine repräsentative Referenzstichprobe aus der Zielverteilung + bereitstellen, um die Validität von KI-Trainingsdaten zu verifizieren. Es ist + sicherzustellen, dass diese Referenzdaten als Goldstandard dienen, um Abweichungen + zwischen dem Trainingsset und der tatsächlichen Grundgesamtheit zu quantifizieren. + Die Übereinstimmung ist durch einen automatisierten Abgleich mit den vorab definierten + Verteilungsparametern zu prüfen. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-9 + - QM-51 + - QM-52 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-09 + title_original_de: MA-09 VergleichGrundgesamtheit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-09_CompareGroundtruth.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-10-gewichtung-der-daten + canonical_name: Gewichtung der Daten + description: Für KI-Trainingsdatensätze ist eine manuelle Gewichtung der einzelnen + Merkmale zwingend erforderlich, um systematische Verzerrungen zu minimieren. Diese + Maßnahme dient der Sicherstellung einer ausgewogenen Datenrepräsentation und verbessert + die Generalisierungsfähigkeit des Modells auf spezifische Anwendungsfälle. Die + Zuordnung der Gewichtungsfaktoren ist vor dem Training durchzuführen und muss + dokumentiert werden, um die Nachvollziehbarkeit der Datenqualität zu gewährleisten. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-10 + - QM-18 + - QM-28 + - QM-29 + - QM-37 + - QM-38 + - QM-39 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-10 + title_original_de: MA-10 Gewichtung der Daten + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-10_ManualWeights.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-11-stichprobengroesse + canonical_name: Stichprobengröße + description: Die Menge der für das Training verwendeten Daten ist so zu dimensionieren, + dass statistisch signifikante Ergebnisse bei definiertem Konfidenzniveau und akzeptabler + Fehlervarianz gewährleistet sind. Die Datengröße muss iterativ angepasst werden, + wobei sowohl die Gesamtgröße der zugrundeliegenden Population als auch die spezifische + Art der Datenerweiterung systematisch zu berücksichtigen sind. Eine Validierung + der Datenqualität ist zwingend erforderlich, um Verzerrungen durch unterschiedliche + Skalierungsmethoden auszuschließen. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-08 + - QM-09 + - QM-39 + - QM-41 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-11 + title_original_de: MA-11 Stichprobengröße + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-11_Trainingsdataset%20Size.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-12-abdeckung-relevanter-merkmale + canonical_name: Abdeckung relevanter Merkmale + description: Das Trainingsdatenset muss vollständig alle für die spezifische Problemstellung + essenziellen Eingangsvariablen enthalten, um eine lückenlose Merkmalsabdeckung + zu gewährleisten. Es ist sicherzustellen, dass keine kritischen Einflussgrößen + fehlen, da sonst das Modell keine verlässlichen Korrelationen erlernen kann. Die + Vollständigkeit des Merkmalsraums ist vor Beginn des Trainingsprozesses durch + eine formale Prüfung zu verifizieren. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-06 + - MA-14 + - QM-10 + - QM-11 + - QM-13 + - QM-25 + - QM-26 + - QM-27 + - QM-28 + - QM-29 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-12 + title_original_de: MA-12 Abdeckung relevanter Merkmale + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-12_RelevantFeatureCoverage.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-13-vollstaendige-information-in-datensaetze + canonical_name: Vollständige Information in Datensätzen + description: Für die Validierung von KI-Trainingsdaten ist sicherzustellen, dass + alle für die Analyse erforderlichen Attribute vollständig vorliegen und keine + unbeabsichtigten Lücken existieren. Bei festgestellten Datenfehlern ist zwingend + die Ursache zu ermitteln, um das passende Imputationsverfahren basierend auf dem + spezifischen Fehlerschema auszuwählen. Eine unzureichende Datenbasis darf nicht + zur Modellierung genutzt werden, solange die Integrität der relevanten Information + nicht durch geeignete Maßnahmen wiederhergestellt wurde. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-12 + - QM-40 + - QM-53 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-13 + title_original_de: MA-13 Vollständige Information in Datensätzen + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-13_CompleteInformation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-14-eda-explorative-daten-analyse + canonical_name: EDA-Explorative Daten Analyse + description: Vor Beginn des Modelltrainings ist eine explorative Datenanalyse durchzuführen, + um Datenverteilungen, Korrelationen sowie Ausreißer und strukturelle Anomalien + ohne vorab definierte Hypothesen zu identifizieren. Die gewonnenen Erkenntnisse + sind systematisch zu dokumentieren, um die Qualität der Trainingsdaten zu validieren + und fundierte Entscheidungen über notwendige Bereinigungs- oder Erweiterungsschritte + abzuleiten. Auf Basis dieser Analyse ist der Datensatz so anzupassen, dass er + die für die Zielfunktion erforderliche Repräsentativität und Integrität gewährleistet. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-10 + - QM-12 + - QM-24 + - QM-25 + - QM-26 + - QM-27 + - QM-28 + - QM-29 + - QM-36 + - QM-42 + - QM-54 + - QM-57 + - QM-61 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-14 + title_original_de: MA-14 EDA-Explorative Daten Analyse + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-14_EDA-ExplorativeDataAnalysis.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-15-empirische-evidenz + canonical_name: Empirische Evidenz + description: Es ist sicherzustellen, dass die Wirksamkeit von Schutzmaßnahmen gegen + KI-gestützte Angriffe durch den systematischen Vergleich mit historischen Einsatzszenarien + empirisch validiert wird. Dabei sind Leistungsdaten aus vergleichbaren Anwendungsfällen + heranzuziehen, um die Angemessenheit der eingesetzten Trainingsdatensätze und + Methoden für den spezifischen Kontext nachzuweisen. Die Analyse muss belegen, + dass die gewählten Maßnahmen die identifizierten Risiken in der Praxis effektiv + reduzieren und die Datenqualität den aktuellen Bedrohungsmodellen entspricht. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-16 + - QM-30 + - QM-61 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-15 + title_original_de: MA-15 Empirische Evidenz + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-15_EmpiricEvidence.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-16-daten-imputation + canonical_name: Daten Imputation + description: Für KI-Trainingsdatensätze ist eine systematische Analyse der Ursachen + für fehlende Werte zwingend erforderlich, bevor eine Rekonstruktion erfolgt. Das + gewählte Verfahren zur Datenergänzung muss sich strikt an den identifizierten + Entstehungsgründen orientieren, um die statistische Integrität des Modells zu + wahren. Eine unkritische Imputation ohne Ursachenanalyse ist unzulässig, da sie + das Lernverhalten des Algorithmus verfälschen kann. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-13 + - QM-10 + - QM-22 + - QM-44 + - QM-53 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-16 + title_original_de: MA-16 Daten Imputation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-16_DataImputation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-17-metadatenverwaltung + canonical_name: Metadatenverwaltung + description: Für den KI-Trainingsprozess ist eine vollständige Dokumentation der + Datenherkunft, der Qualitätsmetriken sowie der rechtlichen Klassifizierung jeder + einzelnen Trainingsinstanz sicherzustellen. Diese strukturellen Begleitinformationen + müssen maschinenlesbar vorliegen, um eine automatisierte Validierung der Datenintegrität + und eine nachvollziehbare Auditierung des Datensatzes zu ermöglichen. Die Erfassung + dieser Attribute ist zwingend erforderlich, um die Eignung der Daten für den spezifischen + Trainingszweck zu gewährleisten und regulatorische Vorgaben einzuhalten. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-59 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-17 + title_original_de: MA-17 Metadatenverwaltung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-17_MetadataManagement.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-18-provenienztracking + canonical_name: ProvenienzTracking + description: Die Herkunft und der Verarbeitungsweg von KI-Trainingsdaten sind lückenlos + zu dokumentieren, um deren Integrität und Nachvollziehbarkeit sicherzustellen. + Für jeden Datensatz ist eine eindeutige Identifikation des Ursprungs sowie aller + Transformationsschritte im Lebenszyklus zu führen. Diese Metadaten müssen so strukturiert + sein, dass eine Rückverfolgung zur ursprünglichen Quelle jederzeit möglich ist, + ohne dass Datenverluste oder Manipulationen unentdeckt bleiben. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-59 + - QM-60 + - QM-61 + - QM-65 + - QM-67 + - QM-70 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-18 + title_original_de: MA-18 ProvenienzTracking + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-18_ProvenienzTracking.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-19-audit-trails + canonical_name: Audit Trails + description: Für die Nachvollziehbarkeit von KI-Trainingsprozessen ist ein lückenloses + Protokollierungssystem zu implementieren, das alle Datenmanipulationen und Modellupdates + zeitgestempelt erfasst. Jeder Zugriff auf Trainingsdatensätze sowie jede Änderung + der Modellparameter muss mit eindeutigen Benutzeridentitäten verknüpft werden. + Die gespeicherten Logs müssen so strukturiert sein, dass sie eine vollständige + Rekonstruktion des Datenflusses und eine Rückführung auf frühere Datenqualitätszustände + ermöglichen. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - MA-22 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-19 + title_original_de: MA-19 Audit Trails + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-19_AuditTrails.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-20-prozess-dokumentation + canonical_name: Prozess Dokumentation + description: Für die Sicherstellung der Datenqualität im KI-Trainingsprozess ist + eine vollständige Dokumentation aller Phasen der Datenerstellung und -aufbereitung + zwingend erforderlich. Diese Spezifikation muss verbindlich festlegen, welche + Aktivitäten auszuführen sind, wer hierfür verantwortlich zeichnet, welche Ressourcen + notwendig sind und welche qualitativen Ergebnisse zu erzielen sind. Insbesondere + ist die Nachverfolgbarkeit der Datenherkunft innerhalb des Dokumentationsprozesses + lückenlos zu gewährleisten, um die Integrität der Trainingsdaten zu validieren. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-15 + - QM-31 + - QM-62 + - QM-65 + external_refs: + - framework: ISO/IEC 42001 + citation: null + source: + framework: BSI QUAIDAL + section: MA-20 + title_original_de: MA-20 Prozess Dokumentation + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-20_ProcessDocumentation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-21-compliance + canonical_name: Compliance + description: Der Einsatz von KI-Modellen erfordert eine zwingende Prüfung der Trainingsdatensätze + auf rechtliche Konformität und ethische Integrität, bevor diese zur Modellgenerierung + verwendet werden. Es ist sicherzustellen, dass alle verarbeiteten Informationen + die Vorgaben der DSGVO sowie branchenspezifische Regularien vollständig erfüllen + und keine unrechtmäßig beschafften oder personenbezogenen Daten ohne explizite + Einwilligung enthalten. Die Validierung dieser Datenqualität muss vor jedem Trainingslauf + durch einen automatisierten oder manuellen Compliance-Check nachgewiesen werden. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-12 + - QM-15 + external_refs: + - framework: EU GDPR + citation: null + - framework: AI Act + citation: null + source: + framework: BSI QUAIDAL + section: MA-21 + title_original_de: MA-21 Compliance + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-21_Compliance.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-22-vertrauenswuerdigkeit + canonical_name: Vertrauenswürdigkeit + description: Die Integrität und Zuverlässigkeit der für das KI-Training verwendeten + Datensätze ist im jeweiligen Anwendungskontext nachweislich zu verifizieren. Es + ist sicherzustellen, dass potenzielle Manipulationen oder unbeabsichtigte Korruptionen + des Datenflusses durch technische Prüfmechanismen ausgeschlossen werden. Bei der + Anwendung von Korrekturverfahren zur Datenbereinigung muss die ursprüngliche Glaubwürdigkeit + der Informationen gewahrt bleiben und darf nicht durch die Maßnahme beeinträchtigt + werden. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-15 + - QM-43 + - QM-65 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-22 + title_original_de: MA-22 Vertrauenswürdigkeit + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-22_Credibility.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-23-merkmalsskalierung + canonical_name: Merkmalsskalierung + description: Für KI-Trainingsdatensätze ist eine Normalisierung der Merkmalswerte + auf einen einheitlichen Wertebereich zwingend erforderlich, um Dominanzeffekte + durch unterschiedliche Größenordnungen zu vermeiden. Diese Maßnahme stellt sicher, + dass Algorithmen, die auf Distanzberechnungen oder Gradientenverfahren basieren, + nicht durch skalenbedingte Verzerrungen beeinträchtigt werden. Die Wirksamkeit + der Skalierung ist vor dem Training systematisch zu prüfen, um die Vorhersagegenauigkeit + des Modells zu garantieren. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-10 + - QM-56 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-23 + title_original_de: MA-23 Merkmalsskalierung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-23_FeatureScaling.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-24-merkmalserstellung + canonical_name: Merkmalserstellung + description: Es ist sicherzustellen, dass bei der Erstellung neuer Eingangsmerkmale + für KI-Modelle ausschließlich validierte Transformationsverfahren angewendet werden, + um die Datenqualität zu gewährleisten. Die Generierung neuer Features muss auf + nachvollziehbaren Algorithmen basieren, die eine signifikante Verbesserung der + Modellleistung gegenüber den Rohdaten nachweisen. Jede angewandte Methode zur + Datenanreicherung oder -bereinigung ist vor dem Training auf ihre Eignung zur + Mustererkennung und Vorhersagegenauigkeit zu prüfen. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-11 + - QM-25 + - QM-26 + - QM-27 + - QM-28 + - QM-51 + - QM-71 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-24 + title_original_de: MA-24 Merkmalserstellung + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-24_FeatureCreation.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-25-differential-privacy + canonical_name: Differential Privacy + description: Das System muss bei der Verarbeitung von KI-Trainingsdaten differenzielle + Privatsphäre implementieren, indem statistisch signifikante, zufällige Störgrößen + zu den Ergebnissen hinzugefügt werden. Es ist sicherzustellen, dass die An- oder + Abwesenheit einzelner Datensätze im Trainingsset das Ausgabeergebnis nur marginal + beeinflusst. Durch diese Maßnahme ist zu prüfen, ob keine Rückschlüsse auf spezifische + Personen aus den generierten Analysen gezogen werden können, während die allgemeine + Datenqualität für das Modelltraining erhalten bleibt. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-58 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-25 + title_original_de: MA-25 Differential Privacy + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-25_Differential%20Privacy.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0625 +- id: MIT-AI-DATA-MA-26-federated-learning + canonical_name: Federated Learning + description: Für KI-Systeme, die auf verteilten Datenquellen basieren, ist ein Federated-Learning-Ansatz + zwingend vorzusehen, um die Rohdaten dezentral zu belassen. Die lokalen Modelle + müssen ausschließlich aggregierte Parameter an eine zentrale Instanz übermitteln, + während die ursprünglichen Trainingsdaten niemals die lokale Umgebung verlassen. + Eine Prüfung ist sicherzustellen, dass durch diese Architektur keine sensiblen + Informationen während des Lernprozesses zentralisiert oder übertragen werden. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-63 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-26 + title_original_de: MA-26 Federated Learning + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-26_Federated%20Learning%20Approach.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-27-statistische-grundlagenthemen + canonical_name: Statistische Grundlagenthemen + description: Für die Sicherstellung der Datenqualität im KI-Lebenszyklus sind statistische + Basisverfahren systematisch zu implementieren und kontinuierlich zu validieren. + Es ist sicherzustellen, dass alle relevanten Metriken zur Verteilungsanalyse und + Datenintegrität konsistent in die Berechnungspipelines integriert werden. Diese + fundamentalen Analysen müssen unabhängig von spezifischen Bausteinen als übergeordnete + Prüfkriterien für die Modellgüte dienen. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-01 + - QM-02 + - QM-03 + - QM-04 + - QM-06 + - QM-07 + - QM-09 + - QM-23 + - QM-51 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-27 + title_original_de: MA-27 Statistische Grundlagenthemen + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-27_StatisticalBasis.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0213 +- id: MIT-AI-DATA-MA-28-diversitaetsindizes + canonical_name: Diversitätsindizes + description: Das System muss quantitative Metriken zur Erfassung der Heterogenität + von KI-Trainingsdaten implementieren, um die Verteilung verschiedener Kategorien + zu messen. Es ist sicherzustellen, dass diese Kennzahlen sowohl die Anzahl vorhandener + Klassen als auch deren Gleichverteilung abbilden. Die Validierung der Datenqualität + erfolgt durch die Berechnung von Diversitätsindizes, die statistische Unsicherheit + oder Kollisionswahrscheinlichkeiten quantifizieren. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-68 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-28 + title_original_de: MA-28 Diversitätsindizes + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-28_Diversity-Indices.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-29-data-splitting + canonical_name: Data-Splitting + description: Die Aufteilung von KI-Trainingsdaten in disjunkte Teilmengen ist zwingend + erforderlich, um eine unvoreingenommene Validierung der Modellgüte zu gewährleisten. + Dabei müssen mindestens drei voneinander getrennte Bereiche für das Training, + die Hyperparameter-Optimierung sowie die abschließende Leistungsbewertung definiert + werden. Eine zufällige oder stratifizierte Trennung ist sicherzustellen, um Datenlecks + zwischen den Phasen auszuschließen und die Generalisierungsfähigkeit des Systems + nachweisbar zu prüfen. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-69 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-29 + title_original_de: MA-29 Data-Splitting + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-29_Data%20Splitting.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 +- id: MIT-AI-DATA-MA-30-fairness + canonical_name: Fairness + description: Das System muss sicherstellen, dass KI-Trainingsdaten keine systematischen + Verzerrungen bezüglich sensibler demografischer Merkmale aufweisen, um diskriminierende + Vorhersagen zu vermeiden. Bei unzureichender Repräsentation von Teilgruppen sind + präventive Aufbereitungsverfahren oder algorithmische Transformationsmethoden + zur Bias-Korrektur zwingend anzuwenden. Die Wirksamkeit dieser Maßnahmen ist vor + der Modellbereitstellung durch quantitative Prüfverfahren auf Gleichbehandlungsgrundsätze + zu validieren. + kind: measure + regulation_anchor: EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI) + related_quaidal_ids: + - QM-57 + external_refs: [] + source: + framework: BSI QUAIDAL + section: MA-30 + title_original_de: MA-30 Fairness + url: https://github.com/BSI-Bund/QUAIDAL/blob/main/0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-30_Fairness.md + commit_sha: c39b75369841b359c6bf56d6588e3768c722842f + license_note: § 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung. + plagiarism_score_at_generation: 0.0 diff --git a/control-pipeline/data/quaidal/quaidal_index.json b/control-pipeline/data/quaidal/quaidal_index.json new file mode 100644 index 0000000..2a60ca7 --- /dev/null +++ b/control-pipeline/data/quaidal/quaidal_index.json @@ -0,0 +1,3157 @@ +{ + "source": "BSI QUAIDAL", + "source_url": "https://github.com/BSI-Bund/QUAIDAL", + "commit_sha": "c39b75369841b359c6bf56d6588e3768c722842f", + "license_note": "BSI-Veroeffentlichung. Repo enthaelt keine SPDX-Lizenzdatei. Frontmatter share:true. Veroeffentlichung durch Bundesbehoerde, § 5 UrhG (amtliche Werke) anwendbar. BSI hat 05/2026 die Annahme CC-BY-SA-4.0 in unserer Anfrage nicht widersprochen, aber auch nicht aktiv bestaetigt. Wir derivieren Clean-Room (eigene Formulierungen, nur Referenz auf BSI QUAIDAL Sektion).", + "entries": [ + { + "id": "QKB-01", + "kind": "criterion", + "title_de": "QKB-01 Repräsentativität", + "title_en": "QKB-01 Representativity", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-01_Representativity.md", + "referenced_ids": [ + "QB-03", + "QB-04", + "QB-05", + "QB-06", + "QB-15" + ], + "external_refs": [ + { + "framework": "AI Act", + "citation": "Artikel 10" + }, + { + "framework": "ISO/IEC 25012", + "citation": null + } + ], + "tags": [ + "Qualitätskriterien" + ], + "share": true + }, + { + "id": "QKB-02", + "kind": "criterion", + "title_de": "QKB-02 Vollständigkeit", + "title_en": "QKB-02 Completeness", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-02_Completeness.md", + "referenced_ids": [ + "QB-07", + "QB-09" + ], + "external_refs": [ + { + "framework": "AI Act", + "citation": "Artikel 10" + }, + { + "framework": "BSI AIC4", + "citation": null + }, + { + "framework": "ISO/IEC 25012", + "citation": null + }, + { + "framework": "ISO/IEC 25024", + "citation": null + } + ], + "tags": [ + "Qualitätskriterien" + ], + "share": true + }, + { + "id": "QKB-03", + "kind": "criterion", + "title_de": "QKB-03 Genauigkeit", + "title_en": "QKB-03 Genauigkeit", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-03_Accuracy.md", + "referenced_ids": [ + "QB-01", + "QB-02" + ], + "external_refs": [ + { + "framework": "ISO/IEC 25012", + "citation": null + } + ], + "tags": [ + "Qualitätskriterien" + ], + "share": true + }, + { + "id": "QKB-04", + "kind": "criterion", + "title_de": "QKB-04 Konsistenz", + "title_en": "QKB-04 Konsistenz", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-04_Consistency.md", + "referenced_ids": [ + "QB-02", + "QB-07", + "QB-08", + "QB-10", + "QB-11", + "QB-12" + ], + "external_refs": [ + { + "framework": "ISO/IEC 25012", + "citation": null + } + ], + "tags": [ + "Qualitätskriterien" + ], + "share": true + }, + { + "id": "QKB-05", + "kind": "criterion", + "title_de": "QKB-05 Korrektheit", + "title_en": "QKB-05 Korrektheit", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-05_Correctness.md", + "referenced_ids": [ + "QB-09", + "QB-10", + "QB-12", + "QB-14" + ], + "external_refs": [ + { + "framework": "ISO/IEC 25012", + "citation": null + }, + { + "framework": "BSI AIC4", + "citation": null + }, + { + "framework": "AI Act", + "citation": "Artikel 10" + } + ], + "tags": [ + "Qualitätskriterien" + ], + "share": true + }, + { + "id": "QKB-06", + "kind": "criterion", + "title_de": "QKB-06 Einheitlichkeit", + "title_en": "QKB-06 Einheitlichkeit", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-06_Uniformity.md", + "referenced_ids": [ + "QB-02", + "QB-08", + "QB-10", + "QB-12", + "QB-14" + ], + "external_refs": [ + { + "framework": "ISO/IEC 25012", + "citation": null + } + ], + "tags": [ + "Qualitätskriterien" + ], + "share": true + }, + { + "id": "QKB-07", + "kind": "criterion", + "title_de": "QKB-07 Gültigkeit", + "title_en": "QKB-07 Gültigkeit", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-07_Validity.md", + "referenced_ids": [ + "QB-02", + "QB-05", + "QB-09", + "QB-10", + "QB-14" + ], + "external_refs": [ + { + "framework": "ISO/IEC 25012", + "citation": null + } + ], + "tags": [ + "Qualitätskriterien" + ], + "share": true + }, + { + "id": "QKB-08", + "kind": "criterion", + "title_de": "QKB-08 Eindeutigkeit", + "title_en": "QKB-08 Eindeutigkeit", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-08_Uniqueness.md", + "referenced_ids": [ + "QB-05", + "QB-10", + "QB-13" + ], + "external_refs": [ + { + "framework": "ISO/IEC 25012", + "citation": null + } + ], + "tags": [ + "Qualitätskriterien" + ], + "share": true + }, + { + "id": "QKB-09", + "kind": "criterion", + "title_de": "QKB-09 Sichere Quellen", + "title_en": "QKB-09 Sichere Quellen", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-09_SecureSource.md", + "referenced_ids": [ + "QB-09", + "QB-11" + ], + "external_refs": [ + { + "framework": "ISO/IEC 25012", + "citation": null + }, + { + "framework": "BSI AIC4", + "citation": null + } + ], + "tags": [ + "Qualitätskriterien" + ], + "share": true + }, + { + "id": "QKB-10", + "kind": "criterion", + "title_de": "QKB-10 Daten mit Personenbezug", + "title_en": "QKB-10 Daten mit Personenbezug", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0000_Qualitätskriterien/QKB-10_PersonalDataCheck.md", + "referenced_ids": [ + "QB-09", + "QB-10", + "QB-11", + "QB-14" + ], + "external_refs": [ + { + "framework": "EU GDPR", + "citation": null + } + ], + "tags": [ + "Qualitätskriterien" + ], + "share": true + }, + { + "id": "QB-01", + "kind": "building_block", + "title_de": "QB-01 Syntaktische Genauigkeit", + "title_en": "QB-01 Syntaktische Genauigkeit", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-01_Syntactic Accuracy.md", + "referenced_ids": [ + "MA-01", + "MA-02", + "MA-03", + "MA-04", + "MA-05", + "MA-27" + ], + "external_refs": [ + { + "framework": "BSI AIC4", + "citation": null + }, + { + "framework": "ISO/IEC 25012", + "citation": null + } + ], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "QB-02", + "kind": "building_block", + "title_de": "QB-02 Semantische Genauigkeit", + "title_en": "QB-02 Semantische Genauigkeit", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-02_Semantic Accuracy.md", + "referenced_ids": [ + "MA-05", + "MA-06", + "MA-07", + "MA-27" + ], + "external_refs": [ + { + "framework": "BSI AIC4", + "citation": null + } + ], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "QB-03", + "kind": "building_block", + "title_de": "QB-03 Vielfalt", + "title_en": "QB-03 Vielfalt", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-03_Diversity.md", + "referenced_ids": [ + "MA-08", + "MA-09", + "MA-10", + "MA-12", + "MA-27", + "MA-28" + ], + "external_refs": [], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "QB-04", + "kind": "building_block", + "title_de": "QB-04 Ausgewogenheit", + "title_en": "QB-04_Balance", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-04_Balance.md", + "referenced_ids": [ + "MA-08", + "MA-09", + "MA-10", + "MA-12", + "MA-14", + "MA-27" + ], + "external_refs": [], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "QB-05", + "kind": "building_block", + "title_de": "QB-05 Umfang", + "title_en": "QB-05 Size", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-05_Size.md", + "referenced_ids": [ + "MA-11", + "MA-12", + "MA-15", + "MA-27" + ], + "external_refs": [ + { + "framework": "BSI AIC4", + "citation": null + } + ], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "QB-06", + "kind": "building_block", + "title_de": "QB-06 Verzerrung", + "title_en": "QB-06 Bias-Detektion", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-06_Bias-Detektion.md", + "referenced_ids": [ + "MA-01", + "MA-02", + "MA-03", + "MA-04", + "MA-06", + "MA-07", + "MA-08", + "MA-09", + "MA-10", + "MA-11", + "MA-12", + "MA-13", + "MA-14", + "MA-15", + "MA-16", + "MA-17", + "MA-18", + "MA-20", + "MA-23", + "MA-24", + "MA-27", + "MA-28", + "QB-15", + "QM-11" + ], + "external_refs": [], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "QB-07", + "kind": "building_block", + "title_de": "QB-07 Gesamtheit", + "title_en": "QB-07 Gesamtheit", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-07_Totality.md", + "referenced_ids": [ + "MA-12", + "MA-13", + "MA-27" + ], + "external_refs": [], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "QB-08", + "kind": "building_block", + "title_de": "QB-08 Konsistenzsicherung", + "title_en": "QB-08 Konsistenzsicherung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-08_ConsistencyAssurance.md", + "referenced_ids": [ + "MA-01", + "MA-02", + "MA-03" + ], + "external_refs": [ + { + "framework": "ISO/IEC 25012", + "citation": null + }, + { + "framework": "BSI AIC4", + "citation": null + } + ], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "QB-09", + "kind": "building_block", + "title_de": "QB-09 Quellenmanagement", + "title_en": "QB-09 Quellenmanagement", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-09_Sourcemanagement.md", + "referenced_ids": [ + "MA-18", + "MA-19", + "MA-20", + "MA-22" + ], + "external_refs": [ + { + "framework": "BSI AIC4", + "citation": null + }, + { + "framework": "AI Act", + "citation": null + } + ], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "QB-10", + "kind": "building_block", + "title_de": "QB-10_Datenprüfung", + "title_en": "QB-10_DataChecks", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-10_DataChecks.md", + "referenced_ids": [ + "MA-05", + "MA-20", + "MA-26" + ], + "external_refs": [], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "QB-11", + "kind": "building_block", + "title_de": "QB-11 Prozesse", + "title_en": "QB-11 Prozesse", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-11_Processes.md", + "referenced_ids": [ + "MA-18", + "MA-21" + ], + "external_refs": [ + { + "framework": "BSI Grundschutz", + "citation": null + }, + { + "framework": "ISO/IEC 23894", + "citation": null + }, + { + "framework": "ISO/IEC 42001", + "citation": null + }, + { + "framework": "AI Act", + "citation": null + } + ], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "QB-12", + "kind": "building_block", + "title_de": "QB-12 Merkmalsentwicklung", + "title_en": "QB-12 FeatureEngineering", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-12_FeatureEngineering.md", + "referenced_ids": [ + "MA-01", + "MA-02", + "MA-03", + "MA-06", + "MA-12", + "MA-14", + "MA-17", + "MA-23", + "MA-24", + "MA-27" + ], + "external_refs": [], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "QB-13", + "kind": "building_block", + "title_de": "QB-13 Datenvorbereitung", + "title_en": "QB-13 DataPreparation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-13_DataPreparation.md", + "referenced_ids": [ + "MA-02", + "MA-03", + "MA-04", + "MA-13", + "MA-14", + "MA-16", + "MA-17", + "MA-23", + "MA-24", + "MA-25", + "MA-27", + "MA-29" + ], + "external_refs": [], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "QB-14", + "kind": "building_block", + "title_de": "QB-14_Expertanalysis", + "title_en": "QB-14 Expertanalysis", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-14_Expertanalysis.md", + "referenced_ids": [ + "MA-06", + "MA-10", + "MA-14", + "MA-15", + "MA-21", + "MA-22" + ], + "external_refs": [], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "QB-15", + "kind": "building_block", + "title_de": "QB-15 Bias-Mitigation", + "title_en": "QB-15 Bias-Mitigation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0001_Qualitätsbausteine/QB-15_Bias-Mitigation.md", + "referenced_ids": [ + "MA-30", + "QM-57" + ], + "external_refs": [], + "tags": [ + "Qualitätsbaustein" + ], + "share": true + }, + { + "id": "MA-01", + "kind": "measure", + "title_de": "MA-01 Datentyp Validierung", + "title_en": "MA-01 Datentyp Validierung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-01_Datatype Validation.md", + "referenced_ids": [ + "QM-32", + "QM-34" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-02", + "kind": "measure", + "title_de": "MA-02 Format Prüfung", + "title_en": "MA-02 Format Prüfung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-02_Format Check.md", + "referenced_ids": [ + "QM-32", + "QM-34", + "QM-43" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme", + "validation" + ], + "share": true + }, + { + "id": "MA-03", + "kind": "measure", + "title_de": "MA-03 Bereichsprüfung", + "title_en": "MA-03 Range Check", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-03_Range Check.md", + "referenced_ids": [ + "QM-51", + "QM-52" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme", + "validation" + ], + "share": true + }, + { + "id": "MA-04", + "kind": "measure", + "title_de": "MA-04 Over-Undersampling", + "title_en": "MA-04 Over-Undersampling", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-04_Over-Undersampling.md", + "referenced_ids": [ + "QM-34", + "QM-38", + "QM-57" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-05", + "kind": "measure", + "title_de": "MA-05 Automatisierte Aufgaben", + "title_en": "MA-05 Automatisierte Aufgaben", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-05_Automated Tasks.md", + "referenced_ids": [ + "MA-02", + "MA-03", + "QM-10", + "QM-34", + "QM-64" + ], + "external_refs": [ + { + "framework": "AI Act", + "citation": null + } + ], + "tags": [ + "Qualitätsmaßnahme", + "#unsicher", + "unsicher" + ], + "share": true + }, + { + "id": "MA-06", + "kind": "measure", + "title_de": "MA-06 Experten Auswertung", + "title_en": "MA-06 Expert Evaluation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-06_Expert Evaluation.md", + "referenced_ids": [ + "QM-16", + "QM-30", + "QM-43", + "QM-45", + "QM-59", + "QM-70" + ], + "external_refs": [ + { + "framework": "ISO/IEC 25012", + "citation": null + }, + { + "framework": "ISO/IEC 25024", + "citation": null + } + ], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-07", + "kind": "measure", + "title_de": "MA-07 Massenbeteiligung", + "title_en": "MA-07 Crowdsourcing", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-07_Crowdsourcing.md", + "referenced_ids": [ + "MA-06", + "QM-03", + "QM-16", + "QM-43" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme", + "unsicher" + ], + "share": true + }, + { + "id": "MA-08", + "kind": "measure", + "title_de": "MA-08 Verteilungsanalyse", + "title_en": "MA-08 DistributionAnalysis", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-08_DistributionAnalysis.md", + "referenced_ids": [ + "MA-06", + "QM-10", + "QM-11", + "QM-51" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-09", + "kind": "measure", + "title_de": "MA-09 VergleichGrundgesamtheit", + "title_en": "MA-09 CompareGroundtruth", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-09_CompareGroundtruth.md", + "referenced_ids": [ + "MA-9", + "QM-51", + "QM-52" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme", + "unsicher" + ], + "share": true + }, + { + "id": "MA-10", + "kind": "measure", + "title_de": "MA-10 Gewichtung der Daten", + "title_en": "MA-10 ManualWeights", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-10_ManualWeights.md", + "referenced_ids": [ + "QM-10", + "QM-18", + "QM-28", + "QM-29", + "QM-37", + "QM-38", + "QM-39" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-11", + "kind": "measure", + "title_de": "MA-11 Stichprobengröße", + "title_en": "MA-11 Größe des Trainingsdatensatzes", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-11_Trainingsdataset Size.md", + "referenced_ids": [ + "QM-08", + "QM-09", + "QM-39", + "QM-41" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-12", + "kind": "measure", + "title_de": "MA-12 Abdeckung relevanter Merkmale", + "title_en": "MA-12 Abdeckung relevanter Merkmale", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-12_RelevantFeatureCoverage.md", + "referenced_ids": [ + "MA-06", + "MA-14", + "QM-10", + "QM-11", + "QM-13", + "QM-25", + "QM-26", + "QM-27", + "QM-28", + "QM-29" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme", + "unsicher" + ], + "share": true + }, + { + "id": "MA-13", + "kind": "measure", + "title_de": "MA-13 Vollständige Information in Datensätzen", + "title_en": "MA-13 Vollständige Information in Datensätzen", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-13_CompleteInformation.md", + "referenced_ids": [ + "QM-12", + "QM-40", + "QM-53" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme", + "unsicher" + ], + "share": true + }, + { + "id": "MA-14", + "kind": "measure", + "title_de": "MA-14 EDA-Explorative Daten Analyse", + "title_en": "MA-14 EDA-Explorative Daten Analyse", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-14_EDA-ExplorativeDataAnalysis.md", + "referenced_ids": [ + "QM-10", + "QM-12", + "QM-24", + "QM-25", + "QM-26", + "QM-27", + "QM-28", + "QM-29", + "QM-36", + "QM-42", + "QM-54", + "QM-57", + "QM-61" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-15", + "kind": "measure", + "title_de": "MA-15 Empirische Evidenz", + "title_en": "MA-15 Empirische Evidenz", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-15_EmpiricEvidence.md", + "referenced_ids": [ + "QM-16", + "QM-30", + "QM-61" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-16", + "kind": "measure", + "title_de": "MA-16 Daten Imputation", + "title_en": "MA-16 Daten Imputation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-16_DataImputation.md", + "referenced_ids": [ + "MA-13", + "QM-10", + "QM-22", + "QM-44", + "QM-53" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-17", + "kind": "measure", + "title_de": "MA-17 Metadatenverwaltung", + "title_en": "MA-17 Metadatenverwaltung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-17_MetadataManagement.md", + "referenced_ids": [ + "QM-59" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-18", + "kind": "measure", + "title_de": "MA-18 ProvenienzTracking", + "title_en": "MA-18 ProvenienzTracking", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-18_ProvenienzTracking.md", + "referenced_ids": [ + "QM-59", + "QM-60", + "QM-61", + "QM-65", + "QM-67", + "QM-70" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-19", + "kind": "measure", + "title_de": "MA-19 Audit Trails", + "title_en": "MA-19 AuditTrails", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-19_AuditTrails.md", + "referenced_ids": [ + "MA-22" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-20", + "kind": "measure", + "title_de": "MA-20 Prozess Dokumentation", + "title_en": "MA-20 Prozess Dokumentation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-20_ProcessDocumentation.md", + "referenced_ids": [ + "QM-15", + "QM-31", + "QM-62", + "QM-65" + ], + "external_refs": [ + { + "framework": "ISO/IEC 42001", + "citation": null + } + ], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-21", + "kind": "measure", + "title_de": "MA-21 Compliance", + "title_en": "MA-21 Compliance", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-21_Compliance.md", + "referenced_ids": [ + "QM-12", + "QM-15" + ], + "external_refs": [ + { + "framework": "EU GDPR", + "citation": null + }, + { + "framework": "AI Act", + "citation": null + } + ], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-22", + "kind": "measure", + "title_de": "MA-22 Vertrauenswürdigkeit", + "title_en": "MA-22 Vertrauenswürdigkeit", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-22_Credibility.md", + "referenced_ids": [ + "QM-15", + "QM-43", + "QM-65" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-23", + "kind": "measure", + "title_de": "MA-23 Merkmalsskalierung", + "title_en": "MA-23 Merkmalsskalierung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-23_FeatureScaling.md", + "referenced_ids": [ + "QM-10", + "QM-56" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-24", + "kind": "measure", + "title_de": "MA-24 Merkmalserstellung", + "title_en": "MA-24 Merkmalserstellung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-24_FeatureCreation.md", + "referenced_ids": [ + "QM-11", + "QM-25", + "QM-26", + "QM-27", + "QM-28", + "QM-51", + "QM-71" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-25", + "kind": "measure", + "title_de": "MA-25 Differential Privacy", + "title_en": "MA-25 Differential Privacy", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-25_Differential Privacy.md", + "referenced_ids": [ + "QM-58" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme", + "unsicher" + ], + "share": true + }, + { + "id": "MA-26", + "kind": "measure", + "title_de": "MA-26 Federated Learning", + "title_en": "MA-26 Federated Learning", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-26_Federated Learning Approach.md", + "referenced_ids": [ + "QM-63" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-27", + "kind": "measure", + "title_de": "MA-27 Statistische Grundlagenthemen", + "title_en": "MA-27 StatisticalBasics", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-27_StatisticalBasis.md", + "referenced_ids": [ + "QM-01", + "QM-02", + "QM-03", + "QM-04", + "QM-06", + "QM-07", + "QM-09", + "QM-23", + "QM-51" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-28", + "kind": "measure", + "title_de": "MA-28 Diversitätsindizes", + "title_en": "MA-28 Diversity-Indices", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-28_Diversity-Indices.md", + "referenced_ids": [ + "QM-68" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-29", + "kind": "measure", + "title_de": "MA-29 Data-Splitting", + "title_en": "MA-29 Data Splitting", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-29_Data Splitting.md", + "referenced_ids": [ + "QM-69" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "MA-30", + "kind": "measure", + "title_de": "MA-30 Fairness", + "title_en": "MA-30 Fairness", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0002_Maßnahmen/MA-30_Fairness.md", + "referenced_ids": [ + "QM-57" + ], + "external_refs": [], + "tags": [ + "Qualitätsmaßnahme" + ], + "share": true + }, + { + "id": "QM-01", + "kind": "metric", + "title_de": "QM-01 MeanAbsoluteError", + "title_en": "QM-01 MeanAbsoluteError", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-01_MeanAbsoluteError.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-02", + "kind": "metric", + "title_de": "QM-02 Mittlerer quadratischer Fehler", + "title_en": "QM-02 Mittlerer quadratischer Fehler", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-02_RootMeanSquareError.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-03", + "kind": "metric", + "title_de": "QM-03 F-Maß", + "title_en": "QM-03 F-Measure", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-03_F-Measure.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-04", + "kind": "metric", + "title_de": "QM-04 Genauigkeit", + "title_en": "QM-04 Genauigkeit", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-04_Accuracy.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-05", + "kind": "metric", + "title_de": "QM-05 Präzision", + "title_en": "QM-05 Precision", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-05_Precision.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-06", + "kind": "metric", + "title_de": "QM-06 Recall", + "title_en": "QM-06 Recall", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-06_Recall.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-07", + "kind": "metric", + "title_de": "QM-07 Spezifizität", + "title_en": "QM-07 Spezifität", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-07_Specificity.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-08", + "kind": "metric", + "title_de": "QM-08 Lernkurven", + "title_en": "QM-08 LearningCurve", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-08_LearningCurve.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-09", + "kind": "metric", + "title_de": "QM-09 KonfidenzNiveau", + "title_en": "QM-09 KonfidenzNiveau", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-09_KonfidenzNiveau.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-10", + "kind": "metric", + "title_de": "QM-10-1 Principal Component Analysis", + "title_en": "QM-10-1 Principal Component Analysis", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-10_Dimension Reduction/QM-10-1_PrincipalComponentAnalysis.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "#metric-method", + "#ML-DimRed", + "metric-method", + "ML-DimRed" + ], + "share": true + }, + { + "id": "QM-10", + "kind": "metric", + "title_de": "QM-10-2_Clustergraph AnalysisQM-10-2 Clustergraph Analysis", + "title_en": "QM-10-2_Clustergraph Analysis", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-10_Dimension Reduction/QM-10-2_Clustergraph Analysis.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "#ML-DimRed", + "ML-DimRed" + ], + "share": true + }, + { + "id": "QM-10", + "kind": "metric", + "title_de": "QM-10-3 RobustPrincipalComponentAnalysis", + "title_en": "QM-10-3_RobustPrincipalComponentAnalysis", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-10_Dimension Reduction/QM-10-3_RobustPrincipalComponentAnalysis.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-10", + "kind": "metric", + "title_de": "QM-10 Dimensionsreduktion", + "title_en": "QM-10 Dimension Reduction", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-10_Dimension Reduction/QM-10_Dimension Reduction.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-11", + "kind": "metric", + "title_de": "QM-11-1 Pearson-Korrelationskoeffizient", + "title_en": "QM-11-1 Pearson-Korrelationskoeffizient", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-11_Korrelationskoeffizienten/QM-11-1_Pearson-Korrelationskoeffizient.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Corr" + ], + "share": true + }, + { + "id": "QM-11", + "kind": "metric", + "title_de": "QM-11-2 Spearman-Rangkorrelationskoeffizient", + "title_en": "QM-11-2 Spearman-Rangkorrelationskoeffizient", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-11_Korrelationskoeffizienten/QM-11-2_Spearman-Rangkorrelationskoeffizient.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Corr" + ], + "share": true + }, + { + "id": "QM-11", + "kind": "metric", + "title_de": "QM-11-3 Kendalls Tau", + "title_en": "QM-11-3 Kendalls Tau", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-11_Korrelationskoeffizienten/QM-11-3_Kendalls Tau.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Corr" + ], + "share": true + }, + { + "id": "QM-11", + "kind": "metric", + "title_de": "QM-11-4 Punktbiserialer Korrelationskoeffizient", + "title_en": "QM-11-4_Koeffizient der punktbiserialen Korrelation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-11_Korrelationskoeffizienten/QM-11-4_Koeffizient der punktbiserialen Korrelation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Corr" + ], + "share": true + }, + { + "id": "QM-11", + "kind": "metric", + "title_de": "QM-11-5 Phi-Koeffizient", + "title_en": "QM-11-5 Phi-Koeffizient", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-11_Korrelationskoeffizienten/QM-11-5_Phi-Koeffizient.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Corr" + ], + "share": true + }, + { + "id": "QM-11", + "kind": "metric", + "title_de": "QM-11 Korrelationskoeffizient(diverse)", + "title_en": "QM-11 Korrelationskoeffizient(diverse)", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-11_Korrelationskoeffizienten/QM-11_Korrelationskoeffizient(diverse).md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-12", + "kind": "metric", + "title_de": "QM-12 Prozent fehl. Variablen", + "title_en": "QM-12 Prozent fehl. Variablen", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-12_Prozentsatz auf Daten.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-13", + "kind": "metric", + "title_de": "QM-13 Lineare Diskriminanzanalyse", + "title_en": "QM-13 Linear Discriminant Analysis", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-13 Linear Discriminant Analysis.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-15", + "kind": "metric", + "title_de": "QM-15 SixSigmaProcess", + "title_en": "QM-15 SixSigmaProcess", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-15_SixSigmaProcess.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-16", + "kind": "metric", + "title_de": "QM-16-1 Interrater-Reliabilität", + "title_en": "QM-16-1 Interrater-Reliabilität", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-16_Reliability/QM-16-1_Inter Rater Reliability.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "#ML-Reliability", + "ML-Reliability" + ], + "share": true + }, + { + "id": "QM-16", + "kind": "metric", + "title_de": "QM-16-2 Test-Retest-Reliabilität", + "title_en": "QM-16-2 Test-Retest-Reliabilität", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-16_Reliability/QM-16-2_Test-Retest-Reliability.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "#ML-Reliability", + "ML-Reliability" + ], + "share": true + }, + { + "id": "QM-16", + "kind": "metric", + "title_de": "QM-16-3 Split-Half-Reliability", + "title_en": "QM-16-3 Split-Half-Reliability", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-16_Reliability/QM-16-3_Split-Half-Reliability.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "#ML-Reliability", + "ML-Reliability" + ], + "share": true + }, + { + "id": "QM-16", + "kind": "metric", + "title_de": "QM-16-4 Cronsbachsches Alpha", + "title_en": "QM-16-4 Cronsbachsches Alpha", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-16_Reliability/QM-16-4_Cronsbach Alpha.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "#ML-Reliability", + "ML-Reliability" + ], + "share": true + }, + { + "id": "QM-16", + "kind": "metric", + "title_de": "QM-16 Zuverlässigkeit", + "title_en": "QM-16 Zuverlässigkeit", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-16_Reliability/QM-16_Reliability.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-17", + "kind": "metric", + "title_de": "QM-17 Abdeckungsgrad von Auditmaßnahmen", + "title_en": "QM-17 Abdeckungsgrad", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-17_CoverageLevel.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-18", + "kind": "metric", + "title_de": "QM-18 Häufigkeits- und Gewichtungsfeldern", + "title_en": "QM-18 Häufigkeits- und Gewichtungsfeldern", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-18_Frequency and weighting fields.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-19", + "kind": "metric", + "title_de": "QM-19 Erklärte Varianz", + "title_en": "QM-19 Erklärte Varianz", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-19_Explained Variance.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-21", + "kind": "metric", + "title_de": "QM-21 Kumulative erklärte Varianz", + "title_en": "QM-21 Kumulative erklärte Varianz", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-21_Cummulative_explained_variance.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-22", + "kind": "metric", + "title_de": "QM-22 Rekonstruktionsfehler", + "title_en": "QM-22 Rekonstruktionsfehler", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-22_ReconstructionError.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-23", + "kind": "metric", + "title_de": "QM-23 Mittlerer quadratischer Abweichung", + "title_en": "QM-23 Mittlerer quadratischer Abweichung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-23_MeanSquaredError.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-25", + "kind": "metric", + "title_de": "QM-25-1 Variance-Treshold", + "title_en": "QM-25-1 Variance-Treshold", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-25_Feature Importance Scores/QM-25-1_Variance-Treshold.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-FeatureImpScore" + ], + "share": true + }, + { + "id": "QM-25", + "kind": "metric", + "title_de": "QM-25 Feature Importance Scores (diverse)", + "title_en": "QM-25 Feature Importance Scores (diverse)", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-25_Feature Importance Scores/QM-25_Feature Importance Scores.md", + "referenced_ids": [ + "QM-26", + "QM-27", + "QM-28", + "QM-29" + ], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-26", + "kind": "metric", + "title_de": "QM-26 Gini-Importance", + "title_en": "QM-26 Gini-Importance", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-25_Feature Importance Scores/QM-26_Gini Importance Score.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-FeatureImpScore" + ], + "share": true + }, + { + "id": "QM-27", + "kind": "metric", + "title_de": "QM-27 Permutation Feature Importance", + "title_en": "QM-27 Permutation Feature Importance", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-25_Feature Importance Scores/QM-27_Permutation Feature Importance.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-FeatureImpScore" + ], + "share": true + }, + { + "id": "QM-28", + "kind": "metric", + "title_de": "QM-28 Koeffizienten linearer Modelle", + "title_en": "QM-28 Koeffizienten linearer Modelle", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-25_Feature Importance Scores/QM-28_Koeffizienten linearer Modelle.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-FeatureImpScore" + ], + "share": true + }, + { + "id": "QM-29", + "kind": "metric", + "title_de": "QM-29 SHAP Feature Importance", + "title_en": "QM-29 SHAP Feature Importance", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-25_Feature Importance Scores/QM-29_SHAP Feature Importance.md", + "referenced_ids": [ + "QM-57" + ], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-FeatureImpScore" + ], + "share": true + }, + { + "id": "QM-30", + "kind": "metric", + "title_de": "QM-30 Literatur Recherche", + "title_en": "QM-30 Literatur Recherche", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-30_LiteraturRecherche.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-31", + "kind": "metric", + "title_de": "QM-31 Prozessanalysemetriken", + "title_en": "QM-31 Prozessanalysemetriken", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-31_ProcessAnalysis.md", + "referenced_ids": [], + "external_refs": [ + { + "framework": "EU GDPR", + "citation": null + } + ], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-32", + "kind": "metric", + "title_de": "QM-32 Reguläre Ausdrücke", + "title_en": "QM-32 Reguläre Ausdrücke", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-32_RegularExpression.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-34", + "kind": "metric", + "title_de": "QM-34 Validierung der Feldgröße", + "title_en": "QM-34 Validierung der Feldgröße", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-34_FieldSizeValidation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-35", + "kind": "metric", + "title_de": "QM-35 ConfusionMatrix", + "title_en": "QM-35 ConfusionMatrix", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-35_ConfusionMatrix.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-36", + "kind": "metric", + "title_de": "QM-36 Area Under Curce (AUC)", + "title_en": "QM-36 Area Under Curce (AUC)", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-36_AreaUnderCurce-ReceiverOperatingCharacteristic (AUC-ROC).md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-37", + "kind": "metric", + "title_de": "QM-37 Area Under Precision-Recall Curve (AUPRC)", + "title_en": "QM-37 Area Under Precision-Recall Curve (AUPRC)", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-37_Area Under Precision-Recall Curve (AUPRC).md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-38", + "kind": "metric", + "title_de": "QM-38 Gewichtete Metriken", + "title_en": "QM-38 Gewichtete Metriken", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-38_WeightedMetrics.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-39", + "kind": "metric", + "title_de": "QM-39 Power Analyse", + "title_en": "QM-39 Power Analyse", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-39_PowerAnalysis.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-40", + "kind": "metric", + "title_de": "QM-40 Chi-Quadrat Test", + "title_en": "QM-40 Chi-Quadrat Test", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-40_Chi-Quadrat Test.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-41", + "kind": "metric", + "title_de": "QM-41 KonfidenzIntervall", + "title_en": "QM-41 KonfidenzIntervall", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-41_KonfidenzIntervalle.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-43", + "kind": "metric", + "title_de": "QM-43 Kreuzabgleich", + "title_en": "QM-43 Kreuzabgleich", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-43_Kreuzabgleich.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-44", + "kind": "metric", + "title_de": "QM-44-1 Mittelwert Imputation", + "title_en": "QM-44-1 Mittelwert Imputation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-1_Mittelwert Imputation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Data-Imp" + ], + "share": true + }, + { + "id": "QM-44", + "kind": "metric", + "title_de": "QM-44-2 Median Imputation", + "title_en": "QM-44-2 Median Imputation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-2_Median Imputation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Data-Imp" + ], + "share": true + }, + { + "id": "QM-44", + "kind": "metric", + "title_de": "QM-44-3 Modus Imputation", + "title_en": "QM-44-3 Modus Imputation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-3_Modus Imputation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Data-Imp" + ], + "share": true + }, + { + "id": "QM-44", + "kind": "metric", + "title_de": "QM-44-4 Multiple Imputation", + "title_en": "QM-44-4 Multiple Imputation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-4_Multiple Imputation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Data-Imp" + ], + "share": true + }, + { + "id": "QM-44", + "kind": "metric", + "title_de": "QM-44-5 KNN Imputation", + "title_en": "QM-44-5 KNN Imputation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-5_KNN Imputation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Data-Imp" + ], + "share": true + }, + { + "id": "QM-44", + "kind": "metric", + "title_de": "QM-44-6 Hot Deck Imputation", + "title_en": "QM-44-6 Hot Deck Imputation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-6_Hot Deck Imputation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Data-Imp" + ], + "share": true + }, + { + "id": "QM-44", + "kind": "metric", + "title_de": "QM-44-7 LLM-basierte Imputation", + "title_en": "QM-44-7 LLM-basierte Imputation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-7_LLM-Based Imputation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Data-Imp" + ], + "share": true + }, + { + "id": "QM-44", + "kind": "metric", + "title_de": "QM-44-8 Regression Imputation", + "title_en": "QM-44-8 Regression Imputation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-8_Regression Imputation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Data-Imp" + ], + "share": true + }, + { + "id": "QM-44", + "kind": "metric", + "title_de": "QM-44-9 Diffusion Imputation/Augmentation", + "title_en": "QM-44-9 Diffusion Imputation/Augmentation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44-9_Diffusion Imputation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-44", + "kind": "metric", + "title_de": "QM-44 Data Imputation Methoden", + "title_en": "QM-44 Data Imputation Methods", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-44_DataImputation-Methoden/QM-44_Data Imputation Methods.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-45", + "kind": "metric", + "title_de": "QM-45 Prior Ermittlung", + "title_en": "QM-45 Prior Ermittlung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-45_Prior Elicitation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-46", + "kind": "metric", + "title_de": "QM-46 Daten Standardisierung", + "title_en": "QM-46 Daten Standardisierung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-46_DataStandardizing.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-47", + "kind": "metric", + "title_de": "QM-47 Kovarianz Matrix", + "title_en": "QM-47 Kovarianz Matrix", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-47_KovarianzMatrix.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-48", + "kind": "metric", + "title_de": "QM-48 Eigenvektoren", + "title_en": "QM-48 Eigenvektoren", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-48_Eigenwerte_Vektoren.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-49", + "kind": "metric", + "title_de": "QM-49 Wasserstein Distanz", + "title_en": "QM-49 Wasserstein Distanz", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-49_Wasserstein Distance.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-50", + "kind": "metric", + "title_de": "QM-50 Little's MCAR Test", + "title_en": "QM-50 Little's MCAR Test", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-50_Little's MCAR Test.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-33", + "kind": "metric", + "title_de": "QM-33_FalsePositiveRate", + "title_en": "QM-33_FalsePositiveRate", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-33_FalsePositiveRate.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-51", + "kind": "metric", + "title_de": "QM-51-10 Kolmogorov-Smirnov-Test", + "title_en": "QM-51-10 Kolmogorov-Smirnov-Test", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-51_DistributionAnalysis/QM-51-10_Kolmogorov Smirnov Test.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "DA-Type" + ], + "share": true + }, + { + "id": "QM-51", + "kind": "metric", + "title_de": "QM-51-11 Radon-Kolmogorov-Smirnov Test (RKS)", + "title_en": "QM-51-11 Radon-Kolmogorov-Smirnov Test (RKS)", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-51_DistributionAnalysis/QM-51-11_Radon-Kolmogorov-Smirnov Test (RKS).md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "#DA-Type", + "DA-Type" + ], + "share": true + }, + { + "id": "QM-51", + "kind": "metric", + "title_de": "QM-51-1 Normalverteilung", + "title_en": "QM-51-1 Normalverteilung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-51_DistributionAnalysis/QM-51-1_Normalverteilung.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "DA-Type", + "DA-Type-Multi" + ], + "share": true + }, + { + "id": "QM-51", + "kind": "metric", + "title_de": "QM-51-2 Binomialverteilung", + "title_en": "QM-51-2 Binomialverteilung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-51_DistributionAnalysis/QM-51-2_Binomialverteilung.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "DA-Type" + ], + "share": true + }, + { + "id": "QM-51", + "kind": "metric", + "title_de": "QM-51-3 Exponentialverteilung", + "title_en": "QM-51-3 Exponentialverteilung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-51_DistributionAnalysis/QM-51-3_Exponentialverteilung.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "DA-Type" + ], + "share": true + }, + { + "id": "QM-51", + "kind": "metric", + "title_de": "QM-51-4 Gleichverteilung", + "title_en": "QM-51-4 Gleichverteilung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-51_DistributionAnalysis/QM-51-4_Gleichverteilung.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "DA-Type" + ], + "share": true + }, + { + "id": "QM-51", + "kind": "metric", + "title_de": "QM-51-5 Chi-Quadrat Verteilung", + "title_en": "QM-51-5 Chi-Quadrat Verteilung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-51_DistributionAnalysis/QM-51-5_Chi-Quadrat Verteilung.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "DA-Type" + ], + "share": true + }, + { + "id": "QM-51", + "kind": "metric", + "title_de": "QM-51-6 t-Verteilung", + "title_en": "QM-51-6 t-Verteilung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-51_DistributionAnalysis/QM-51-6_t-Verteilung.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "DA-Type", + "DA-Type-Multi" + ], + "share": true + }, + { + "id": "QM-51", + "kind": "metric", + "title_de": "QM-51-7 F-Verteilung", + "title_en": "QM-51-7 F-Verteilung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-51_DistributionAnalysis/QM-51-7_F-Verteilung.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-51", + "kind": "metric", + "title_de": "QM-51-8 Gamma Verteilung", + "title_en": "QM-51-8 Gamma Verteilung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-51_DistributionAnalysis/QM-51-8_Gamma Verteilung.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "DA-Type" + ], + "share": true + }, + { + "id": "QM-51", + "kind": "metric", + "title_de": "QM-51-9 Weibull Verteilung", + "title_en": "QM-51-9 Weibull Verteilung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-51_DistributionAnalysis/QM-51-9_Weibull Verteilung.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "DA-Type" + ], + "share": true + }, + { + "id": "QM-51", + "kind": "metric", + "title_de": "QM-51 Verteilungstypen", + "title_en": "QM-51 Verteilungstypen", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-51_DistributionAnalysis/QM-51_DistributionTypes.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-52", + "kind": "metric", + "title_de": "QM-52-01 Durchschnittswert", + "title_en": "QM-52-01 Durchschnittswert", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-52-01_Average Value.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Desc-Basics" + ], + "share": true + }, + { + "id": "QM-52", + "kind": "metric", + "title_de": "QM-52-02 Median", + "title_en": "QM-52-02 Median", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-52-02_Median.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "#ML-Desc-Basics", + "ML-Desc-Basics" + ], + "share": true + }, + { + "id": "QM-52", + "kind": "metric", + "title_de": "QM-52-03_Modus", + "title_en": "QM-52-03 Modus", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-52-03_Modus.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Desc-Basics" + ], + "share": true + }, + { + "id": "QM-52", + "kind": "metric", + "title_de": "QM-52-04 Standardabweichung", + "title_en": "QM-52-04 Standardabweichung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-52-04_StandardDeviation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Desc-Basics" + ], + "share": true + }, + { + "id": "QM-52", + "kind": "metric", + "title_de": "QM-52-05 Streuung", + "title_en": "QM-52-05 Streuung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-52-05_Streuung.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Desc-Basics" + ], + "share": true + }, + { + "id": "QM-52", + "kind": "metric", + "title_de": "QM-52-06 Spannweite", + "title_en": "QM-52-06 Spannweite", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-52-06_Spannweite.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Desc-Basics" + ], + "share": true + }, + { + "id": "QM-52", + "kind": "metric", + "title_de": "QM-52-07 Interquartilsabstand", + "title_en": "QM-52-07 Interquartilsabstand", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-52-07_Interquartilsabstand.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Desc-Basics" + ], + "share": true + }, + { + "id": "QM-52", + "kind": "metric", + "title_de": "QM-52-08 Visualisierungsmethoden", + "title_en": "QM-52-08 Visualisierungsmethoden", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-52-08_VisualizationTypes.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Desc-Basics" + ], + "share": true + }, + { + "id": "QM-52", + "kind": "metric", + "title_de": "QM-52 Techniken der deskriptiven Statistik", + "title_en": "QM-52 Descriptive-Statistics", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-52_Descriptive-Statistics.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-20", + "kind": "metric", + "title_de": "QM-20 Scree-Plot", + "title_en": "QM-20 Scree-Plot", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-54_ChartTypes/QM-20_Scree-Plot.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ChartTypes" + ], + "share": true + }, + { + "id": "QM-24", + "kind": "metric", + "title_de": "QM-24 Bi-Plot", + "title_en": "QM-24 Bi-Plot", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-54_ChartTypes/QM-24_Biplot.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ChartTypes" + ], + "share": true + }, + { + "id": "QM-42", + "kind": "metric", + "title_de": "QM-42 QQ-Diagramm", + "title_en": "QM-42 QQ-Diagramm", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-54_ChartTypes/QM-42_QQ-Diagramm.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ChartTypes" + ], + "share": true + }, + { + "id": "QM-54", + "kind": "metric", + "title_de": "QM-54-1 SHAP-Summaryplot", + "title_en": "QM-54-1 SHAP-Summaryplot", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-54_ChartTypes/QM-54-1_SHAP-Summaryplot.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ChartTypes" + ], + "share": true + }, + { + "id": "QM-54", + "kind": "metric", + "title_de": "QM-54-2 SHAP-Dependence-Plot", + "title_en": "QM-54-2 SHAP-Dependence-Plot", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-54_ChartTypes/QM-54-2_SHAP-Dependence-Plot.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ChartTypes" + ], + "share": true + }, + { + "id": "QM-54", + "kind": "metric", + "title_de": "QM-54-3 SHAP-Force-Plot", + "title_en": "QM-54-3 SHAP-Force-Plot", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-54_ChartTypes/QM-54-3_SHAP-Force-Plot.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ChartTypes" + ], + "share": true + }, + { + "id": "QM-54", + "kind": "metric", + "title_de": "QM-54 ChartTypes", + "title_en": "QM-54 ChartTypes", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-52_Descriptive Statistics/QM-54_ChartTypes/QM-54_ChartTypes.md", + "referenced_ids": [ + "QM-20", + "QM-24", + "QM-42" + ], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-53", + "kind": "metric", + "title_de": "QM-53-1 Logistische Regression", + "title_en": "QM-53-1 Logistische Regression", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-53_Regression-Methoden/QM-53-1_LogisticRegression.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "#ML-RegMet", + "ML-RegMet" + ], + "share": true + }, + { + "id": "QM-53", + "kind": "metric", + "title_de": "QM-53-2 Lineare Regression", + "title_en": "QM-53-2 Lineare Regression", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-53_Regression-Methoden/QM-53-2_LinearRegression.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "#ML-RegMet", + "ML-RegMet" + ], + "share": true + }, + { + "id": "QM-53", + "kind": "metric", + "title_de": "QM-53 Regression Methoden", + "title_en": "QM-53 Regression Methoden", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-53_Regression-Methoden/QM-53_Regression Methods.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-55", + "kind": "metric", + "title_de": "QM-55 Bestimmtheitsmaß", + "title_en": "QM-55 Bestimmtheitsmaß", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-55_Coefficient of determination (PCA).md", + "referenced_ids": [ + "QM-19" + ], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-56", + "kind": "metric", + "title_de": "QM-56-1 Min/Max Skalierung", + "title_en": "QM-56-1 Min/Max Skalierung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-56_Normalization/QM-56-1_MinMaxDatascaling.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "Normalization" + ], + "share": true + }, + { + "id": "QM-56", + "kind": "metric", + "title_de": "QM-56-2 Z-Score Normalization", + "title_en": "QM-56-2 Z-Score Normalization", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-56_Normalization/QM-56-2_Z-Score Normalization.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "Normalization" + ], + "share": true + }, + { + "id": "QM-56", + "kind": "metric", + "title_de": "QM-56-3 L1-Normalization", + "title_en": "QM-56-3 L1-Normalization", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-56_Normalization/QM-56-3_L1-Normalization.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "Normalization" + ], + "share": true + }, + { + "id": "QM-56", + "kind": "metric", + "title_de": "QM-56-4 Logarithmische Transformation", + "title_en": "QM-56-4 Logarithmische Transformation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-56_Normalization/QM-56-4_LogarithmicTransformation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "Normalization" + ], + "share": true + }, + { + "id": "QM-56", + "kind": "metric", + "title_de": "QM-56-5 L2-Normalisierung", + "title_en": "QM-56-5 L2-Normalisierung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-56_Normalization/QM-56-5_L2-Normalization.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "Normalization" + ], + "share": true + }, + { + "id": "QM-56", + "kind": "metric", + "title_de": "QM-56-6 Batch Normalization", + "title_en": "QM-56-6 Batch Normalization", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-56_Normalization/QM-56-6_Batch Normalization.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "Normalization" + ], + "share": true + }, + { + "id": "QM-56", + "kind": "metric", + "title_de": "QM-56 Normalisierung", + "title_en": "QM-56 Normalisierung", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-56_Normalization/QM-56_Normalization.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-57", + "kind": "metric", + "title_de": "QM-57-1 Synthetic Minority Over-sampling Technique", + "title_en": "QM-57-1 Synthetic Minority Over-sampling Technique", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-57_Fairness-Methoden/QM-57-1_SMOTE.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-57", + "kind": "metric", + "title_de": "QM-57-2 LFR", + "title_en": "QM-57-2 LFR", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-57_Fairness-Methoden/QM-57-2_LFR.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-58", + "kind": "metric", + "title_de": "QM-58-1 Laplacescher Mechanismus", + "title_en": "QM-58-1 Laplacescher Mechanismus", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-58_DiffentialPrivacyMethods/QM-58-1_Laplacescher Mechanismus.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "DifferentialPrivacy" + ], + "share": true + }, + { + "id": "QM-58", + "kind": "metric", + "title_de": "QM-58-2 Exponentialmechanismus", + "title_en": "QM-58-2 Exponentialmechanismus", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-58_DiffentialPrivacyMethods/QM-58-2_Exponentialmechanismus.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "DifferentialPrivacy" + ], + "share": true + }, + { + "id": "QM-58", + "kind": "metric", + "title_de": "QM-58-3 Lokale differentielle Privatsphäre", + "title_en": "QM-58-3 Lokale differentielle Privatsphäre", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-58_DiffentialPrivacyMethods/QM-58-3_LokaleDifferentiellePrivatsphäre.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "DifferentialPrivacy" + ], + "share": true + }, + { + "id": "QM-58", + "kind": "metric", + "title_de": "QM-58 Methoden der \"Differential Privacy\"", + "title_en": "QM-58 DifferentialPrivacyMethods", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-58_DiffentialPrivacyMethods/QM-58_DifferentialPrivacyMethods.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-59", + "kind": "metric", + "title_de": "QM-59-1 Metadatenkataloge", + "title_en": "QM-59-1 Metadatenkataloge", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-59 Metadaten/QM-59-1_Metadatenkataloge.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "Methods-Meta" + ], + "share": true + }, + { + "id": "QM-59", + "kind": "metric", + "title_de": "QM-59-2 Integration von Metadaten", + "title_en": "QM-59-2 Integration von Metadaten", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-59 Metadaten/QM-59-2_Integration von Metadaten.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "Methods-Meta" + ], + "share": true + }, + { + "id": "QM-59", + "kind": "metric", + "title_de": "QM-59-3_Metadaten-Vollständigkeit", + "title_en": "QM-59-3_Metadaten-Vollständigkeit", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-59 Metadaten/QM-59-3_Metadaten-Vollständigkeit.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "Methods-Meta" + ], + "share": true + }, + { + "id": "QM-59", + "kind": "metric", + "title_de": "QM-59 Metadatenmanagement", + "title_en": "QM-59 Metadatenmanagement", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-59 Metadaten/QM-59_Metadatenmanagement.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-60", + "kind": "metric", + "title_de": "QM-60 Provinienztracking-Blockchain", + "title_en": "QM-60 Provinienztracking-Blockchain", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-60_Provinienztracking-Blockchain.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-61", + "kind": "metric", + "title_de": "QM-61-1 Marginal Contribution Approach", + "title_en": "QM-61-1 Marginal Contribution Approach", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-61_Datenbewertungsmethoden/QM-61-1_Marginal Contribution Importance.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "#ML-Data-Valuation", + "ML-Data-Valuation" + ], + "share": true + }, + { + "id": "QM-61", + "kind": "metric", + "title_de": "QM-61-2 Data Re-weighting Strategies", + "title_en": "QM-61-2 Data Re-weighting Strategies", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-61_Datenbewertungsmethoden/QM-61-2_Data Re-weighting Strategies.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Data-Valuation" + ], + "share": true + }, + { + "id": "QM-61", + "kind": "metric", + "title_de": "QM-61-3 Neural Dynamic Data Valuation", + "title_en": "QM-61-3 Neural Dynamic Data Valuation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-61_Datenbewertungsmethoden/QM-61-3_Neural Dynamic Data Valuation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Data-Valuation" + ], + "share": true + }, + { + "id": "QM-61", + "kind": "metric", + "title_de": "QM-61 Datenpunkt-Einflussanalyse", + "title_en": "QM-61 Datenpunkt-Einflussanalyse", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-61_Datenbewertungsmethoden/QM-61_Datenpunkteinflussanalyse.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "ML-Data-Valuation" + ], + "share": true + }, + { + "id": "QM-62", + "kind": "metric", + "title_de": "QM-62 Verzeichnis von Verarbeitungstätigkeit", + "title_en": "QM-62 Verzeichnis von Verarbeitungstätigkeit", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-62_Verzeichnis von Verarbeitungstätigkeit.md", + "referenced_ids": [], + "external_refs": [ + { + "framework": "EU GDPR", + "citation": "Artikel 32" + }, + { + "framework": "EU GDPR", + "citation": null + }, + { + "framework": "EU GDPR", + "citation": "Art. 49" + }, + { + "framework": "BSI AIC4", + "citation": null + }, + { + "framework": "AI Act", + "citation": "Artikel 10" + }, + { + "framework": "BSI Grundschutz", + "citation": null + } + ], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-63", + "kind": "metric", + "title_de": "QM-63-1 Horizontal Federated Learning", + "title_en": "QM-63-1 Horizontal Federated Learning", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-63_FederatedLearning/QM-63-1_Horizontal Federated Learning.md", + "referenced_ids": [], + "external_refs": [ + { + "framework": "EU GDPR", + "citation": null + } + ], + "tags": [ + "Qualitätsmetrik", + "#ML-FedLearn", + "ML-FedLearn" + ], + "share": true + }, + { + "id": "QM-63", + "kind": "metric", + "title_de": "QM-63-2 Vertical Federated Learning", + "title_en": "QM-63-2 Vertical Federated Learning", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-63_FederatedLearning/QM-63-2_Vertical Federated Learning.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "#ML-FedLearn", + "ML-FedLearn" + ], + "share": true + }, + { + "id": "QM-63", + "kind": "metric", + "title_de": "QM-63-3 Federated Transfer Learning", + "title_en": "QM-63-3 Federated Transfer Learning", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-63_FederatedLearning/QM-63-3_Federated Transfer Learning.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik", + "#ML-FedLearn", + "ML-FedLearn" + ], + "share": true + }, + { + "id": "QM-63", + "kind": "metric", + "title_de": "QM-63 Federated Learning", + "title_en": "QM-63 Federated Learning", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-63_FederatedLearning/QM-63_Federated Learning.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-64", + "kind": "metric", + "title_de": "QM-64 Similarity Scores", + "title_en": "QM-64 Similarity Scores", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-64_Similarity Scores.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-65", + "kind": "metric", + "title_de": "QM-65 AI or S-Bom", + "title_en": "QM-65 AI or S-Bom", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-65_AI_or_S_Bom.md", + "referenced_ids": [], + "external_refs": [ + { + "framework": "AI Act", + "citation": null + } + ], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-67", + "kind": "metric", + "title_de": "QM-67 Provenienz-Vollständigkeitsrate", + "title_en": "QM-67 Provenienz-Vollständigkeitsrate", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-67_Provenienz_Vollständigkeitsrate.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-68", + "kind": "metric", + "title_de": "QM-68-1 Shannon-Index", + "title_en": "QM-68-1 Shannon-Index", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-68_Diversity Indices Metrics/QM-68-1_Shannon-Index.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-68", + "kind": "metric", + "title_de": "QM-68-2 Simpson-Index", + "title_en": "QM-68-2 Simpson-Index", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-68_Diversity Indices Metrics/QM-68-2_Simpson-Index.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-68", + "kind": "metric", + "title_de": "QM-68-3 Pielous Eveness Index", + "title_en": "QM-68-3 Pielous Eveness Index", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-68_Diversity Indices Metrics/QM-68-3_Pielous Eveness Index.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-68", + "kind": "metric", + "title_de": "QM-68-4 Berger-Parker Index", + "title_en": "QM-68-4 Berger-Parker Index", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-68_Diversity Indices Metrics/QM-68-4_Berger Parker Index.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-68", + "kind": "metric", + "title_de": "QM-68-5 Margalefs Richness Index", + "title_en": "QM-68-5 Margalefs Richness Index", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-68_Diversity Indices Metrics/QM-68-5_Margalefs Richness Index.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-68", + "kind": "metric", + "title_de": "QM-68-6 Menhinicks Index", + "title_en": "QM-68-6 Menhinicks Index", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-68_Diversity Indices Metrics/QM-68-6_Menhinicks Index.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-69", + "kind": "metric", + "title_de": "QM-69-1 Hold Out", + "title_en": "QM-69-1 Hold Out", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-69_DataSplitting/QM-69-1_Hold Out.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-69", + "kind": "metric", + "title_de": "QM-69-2 K-Fold Cross Validation", + "title_en": "QM-69-2 K-Fold Cross Validation", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-69_DataSplitting/QM-69-2_K-Fold Cross Validation.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-70", + "kind": "metric", + "title_de": "QM-70 Datasheet", + "title_en": "QM-70 Datasheet", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-70_Datasheet.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + }, + { + "id": "QM-71", + "kind": "metric", + "title_de": "QM-71 Polynomiale Features", + "title_en": "QM-71 Polynomiale Features", + "source_path": "0000_Markdown/0001_Criteria,Measurements,Metrics/0003_Qualitätsmetriken_methoden/QM-71 Polynomiale Features.md", + "referenced_ids": [], + "external_refs": [], + "tags": [ + "Qualitätsmetrik" + ], + "share": true + } + ] +} \ No newline at end of file diff --git a/control-pipeline/migrations/011_derived_controls.sql b/control-pipeline/migrations/011_derived_controls.sql new file mode 100644 index 0000000..2995dc9 --- /dev/null +++ b/control-pipeline/migrations/011_derived_controls.sql @@ -0,0 +1,58 @@ +-- Migration 011: Derived Controls Library (Clean-Room MCs from external sources) +-- Schema: compliance +-- +-- Holds Master Controls + atomic controls + mitigations + metrics that were +-- derived Clean-Room from external regulatory sources (BSI QUAIDAL today, +-- Grundschutz++/CRA/NIST AI RMF next). Kept separate from the gpre2 +-- master_controls table because: +-- 1) The shape is different (no object_group/phase concepts). +-- 2) Source-Layer-Trennung: derivations from external IP must be cleanly +-- separable from internally-generated artifacts. +-- 3) Each row carries the licence + provenance for due diligence. +-- +-- Run: ssh macmini "docker exec -i bp-core-postgres psql -U breakpilot -d breakpilot_db" \ +-- < control-pipeline/migrations/011_derived_controls.sql + +SET search_path TO compliance, public; + +CREATE TABLE IF NOT EXISTS derived_controls ( + id UUID PRIMARY KEY DEFAULT gen_random_uuid(), + derived_id VARCHAR(200) UNIQUE NOT NULL, -- e.g. MC-AI-DATA-QKB-01-repraesentativitaet + kind VARCHAR(30) NOT NULL, -- criterion | building_block | measure | metric + canonical_name VARCHAR(300) NOT NULL, + description TEXT NOT NULL, -- our own wording, never the original + regulation_anchor TEXT, -- e.g. "EU AI Act Art. 10" + related_quaidal_ids JSONB NOT NULL DEFAULT '[]', -- ["QB-03", "QB-04", ...] + external_refs JSONB NOT NULL DEFAULT '[]', -- [{framework, citation}, ...] + source_framework VARCHAR(80) NOT NULL, -- "BSI QUAIDAL" + source_section VARCHAR(80) NOT NULL, -- "QKB-01" + source_url TEXT, + source_commit_sha VARCHAR(80), + source_title_original TEXT, -- original title (label, not protected) + source_license_note TEXT, + plagiarism_score_at_generation NUMERIC(5,4), -- 0..1; gate was 0.20 + generated_by_model VARCHAR(80), + yaml_path TEXT, -- pointer back to source YAML + created_at TIMESTAMPTZ DEFAULT NOW(), + updated_at TIMESTAMPTZ DEFAULT NOW() +); + +CREATE INDEX IF NOT EXISTS idx_derived_controls_kind ON derived_controls(kind); +CREATE INDEX IF NOT EXISTS idx_derived_controls_source_framework ON derived_controls(source_framework); +CREATE INDEX IF NOT EXISTS idx_derived_controls_source_section ON derived_controls(source_section); +CREATE INDEX IF NOT EXISTS idx_derived_controls_related_quaidal_gin + ON derived_controls USING GIN(related_quaidal_ids); + +-- Trigger to keep updated_at fresh +CREATE OR REPLACE FUNCTION trg_derived_controls_set_updated_at() +RETURNS TRIGGER AS $$ +BEGIN + NEW.updated_at = NOW(); + RETURN NEW; +END; +$$ LANGUAGE plpgsql; + +DROP TRIGGER IF EXISTS derived_controls_updated_at ON derived_controls; +CREATE TRIGGER derived_controls_updated_at + BEFORE UPDATE ON derived_controls + FOR EACH ROW EXECUTE FUNCTION trg_derived_controls_set_updated_at(); diff --git a/control-pipeline/scripts/apply_quaidal_to_db.py b/control-pipeline/scripts/apply_quaidal_to_db.py new file mode 100644 index 0000000..c9583c4 --- /dev/null +++ b/control-pipeline/scripts/apply_quaidal_to_db.py @@ -0,0 +1,170 @@ +#!/usr/bin/env python3 +"""Upsert derived QUAIDAL controls from YAML into compliance.derived_controls. + +Reads: + control-pipeline/data/quaidal/master_controls.yaml + control-pipeline/data/quaidal/atomic_controls.yaml + control-pipeline/data/quaidal/mitigations.yaml + control-pipeline/data/quaidal/metrics.yaml + +Writes: compliance.derived_controls (idempotent UPSERT by derived_id) + +Usage: + # Mac Mini direct: + python3 control-pipeline/scripts/apply_quaidal_to_db.py + + # Via SSH (locally, against macmini DB): + DB_HOST=macmini python3 control-pipeline/scripts/apply_quaidal_to_db.py +""" + +from __future__ import annotations + +import argparse +import json +import os +import sys +from pathlib import Path + +try: + import psycopg + import yaml +except ImportError as e: + print(f"ERROR: missing dependency {e.name}. Install with: pip install psycopg[binary] pyyaml", file=sys.stderr) + sys.exit(2) + +REPO_ROOT = Path(__file__).resolve().parents[2] +DATA_DIR = REPO_ROOT / "control-pipeline" / "data" / "quaidal" + +KIND_FILES = { + "criterion": "master_controls.yaml", + "building_block": "atomic_controls.yaml", + "measure": "mitigations.yaml", + "metric": "metrics.yaml", +} + +UPSERT_SQL = """ +INSERT INTO compliance.derived_controls ( + derived_id, kind, canonical_name, description, regulation_anchor, + related_quaidal_ids, external_refs, + source_framework, source_section, source_url, source_commit_sha, + source_title_original, source_license_note, + plagiarism_score_at_generation, generated_by_model, yaml_path +) VALUES ( + %(derived_id)s, %(kind)s, %(canonical_name)s, %(description)s, %(regulation_anchor)s, + %(related_quaidal_ids)s::jsonb, %(external_refs)s::jsonb, + %(source_framework)s, %(source_section)s, %(source_url)s, %(source_commit_sha)s, + %(source_title_original)s, %(source_license_note)s, + %(plagiarism_score)s, %(generated_by_model)s, %(yaml_path)s +) +ON CONFLICT (derived_id) DO UPDATE SET + kind = EXCLUDED.kind, + canonical_name = EXCLUDED.canonical_name, + description = EXCLUDED.description, + regulation_anchor = EXCLUDED.regulation_anchor, + related_quaidal_ids = EXCLUDED.related_quaidal_ids, + external_refs = EXCLUDED.external_refs, + source_framework = EXCLUDED.source_framework, + source_section = EXCLUDED.source_section, + source_url = EXCLUDED.source_url, + source_commit_sha = EXCLUDED.source_commit_sha, + source_title_original = EXCLUDED.source_title_original, + source_license_note = EXCLUDED.source_license_note, + plagiarism_score_at_generation = EXCLUDED.plagiarism_score_at_generation, + generated_by_model = EXCLUDED.generated_by_model, + yaml_path = EXCLUDED.yaml_path +""" + + +def load_yaml_records(yaml_path: Path) -> tuple[list[dict], str | None, str | None]: + if not yaml_path.exists(): + return [], None, None + data = yaml.safe_load(yaml_path.read_text(encoding="utf-8")) + return data.get("controls", []), data.get("commit_sha"), data.get("generated_by_model") + + +def to_row(ctrl: dict, yaml_path: Path, default_model: str | None, default_commit: str | None) -> dict: + source = ctrl.get("source") or {} + return { + "derived_id": ctrl["id"], + "kind": ctrl["kind"], + "canonical_name": ctrl["canonical_name"], + "description": ctrl["description"], + "regulation_anchor": ctrl.get("regulation_anchor"), + "related_quaidal_ids": json.dumps(ctrl.get("related_quaidal_ids", []), ensure_ascii=False), + "external_refs": json.dumps(ctrl.get("external_refs", []), ensure_ascii=False), + "source_framework": source.get("framework", "BSI QUAIDAL"), + "source_section": source.get("section", ""), + "source_url": source.get("url"), + "source_commit_sha": source.get("commit_sha") or default_commit, + "source_title_original": source.get("title_original_de"), + "source_license_note": source.get("license_note"), + "plagiarism_score": ctrl.get("plagiarism_score_at_generation"), + "generated_by_model": default_model, + "yaml_path": str(yaml_path.relative_to(REPO_ROOT)), + } + + +def build_dsn(args: argparse.Namespace) -> str: + if args.dsn: + return args.dsn + return ( + f"host={args.db_host} port={args.db_port} " + f"dbname={args.db_name} user={args.db_user} password={args.db_password}" + ) + + +def main() -> int: + ap = argparse.ArgumentParser(description=__doc__) + ap.add_argument("--dsn", help="Full DSN; overrides individual flags") + ap.add_argument("--db-host", default=os.environ.get("DB_HOST", "localhost")) + ap.add_argument("--db-port", default=os.environ.get("DB_PORT", "5432")) + ap.add_argument("--db-name", default=os.environ.get("DB_NAME", "breakpilot_db")) + ap.add_argument("--db-user", default=os.environ.get("DB_USER", "breakpilot")) + ap.add_argument("--db-password", default=os.environ.get("DB_PASSWORD", "breakpilot")) + ap.add_argument("--dry-run", action="store_true") + args = ap.parse_args() + + total = 0 + rows: list[dict] = [] + for kind, fname in KIND_FILES.items(): + path = DATA_DIR / fname + records, commit, model = load_yaml_records(path) + for rec in records: + rows.append(to_row(rec, path, model, commit)) + if records: + print(f" {fname}: {len(records)} entries", file=sys.stderr) + total += len(records) + + if not rows: + print("ERROR: no YAML records found; run derive_quaidal_mcs.py first", file=sys.stderr) + return 2 + + print(f"Total rows: {total}", file=sys.stderr) + if args.dry_run: + print("Dry run — sample row:", file=sys.stderr) + print(json.dumps({k: (v[:200] if isinstance(v, str) else v) for k, v in rows[0].items()}, indent=2, ensure_ascii=False)) + return 0 + + dsn = build_dsn(args) + print(f"Connecting to {args.db_host}:{args.db_port}/{args.db_name}", file=sys.stderr) + inserted = updated = 0 + with psycopg.connect(dsn) as conn: + with conn.cursor() as cur: + for row in rows: + cur.execute( + "SELECT 1 FROM compliance.derived_controls WHERE derived_id = %s", + (row["derived_id"],), + ) + existed = cur.fetchone() is not None + cur.execute(UPSERT_SQL, row) + if existed: + updated += 1 + else: + inserted += 1 + conn.commit() + print(f"Inserted: {inserted}, Updated: {updated}", file=sys.stderr) + return 0 + + +if __name__ == "__main__": + sys.exit(main()) diff --git a/control-pipeline/scripts/derive_quaidal_mcs.py b/control-pipeline/scripts/derive_quaidal_mcs.py new file mode 100644 index 0000000..aaf124b --- /dev/null +++ b/control-pipeline/scripts/derive_quaidal_mcs.py @@ -0,0 +1,400 @@ +#!/usr/bin/env python3 +"""Clean-Room MC derivation from BSI QUAIDAL. + +For each QUAIDAL entry in the parsed index, ask a local LLM to produce our own +wording for a Master Control / atomic control / mitigation / metric. Reject any +output whose 4-gram overlap with the BSI source text exceeds PLAGIARISM_LIMIT. + +We never store the BSI prose; only our own derived wording plus structural +references (BSI section ID + URL + commit SHA). + +Usage: + # Single entry, prints to stdout for review: + python3 control-pipeline/scripts/derive_quaidal_mcs.py --only QKB-01 --dry-run + + # Full run, writes YAML: + python3 control-pipeline/scripts/derive_quaidal_mcs.py --ollama-host macmini + +Output: control-pipeline/data/quaidal/{master_controls,atomic_controls,mitigations,metrics}.yaml +""" + +from __future__ import annotations + +import argparse +import json +import re +import sys +import time +from dataclasses import dataclass +from pathlib import Path + +try: + import httpx + import yaml +except ImportError as e: + print(f"ERROR: missing dependency {e.name}. Install with: pip install httpx pyyaml", file=sys.stderr) + sys.exit(2) + +REPO_ROOT = Path(__file__).resolve().parents[2] +SOURCE_ROOT = REPO_ROOT / "legal-sources" / "bsi-quaidal" +INDEX_FILE = REPO_ROOT / "control-pipeline" / "data" / "quaidal" / "quaidal_index.json" +OUTPUT_DIR = REPO_ROOT / "control-pipeline" / "data" / "quaidal" + +PLAGIARISM_LIMIT = 0.20 # max share of 4-grams that may appear in BSI source +N_GRAM = 4 +MAX_RETRIES = 3 + +DEFAULT_OLLAMA_URL = "http://macmini:11434" +OLLAMA_MODEL = "qwen3.5:35b-a3b" +QUAIDAL_REPO_URL = "https://github.com/BSI-Bund/QUAIDAL" + +KIND_TO_PROMPT_ROLE = { + "criterion": "Master Control", + "building_block": "atomarer technischer Control", + "measure": "Schutzmaßnahme", + "metric": "messbarer Qualitäts-Indikator", +} + +KIND_TO_OUTPUT_FILE = { + "criterion": "master_controls.yaml", + "building_block": "atomic_controls.yaml", + "measure": "mitigations.yaml", + "metric": "metrics.yaml", +} + + +# --------------------------------------------------------------------------- +# Source-side extraction (kept in memory, never written to disk) +# --------------------------------------------------------------------------- + +FRONTMATTER_RE = re.compile(r"^---\s*\n.*?\n---\s*\n", re.DOTALL) +SECTION_RE = re.compile(r"^###?\s+(.+?)\s*$", re.MULTILINE) + + +def load_source_extract(rel_path: str) -> dict: + """Load BSI source text for ONE entry. Used only for prompt + plagiarism check.""" + path = SOURCE_ROOT / rel_path + text = path.read_text(encoding="utf-8") + + # Strip frontmatter; capture shortdesc separately for the prompt. + fm_match = re.match(r"^---\s*\n(.*?)\n---\s*\n", text, re.DOTALL) + shortdesc = "" + if fm_match: + for line in fm_match.group(1).splitlines(): + if line.lower().startswith("shortdesc:"): + shortdesc = line.split(":", 1)[1].strip() + break + body = FRONTMATTER_RE.sub("", text, count=1) + + # Pull the first 1-2 paragraphs under "Beschreibung" (or whole body if none) + desc_match = re.search(r"###?\s+Beschreibung\s*\n+(.+?)(?:\n###?\s|\Z)", body, re.DOTALL) + description_excerpt = desc_match.group(1).strip() if desc_match else body[:1500].strip() + paragraphs = [p.strip() for p in description_excerpt.split("\n\n") if p.strip()] + description_excerpt = "\n\n".join(paragraphs[:2]) + + return { + "shortdesc": shortdesc, + "description_excerpt": description_excerpt, + "full_body": body, + } + + +# --------------------------------------------------------------------------- +# Plagiarism gate +# --------------------------------------------------------------------------- + +WORD_RE = re.compile(r"\b[\wäöüÄÖÜß]+\b", re.UNICODE) + + +def _tokenize(text: str) -> list[str]: + return [w.lower() for w in WORD_RE.findall(text)] + + +def ngram_overlap(produced: str, source: str, n: int = N_GRAM) -> float: + """Share of produced n-grams that also appear in source.""" + p_tokens = _tokenize(produced) + s_tokens = _tokenize(source) + if len(p_tokens) < n: + return 0.0 + s_grams = {tuple(s_tokens[i : i + n]) for i in range(len(s_tokens) - n + 1)} + if not s_grams: + return 0.0 + p_grams = [tuple(p_tokens[i : i + n]) for i in range(len(p_tokens) - n + 1)] + hits = sum(1 for g in p_grams if g in s_grams) + return hits / len(p_grams) + + +# --------------------------------------------------------------------------- +# LLM prompt + call +# --------------------------------------------------------------------------- + +PROMPT_TEMPLATE = """Du bist Compliance-Engineer bei BreakPilot. Schreibe eine eigenständige Anforderung im Stil einer technischen Kontroll-Spezifikation. + +Quelle: BSI QUAIDAL Sektion {entry_id} ("{title_de}"). Die Quelle steht unter unklarer Lizenz (BSI-Veröffentlichung, § 5 UrhG anwendbar) — wir dürfen die Idee aufgreifen, aber NICHT abschreiben. + +Aufgabe: Formuliere eine eigenständige Anforderung im Stil eines {role}. Anforderungen: +- Eigene Formulierung in deutscher Sprache. Kein Satz darf aus der Quelle übernommen werden, auch nicht teilweise. Synonyme verwenden, Satzbau ändern, Inhalt strukturell anders aufbauen. +- 2-4 Sätze (max 80 Wörter). +- Sprachstil: nüchtern, technisch, normativ ("muss", "ist sicherzustellen", "ist zu prüfen"). +- Bezug auf KI-Trainingsdaten oder KI-Datenqualität, je nach Quelle. +- Nicht die wörtlichen BSI-Beispiele kopieren. + +Quellauszug (NUR zur Orientierung, NICHT abschreiben): +--- +shortdesc: {shortdesc} + +{description_excerpt} +--- + +Antwort: Liefere AUSSCHLIESSLICH die fertige Beschreibung als reinen Text — kein JSON, keine Überschriften, keine Anführungszeichen, keine Quellenangabe.""" + + +def call_ollama(prompt: str, ollama_url: str, model: str, retries: int = 2) -> str: + last_err = None + for attempt in range(retries + 1): + try: + resp = httpx.post( + f"{ollama_url}/api/chat", + json={ + "model": model, + "messages": [{"role": "user", "content": prompt}], + "stream": False, + "options": {"temperature": 0.4}, + "think": False, + }, + timeout=180.0, + ) + resp.raise_for_status() + return resp.json()["message"]["content"].strip() + except (httpx.HTTPError, KeyError, ValueError) as e: + last_err = e + if attempt < retries: + time.sleep(2 ** attempt) + raise RuntimeError(f"Ollama call failed after {retries+1} attempts: {last_err}") + + +def strip_llm_artifacts(text: str) -> str: + """Clean leading/trailing markdown and quotes from LLM output.""" + text = text.strip() + # Strip surrounding code fences + if text.startswith("```"): + text = re.sub(r"^```[a-zA-Z]*\n?", "", text) + text = re.sub(r"\n?```\s*$", "", text) + # Strip surrounding quotes + text = text.strip('"„"”„') + # Drop a leading "Beschreibung:" or similar label + text = re.sub(r"^(Beschreibung|Description|Anforderung|Control):\s*", "", text, flags=re.IGNORECASE) + return text.strip() + + +# --------------------------------------------------------------------------- +# Derivation +# --------------------------------------------------------------------------- + + +@dataclass +class DerivedControl: + derived_id: str + source_id: str + kind: str + canonical_name: str + description: str + plagiarism_score: float + related_quaidal_ids: list[str] + external_refs: list[dict] + source: dict + + +_ASCII_FOLD = str.maketrans({"ä": "ae", "ö": "oe", "ü": "ue", "Ä": "ae", "Ö": "oe", "Ü": "ue", "ß": "ss"}) + + +def slug(text: str) -> str: + text = text.translate(_ASCII_FOLD).lower() + text = re.sub(r"[^a-z0-9]+", "-", text) + return text.strip("-") + + +def derived_id_for(entry: dict) -> str: + prefix = { + "criterion": "MC-AI-DATA", + "building_block": "AC-AI-DATA", + "measure": "MIT-AI-DATA", + "metric": "MET-AI-DATA", + }.get(entry["kind"], "X-AI-DATA") + title = entry["title_de"] + title = re.sub(r"^\s*(QKB|QB|MA|QM)-\d+[a-zA-Z]?\s*", "", title) + return f"{prefix}-{entry['id']}-{slug(title)[:40]}".rstrip("-") + + +def derive_one(entry: dict, source_extract: dict, ollama_url: str, model: str, *, verbose: bool = False) -> DerivedControl: + role = KIND_TO_PROMPT_ROLE.get(entry["kind"], "Control") + prompt = PROMPT_TEMPLATE.format( + entry_id=entry["id"], + title_de=entry["title_de"], + role=role, + shortdesc=source_extract["shortdesc"] or "(keiner)", + description_excerpt=source_extract["description_excerpt"] or "(keine Beschreibung)", + ) + + source_corpus = "\n\n".join(filter(None, [source_extract["shortdesc"], source_extract["description_excerpt"]])) + + best: tuple[str, float] | None = None + for attempt in range(1, MAX_RETRIES + 1): + output = call_ollama(prompt, ollama_url, model) + output = strip_llm_artifacts(output) + score = ngram_overlap(output, source_corpus) + if verbose: + print(f" attempt {attempt}: overlap={score:.2%} len={len(output)}", file=sys.stderr) + if score < PLAGIARISM_LIMIT: + best = (output, score) + break + if best is None or score < best[1]: + best = (output, score) + # Strengthen the next prompt by appending a reject notice + prompt += f"\n\n(Vorheriger Versuch hatte {score:.0%} Wortdeckung mit der Quelle. Verwende völlig andere Begriffe und Satzstruktur.)" + + if best is None: + raise RuntimeError(f"Could not derive {entry['id']}: no output") + output, score = best + if score >= PLAGIARISM_LIMIT: + raise RuntimeError( + f"Plagiarism gate failed for {entry['id']}: best overlap {score:.2%} >= limit {PLAGIARISM_LIMIT:.0%}.\n" + f"Output:\n{output}" + ) + + title_de_clean = re.sub(r"^\s*(QKB|QB|MA|QM)-\d+[a-zA-Z]?\s*", "", entry["title_de"]).strip() + return DerivedControl( + derived_id=derived_id_for(entry), + source_id=entry["id"], + kind=entry["kind"], + canonical_name=title_de_clean or entry["title_de"], + description=output, + plagiarism_score=round(score, 4), + related_quaidal_ids=entry["referenced_ids"], + external_refs=entry["external_refs"], + source={ + "framework": "BSI QUAIDAL", + "section": entry["id"], + "title_original_de": entry["title_de"], + "url": f"{QUAIDAL_REPO_URL}/blob/main/{entry['source_path'].replace(' ', '%20')}", + "commit_sha": None, # filled in by main() + "license_note": "§ 5 UrhG anwendbar; share:true im Frontmatter; Clean-Room-Ableitung.", + }, + ) + + +# --------------------------------------------------------------------------- +# Output writers +# --------------------------------------------------------------------------- + + +def control_to_dict(c: DerivedControl) -> dict: + d = { + "id": c.derived_id, + "canonical_name": c.canonical_name, + "description": c.description, + "kind": c.kind, + "regulation_anchor": "EU AI Act Art. 10 (Datenqualität für Hochrisiko-KI)", + "related_quaidal_ids": c.related_quaidal_ids, + "external_refs": c.external_refs, + "source": c.source, + "plagiarism_score_at_generation": c.plagiarism_score, + } + return d + + +def write_yaml_per_kind(controls: list[DerivedControl], commit_sha: str | None) -> dict[str, Path]: + out: dict[str, list[dict]] = {} + for c in controls: + c.source["commit_sha"] = commit_sha + fname = KIND_TO_OUTPUT_FILE.get(c.kind, "other.yaml") + out.setdefault(fname, []).append(control_to_dict(c)) + + OUTPUT_DIR.mkdir(parents=True, exist_ok=True) + written: dict[str, Path] = {} + for fname, items in out.items(): + path = OUTPUT_DIR / fname + payload = { + "source": "Derived from BSI QUAIDAL (Clean-Room)", + "source_url": QUAIDAL_REPO_URL, + "commit_sha": commit_sha, + "plagiarism_limit_4gram": PLAGIARISM_LIMIT, + "generated_by_model": OLLAMA_MODEL, + "controls": items, + } + path.write_text(yaml.safe_dump(payload, allow_unicode=True, sort_keys=False), encoding="utf-8") + written[fname] = path + return written + + +# --------------------------------------------------------------------------- +# CLI +# --------------------------------------------------------------------------- + + +def main() -> int: + ap = argparse.ArgumentParser(description=__doc__) + ap.add_argument("--only", help="Derive only this QUAIDAL ID (e.g. QKB-01)") + ap.add_argument("--kind", help="Derive only entries of this kind (criterion/building_block/measure/metric)") + ap.add_argument("--limit", type=int, help="Process at most N entries") + ap.add_argument("--dry-run", action="store_true", help="Print derived controls instead of writing YAML") + ap.add_argument("--ollama-host", default="macmini", help="Ollama host (default: macmini)") + ap.add_argument("--model", default=OLLAMA_MODEL) + ap.add_argument("--verbose", action="store_true") + args = ap.parse_args() + + if not INDEX_FILE.exists(): + print(f"ERROR: missing index. Run ingest_bsi_quaidal.py first ({INDEX_FILE})", file=sys.stderr) + return 2 + index = json.loads(INDEX_FILE.read_text(encoding="utf-8")) + entries = index["entries"] + if args.only: + entries = [e for e in entries if e["id"].upper() == args.only.upper()] + if args.kind: + entries = [e for e in entries if e["kind"] == args.kind] + if args.limit: + entries = entries[: args.limit] + + if not entries: + print("No entries match the filter.", file=sys.stderr) + return 1 + + ollama_url = args.ollama_host if "://" in args.ollama_host else f"http://{args.ollama_host}:11434" + print(f"Derivation: {len(entries)} entries, model={args.model}, ollama={ollama_url}, limit={PLAGIARISM_LIMIT:.0%}", file=sys.stderr) + + derived: list[DerivedControl] = [] + failed: list[tuple[str, str]] = [] + for i, entry in enumerate(entries, 1): + if args.verbose: + print(f"[{i}/{len(entries)}] {entry['id']} ({entry['kind']}): {entry['title_de']}", file=sys.stderr) + try: + extract = load_source_extract(entry["source_path"]) + ctrl = derive_one(entry, extract, ollama_url, args.model, verbose=args.verbose) + derived.append(ctrl) + except Exception as exc: # noqa: BLE001 + failed.append((entry["id"], str(exc))) + print(f" FAILED {entry['id']}: {exc}", file=sys.stderr) + + print(f"\nDerived: {len(derived)} | Failed: {len(failed)}", file=sys.stderr) + + if args.dry_run: + for c in derived: + c.source["commit_sha"] = index.get("commit_sha") + print(yaml.safe_dump(control_to_dict(c), allow_unicode=True, sort_keys=False)) + print("---") + return 0 if not failed else 1 + + written = write_yaml_per_kind(derived, index.get("commit_sha")) + for fname, path in written.items(): + print(f"Wrote {path.relative_to(REPO_ROOT)} ({sum(1 for c in derived if KIND_TO_OUTPUT_FILE[c.kind] == fname)} entries)", file=sys.stderr) + + if failed: + print("\nFailures:", file=sys.stderr) + for fid, msg in failed: + print(f" - {fid}: {msg.splitlines()[0]}", file=sys.stderr) + return 1 + return 0 + + +if __name__ == "__main__": + sys.exit(main()) diff --git a/control-pipeline/scripts/ingest_bsi_quaidal.py b/control-pipeline/scripts/ingest_bsi_quaidal.py new file mode 100644 index 0000000..b6b18c9 --- /dev/null +++ b/control-pipeline/scripts/ingest_bsi_quaidal.py @@ -0,0 +1,242 @@ +#!/usr/bin/env python3 +"""Parse BSI QUAIDAL Markdown catalog into a structural index. + +Clean-Room principle: this script does NOT persist any QUAIDAL prose to disk. +It only extracts non-protectable structural facts (IDs, type, file paths, +cross-references to other QUAIDAL entries, references to external norms). + +The derivation step (derive_quaidal_mcs.py) reads the index plus the original +.md files from the gitignored clone and asks the LLM to produce our own +wordings, never copying the BSI prose into our own controls/database. + +Input: legal-sources/bsi-quaidal/0000_Markdown/**/*.md (gitignored clone) +Output: control-pipeline/data/quaidal/quaidal_index.json (structural only) + +Usage: + python3 control-pipeline/scripts/ingest_bsi_quaidal.py + python3 control-pipeline/scripts/ingest_bsi_quaidal.py --check # validate only +""" + +from __future__ import annotations + +import argparse +import json +import re +import subprocess +import sys +from dataclasses import asdict, dataclass, field +from pathlib import Path + +try: + import yaml +except ImportError: + print("ERROR: PyYAML missing. Install with: pip install pyyaml", file=sys.stderr) + sys.exit(2) + +REPO_ROOT = Path(__file__).resolve().parents[2] +SOURCE_ROOT = REPO_ROOT / "legal-sources" / "bsi-quaidal" +MARKDOWN_ROOT = SOURCE_ROOT / "0000_Markdown" +OUTPUT_DIR = REPO_ROOT / "control-pipeline" / "data" / "quaidal" +OUTPUT_FILE = OUTPUT_DIR / "quaidal_index.json" + +# Map folder name -> our internal kind. Sub-folders inside the Methoden tree +# (e.g. "QM-10_Dimension Reduction") are treated as method variants of their +# parent QM. +KIND_BY_PARENT_DIR = { + "0000_Qualitätskriterien": "criterion", # QKB → Master Control candidates + "0001_Qualitätsbausteine": "building_block", # QB → atomic controls + "0002_Maßnahmen": "measure", # M → mitigations + "0003_Qualitätsmetriken_methoden": "metric", # QM → runtime check / metric + "0002_Referenz-Matrizen": "matrix", # cross-walk matrix + "9998_CustomTemplates": "template", +} + +FRONTMATTER_RE = re.compile(r"^---\s*\n(.*?)\n---\s*\n", re.DOTALL) +ID_RE = re.compile(r"\b((?:QKB|QB|MA|QM)-\d+[a-zA-Z]?)", re.IGNORECASE) + + +@dataclass +class IndexEntry: + id: str # Canonical ID: QKB-01, QB-03, M-12, QM-07 + kind: str # criterion / building_block / measure / metric / matrix / template + title_de: str + title_en: str + source_path: str # relative to SOURCE_ROOT + referenced_ids: list[str] = field(default_factory=list) # other QUAIDAL IDs linked in this file + external_refs: list[dict] = field(default_factory=list) # {framework, citation, ref_id} + tags: list[str] = field(default_factory=list) + share: bool | None = None + + +def parse_frontmatter(text: str) -> dict: + m = FRONTMATTER_RE.match(text) + if not m: + return {} + try: + return yaml.safe_load(m.group(1)) or {} + except yaml.YAMLError: + return {} + + +def canonical_id(raw_id: str | list | None, filename: str) -> str | None: + """QUAIDAL files sometimes list multiple IDs or odd casing — normalise.""" + candidates: list[str] = [] + if isinstance(raw_id, list): + candidates.extend(str(x) for x in raw_id) + elif isinstance(raw_id, str): + candidates.append(raw_id) + # Fallback: derive from filename + candidates.append(filename) + for c in candidates: + m = ID_RE.search(c) + if m: + return m.group(1).upper().replace(" ", "-") + return None + + +def determine_kind(path: Path) -> str: + for parent in path.parents: + if parent.name in KIND_BY_PARENT_DIR: + return KIND_BY_PARENT_DIR[parent.name] + return "unknown" + + +def collect_referenced_ids(body: str, own_id: str) -> list[str]: + found = {m.group(1).upper() for m in ID_RE.finditer(body)} + found.discard(own_id) + return sorted(found) + + +REF_FRAMEWORKS = [ + ("AI Act", ["AI-Act", "AI Act", "Verordnung (EU) 2024/1689", "KI-VO"]), + ("EU GDPR", ["DSGVO", "Verordnung (EU) 2016/679", "GDPR"]), + ("ISO/IEC 25012", ["ISO/IEC 25012", "ISO 25012"]), + ("ISO/IEC 25024", ["ISO/IEC 25024", "ISO 25024"]), + ("ISO/IEC 23894", ["ISO/IEC 23894", "ISO 23894"]), + ("ISO/IEC 42001", ["ISO/IEC 42001", "ISO 42001"]), + ("NIST AI RMF", ["NIST AI RMF", "AI Risk Management Framework"]), + ("BSI Grundschutz", ["IT-Grundschutz", "Grundschutz"]), + ("BSI AIC4", ["AIC4", "AI Cloud Service Compliance Criteria"]), +] + + +def detect_external_refs(body: str) -> list[dict]: + refs: list[dict] = [] + seen: set[tuple[str, str]] = set() + # Section "Referenzen" tables — pick up first column ref-id and first + # textual hit of the framework. We do NOT store the BSI "Kurzbeschr." + # column to avoid copying their prose. + for line in body.splitlines(): + for framework, patterns in REF_FRAMEWORKS: + for pat in patterns: + if pat.lower() in line.lower(): + # Try to grab an article/section nearby (e.g. "Artikel 10") + art = re.search(r"(Artikel|Art\.?|Section|§)\s*([0-9]+[a-z]?)", line, re.IGNORECASE) + citation = f"{art.group(1)} {art.group(2)}" if art else None + key = (framework, citation or "") + if key in seen: + continue + seen.add(key) + refs.append({"framework": framework, "citation": citation}) + break + return refs + + +def parse_file(path: Path) -> IndexEntry | None: + text = path.read_text(encoding="utf-8") + fm = parse_frontmatter(text) + body = text[text.find("---", 3) + 3 :] if text.startswith("---") else text + + own_id = canonical_id(fm.get("ID"), path.stem) + if not own_id: + return None + + title_de = str(fm.get("TitleGer") or fm.get("Title") or path.stem).strip() + title_en = str(fm.get("Title") or "").strip() + tags_raw = fm.get("tags") or [] + if isinstance(tags_raw, str): + tags_raw = [tags_raw] + tags = [str(t).strip() for t in tags_raw if t] + + share_val = fm.get("share") + share = bool(share_val) if share_val is not None else None + + return IndexEntry( + id=own_id, + kind=determine_kind(path), + title_de=title_de, + title_en=title_en, + source_path=str(path.relative_to(SOURCE_ROOT)), + referenced_ids=collect_referenced_ids(body, own_id), + external_refs=detect_external_refs(body), + tags=tags, + share=share, + ) + + +def get_commit_sha() -> str | None: + try: + out = subprocess.run( + ["git", "-C", str(SOURCE_ROOT), "rev-parse", "HEAD"], + capture_output=True, + text=True, + check=True, + ) + return out.stdout.strip() + except (subprocess.CalledProcessError, FileNotFoundError): + return None + + +def main() -> int: + ap = argparse.ArgumentParser(description=__doc__) + ap.add_argument("--check", action="store_true", help="Parse + validate, do not write output") + args = ap.parse_args() + + if not MARKDOWN_ROOT.exists(): + print(f"ERROR: clone not found at {SOURCE_ROOT}", file=sys.stderr) + print("Run: git clone --depth=1 https://github.com/BSI-Bund/QUAIDAL.git legal-sources/bsi-quaidal", file=sys.stderr) + return 2 + + entries: list[IndexEntry] = [] + skipped: list[Path] = [] + for path in sorted(MARKDOWN_ROOT.rglob("*.md")): + entry = parse_file(path) + if entry is None: + skipped.append(path) + continue + entries.append(entry) + + by_kind: dict[str, int] = {} + for e in entries: + by_kind[e.kind] = by_kind.get(e.kind, 0) + 1 + + print(f"Parsed {len(entries)} entries (skipped {len(skipped)} without ID):") + for kind, count in sorted(by_kind.items()): + print(f" {kind:18s} {count}") + + if args.check: + return 0 + + OUTPUT_DIR.mkdir(parents=True, exist_ok=True) + payload = { + "source": "BSI QUAIDAL", + "source_url": "https://github.com/BSI-Bund/QUAIDAL", + "commit_sha": get_commit_sha(), + "license_note": ( + "BSI-Veroeffentlichung. Repo enthaelt keine SPDX-Lizenzdatei. " + "Frontmatter share:true. Veroeffentlichung durch Bundesbehoerde, " + "§ 5 UrhG (amtliche Werke) anwendbar. BSI hat 05/2026 die Annahme " + "CC-BY-SA-4.0 in unserer Anfrage nicht widersprochen, aber auch " + "nicht aktiv bestaetigt. Wir derivieren Clean-Room (eigene " + "Formulierungen, nur Referenz auf BSI QUAIDAL Sektion)." + ), + "entries": [asdict(e) for e in entries], + } + OUTPUT_FILE.write_text(json.dumps(payload, ensure_ascii=False, indent=2), encoding="utf-8") + print(f"\nWrote index: {OUTPUT_FILE.relative_to(REPO_ROOT)}") + print(f"Commit SHA: {payload['commit_sha']}") + return 0 + + +if __name__ == "__main__": + sys.exit(main())