# DSGVO-Audit-Dokumentation: OCR-Labeling-System für Handschrifterkennung **Dokumentversion:** 1.0.0 **Datum:** 21. Januar 2026 **Klassifizierung:** Vertraulich - Nur für internen Gebrauch und Auditoren **Nächste Überprüfung:** 21. Januar 2027 --- ## 1. Management Summary ### 1.1 Systemübersicht Das OCR-Labeling-System ist eine **vollständig lokal betriebene** Lösung zur Digitalisierung und Auswertung handschriftlicher Schülerarbeiten (Klausuren, Aufsätze). Das System nutzt: - **llama3.2-vision:11b** - Open-Source Vision-Language-Modell für OCR (lokal via Ollama) - **TrOCR** - Microsoft Transformer OCR für Handschrifterkennung (lokal) - **qwen2.5:14b** - Open-Source LLM für Korrekturassistenz (lokal via Ollama) ### 1.2 Datenschutz-Garantien | Merkmal | Umsetzung | |---------|-----------| | **Verarbeitungsort** | 100% lokal auf schuleigenem Mac Mini | | **Cloud-Dienste** | Keine - vollständig offline-fähig | | **Datenübertragung** | Keine Übertragung an externe Server | | **KI-Modelle** | Open-Source, lokal ausgeführt, kein Telemetrie | | **Speicherung** | Lokale PostgreSQL-Datenbank, MinIO Object Storage | ### 1.3 Compliance-Status Das System erfüllt die Anforderungen der: - DSGVO (Verordnung (EU) 2016/679) - BDSG (Bundesdatenschutzgesetz) - Niedersächsisches Schulgesetz (NSchG) §31 - EU AI Act (Verordnung (EU) 2024/1689) --- ## 2. Verzeichnis der Verarbeitungstätigkeiten (Art. 30 DSGVO) ### 2.1 Verantwortlicher | Feld | Inhalt | |------|--------| | **Verantwortlicher** | [Schulname], [Schuladresse] | | **Vertreter** | Schulleitung: [Name] | | **Kontakt** | [E-Mail], [Telefon] | ### 2.2 Datenschutzbeauftragter | Feld | Inhalt | |------|--------| | **Name** | [Name DSB] | | **Organisation** | [Behördlicher/Externer DSB] | | **Kontakt** | [E-Mail], [Telefon] | ### 2.3 Verarbeitungstätigkeiten #### 2.3.1 OCR-Verarbeitung von Klausuren | Attribut | Beschreibung | |----------|--------------| | **Zweck** | Digitalisierung handschriftlicher Prüfungsantworten mittels KI-gestützter Texterkennung zur Unterstützung der Lehrkräfte bei der Korrektur | | **Rechtsgrundlage** | Art. 6 Abs. 1 lit. e DSGVO i.V.m. §31 NSchG (öffentliche Aufgabe der Leistungsbewertung) | | **Betroffene Personen** | Schülerinnen und Schüler (Prüfungsarbeiten) | | **Datenkategorien** | Handschriftproben, Prüfungsantworten, Schülerkennung (optional) | | **Empfänger** | Ausschließlich berechtigte Lehrkräfte der Schule | | **Drittlandübermittlung** | Keine | | **Löschfrist** | Gem. Aufbewahrungspflichten für Prüfungsunterlagen (i.d.R. 2-10 Jahre je nach Bundesland) | #### 2.3.2 Labeling für Modell-Training | Attribut | Beschreibung | |----------|--------------| | **Zweck** | Erstellung von Trainingsdaten für lokales Fine-Tuning der OCR-Modelle zur Verbesserung der Handschrifterkennung | | **Rechtsgrundlage** | Art. 6 Abs. 1 lit. f DSGVO (berechtigtes Interesse) oder Art. 6 Abs. 1 lit. a DSGVO (Einwilligung) | | **Betroffene Personen** | Schülerinnen und Schüler (anonymisierte Handschriftproben) | | **Datenkategorien** | Anonymisierte/pseudonymisierte Handschriftbilder, korrigierter Text | | **Empfänger** | Lokales ML-System, keine externen Empfänger | | **Drittlandübermittlung** | Keine | | **Löschfrist** | Trainingsdaten: Nach Abschluss des Trainings oder auf Widerruf | ### 2.4 Verweis auf TOM Siehe Abschnitt 8: Technisch-Organisatorische Maßnahmen --- ## 3. Rechtsgrundlagen (Art. 6 DSGVO) ### 3.1 Primäre Rechtsgrundlagen | Verarbeitungsschritt | Rechtsgrundlage | Begründung | |---------------------|-----------------|------------| | Scan von Klausuren | Art. 6 Abs. 1 lit. e DSGVO | Öffentliche Aufgabe der schulischen Leistungsbewertung | | OCR-Verarbeitung | Art. 6 Abs. 1 lit. e DSGVO | Teil der Bewertungsaufgabe, Effizienzsteigerung | | Lehrerkorrektur | Art. 6 Abs. 1 lit. e DSGVO | Kernaufgabe der Leistungsbewertung | | Export für Training | Art. 6 Abs. 1 lit. f DSGVO | Berechtigtes Interesse an Modellverbesserung | ### 3.2 Landesrechtliche Grundlagen **Niedersachsen:** - §31 NSchG: Erhebung, Verarbeitung und Nutzung personenbezogener Daten - Ergänzende Bestimmungen zur VO-DV I **Interesse-Abwägung für Training (Art. 6 Abs. 1 lit. f):** | Aspekt | Bewertung | |--------|-----------| | **Interesse des Verantwortlichen** | Verbesserung der OCR-Qualität für effizientere Klausurkorrektur | | **Erwartung der Betroffenen** | Schüler erwarten, dass Prüfungsarbeiten für schulische Zwecke verarbeitet werden | | **Auswirkung auf Betroffene** | Minimal - Daten werden pseudonymisiert, rein lokale Verarbeitung | | **Schutzmaßnahmen** | Pseudonymisierung, keine Weitergabe, lokale Verarbeitung | | **Ergebnis** | Berechtigtes Interesse überwiegt | ### 3.3 Besondere Kategorien (Art. 9 DSGVO) **Prüfung auf besondere Kategorien:** Handschriftproben könnten theoretisch Rückschlüsse auf Gesundheitszustände ermöglichen (z.B. Tremor). Dies wird wie folgt adressiert: - OCR-Modelle analysieren ausschließlich Textinhalt, nicht Handschriftcharakteristiken - Keine Speicherung von Handschriftanalysen - Bei Training werden nur Textinhalte verwendet, keine biometrischen Merkmale **Ergebnis:** Art. 9 ist nicht anwendbar, da keine Verarbeitung besonderer Kategorien erfolgt. --- ## 4. Datenschutz-Folgenabschätzung (Art. 35 DSGVO) ### 4.1 Schwellwertanalyse - Erforderlichkeit der DSFA | Kriterium | Erfüllt | Begründung | |-----------|---------|------------| | Neue Technologien (KI/ML) | ✓ | Vision-LLM für OCR | | Umfangreiche Verarbeitung | ✗ | Begrenzt auf einzelne Schule | | Daten von Minderjährigen | ✓ | Schülerarbeiten | | Systematische Überwachung | ✗ | Keine Überwachung | | Scoring/Profiling | ✗ | Keine automatische Bewertung | **Ergebnis:** DSFA erforderlich aufgrund KI-Einsatz und Verarbeitung von Daten Minderjähriger. ### 4.2 Systematische Beschreibung der Verarbeitung #### Datenfluss-Diagramm ``` ┌─────────────────────────────────────────────────────────────────────────────────┐ │ OCR-LABELING DATENFLUSS │ ├─────────────────────────────────────────────────────────────────────────────────┤ │ │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │ │ 1. SCAN │───►│ 2. UPLOAD │───►│ 3. OCR │───►│ 4. LABELING │ │ │ │ (Lehrkraft) │ │ (MinIO) │ │ (Ollama) │ │ (Lehrkraft) │ │ │ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │ │ │ │ │ │ │ │ ▼ ▼ ▼ ▼ │ │ Papierdokument Verschlüsselte Lokale LLM- Bestätigung/ │ │ → digitaler Scan Bildspeicherung Verarbeitung Korrektur │ │ │ │ ┌──────────────────────────────────────────────────────────────────────────┐ │ │ │ SPEICHERUNG (PostgreSQL) │ │ │ │ • Session-ID (UUID) • Status (pending/confirmed/corrected) │ │ │ │ • Bild-Hash (SHA256) • Ground Truth (korrigierter Text) │ │ │ │ • OCR-Text • Zeitstempel │ │ │ └──────────────────────────────────────────────────────────────────────────┘ │ │ │ │ ┌──────────────┐ │ │ │ 5. EXPORT │ Pseudonymisierte Trainingsdaten (JSONL) │ │ │ (Optional) │ → Lokal gespeichert für Fine-Tuning │ │ └──────────────┘ │ │ │ └─────────────────────────────────────────────────────────────────────────────────┘ ``` #### Verarbeitungsschritte im Detail | Schritt | Beschreibung | Datenschutzmaßnahme | |---------|--------------|---------------------| | 1. Scan | Lehrkraft scannt Papierklausur | Physischer Zugang nur für Lehrkräfte | | 2. Upload | Bild wird in lokales MinIO hochgeladen | SHA256-Deduplizierung, verschlüsselte Speicherung | | 3. OCR | llama3.2-vision erkennt Text | 100% lokal, kein Internet | | 4. Labeling | Lehrkraft prüft/korrigiert OCR-Ergebnis | Protokollierung aller Aktionen | | 5. Export | Optional: Pseudonymisierte Trainingsdaten | Entfernung direkter Identifikatoren | ### 4.3 Notwendigkeit und Verhältnismäßigkeit #### Prüfung der Erforderlichkeit | Prinzip | Umsetzung | |---------|-----------| | **Zweckbindung** | Ausschließlich für schulische Leistungsbewertung und Modelltraining | | **Datenminimierung** | Nur Bildausschnitte mit Text, keine vollständigen Klausuren nötig | | **Speicherbegrenzung** | Automatische Löschung nach definierter Aufbewahrungsfrist | #### Alternativenprüfung | Alternative | Bewertung | |-------------|-----------| | Manuelle Transkription | Zeitaufwändig, fehleranfällig, nicht praktikabel | | Cloud-OCR (Google, Azure) | Datenschutzrisiken durch Drittlandübermittlung | | Kommerzielles lokales OCR | Hohe Kosten, Lizenzabhängigkeit | | **Gewählte Lösung** | Open-Source lokal - optimale Balance | ### 4.4 Risikobewertung #### Identifizierte Risiken | Risiko | Eintrittswahrscheinlichkeit | Schwere | Risikostufe | Mitigationsmaßnahme | |--------|---------------------------|---------|-------------|---------------------| | R1: Unbefugter Zugriff auf Schülerdaten | Gering | Hoch | Mittel | Rollenbasierte Zugriffskontrolle, MFA | | R2: Datenleck durch Systemkompromittierung | Gering | Hoch | Mittel | Verschlüsselung, Netzwerkisolation | | R3: Fehlerhaftes OCR beeinflusst Bewertung | Mittel | Mittel | Mittel | Pflicht-Review durch Lehrkraft | | R4: Re-Identifizierung aus Handschrift | Gering | Mittel | Gering | Pseudonymisierung, keine Handschriftanalyse | | R5: Bias im OCR-Modell | Mittel | Mittel | Mittel | Regelmäßige Qualitätsprüfung | #### Risikomatrix ``` SCHWERE Gering Mittel Hoch ┌───────┬───────┬───────┐ Hoch │ │ │ │ ├───────┼───────┼───────┤ Mittel │ │ R3,R5 │ │ WAHRSCHEINLICHKEIT ├───────┼───────┼───────┤ Gering │ │ R4 │ R1,R2 │ └───────┴───────┴───────┘ ``` ### 4.5 Maßnahmen zur Risikominderung | Risiko | Maßnahme | Umsetzungsstatus | |--------|----------|------------------| | R1 | RBAC, MFA, Audit-Logging | ✓ Implementiert | | R2 | FileVault-Verschlüsselung, lokales Netz | ✓ Implementiert | | R3 | Pflicht-Bestätigung durch Lehrkraft | ✓ Implementiert | | R4 | Pseudonymisierung bei Export | ✓ Implementiert | | R5 | Diverse Trainingssamples, manuelle Reviews | ○ In Entwicklung | --- ## 5. Informationspflichten (Art. 13/14 DSGVO) ### 5.1 Informationen für Betroffene Folgende Informationen werden Schülern und Erziehungsberechtigten bereitgestellt: #### 5.1.1 Pflichtangaben nach Art. 13 DSGVO | Information | Bereitstellung | |-------------|----------------| | Identität des Verantwortlichen | Schulwebsite, Datenschutzerklärung | | Kontakt DSB | Schulwebsite, Aushang | | Verarbeitungszwecke | Datenschutzinformation bei Einschulung | | Rechtsgrundlage | Datenschutzinformation | | Empfänger/Kategorien | Datenschutzinformation | | Speicherdauer | Datenschutzinformation | | Betroffenenrechte | Datenschutzinformation, auf Anfrage | | Beschwerderecht | Datenschutzinformation | #### 5.1.2 KI-spezifische Transparenz Zusätzlich zu den Standard-Informationspflichten: | Information | Inhalt | |-------------|--------| | Art der KI | Vision-LLM für Texterkennung, kein automatisches Bewerten | | Menschliche Aufsicht | Jedes OCR-Ergebnis wird von Lehrkraft geprüft | | Keine automatische Entscheidung | System macht Vorschläge, Lehrkraft entscheidet | | Widerspruchsrecht | Opt-out von Training-Verwendung möglich | ### 5.2 Informationsbereitstellung | Kanal | Zeitpunkt | Zielgruppe | |-------|-----------|------------| | Einschulungsunterlagen | Bei Schulanmeldung | Erziehungsberechtigte | | Datenschutzerklärung Website | Dauerhaft | Alle | | Klausur-Deckblatt (optional) | Bei Prüfung | Schüler | | Elternabend | Jährlich | Erziehungsberechtigte | --- ## 6. Automatisierte Entscheidungsfindung (Art. 22 DSGVO) ### 6.1 Anwendbarkeitsprüfung **Prüfung der Tatbestandsmerkmale:** | Merkmal | Erfüllt | Begründung | |---------|---------|------------| | Automatisierte Verarbeitung | Ja | KI-gestützte Texterkennung | | Entscheidung | Nein | OCR liefert nur Vorschlag | | Rechtliche Wirkung/erhebliche Beeinträchtigung | Nein | Lehrkraft trifft finale Bewertungsentscheidung | **Ergebnis:** Art. 22 DSGVO ist **nicht anwendbar**, da keine automatisierte Entscheidung mit rechtlicher Wirkung erfolgt. ### 6.2 Teacher-in-the-Loop Garantie Das System implementiert obligatorische menschliche Aufsicht: ``` ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ OCR-System │────►│ Lehrkraft │────►│ Bewertung │ │ (Vorschlag) │ │ (Prüfung) │ │ (Final) │ └──────────────┘ └──────────────┘ └──────────────┘ │ │ │ │ ▼ │ │ ┌──────────────┐ │ └───────────►│ Korrektur │◄───────────┘ │ (Optional) │ └──────────────┘ ``` **Workflow-Garantien:** 1. Kein OCR-Ergebnis wird automatisch als korrekt übernommen 2. Lehrkraft muss explizit bestätigen ODER korrigieren 3. Bewertungsentscheidung liegt ausschließlich bei der Lehrkraft 4. System gibt keine Notenvorschläge ### 6.3 Dokumentation der menschlichen Aufsicht | Metrik | Erhebung | |--------|----------| | Bestätigungsrate | % der OCR-Ergebnisse als korrekt bestätigt | | Korrekturrate | % der OCR-Ergebnisse mit Korrekturen | | Durchschnittliche Prüfzeit | Zeit pro Item in Sekunden | | Lehrkraft-ID | Pseudonymisiert für Audit-Trail | --- ## 7. Privacy by Design und Default (Art. 25 DSGVO) ### 7.1 Design-Prinzipien | Prinzip | Implementierung | |---------|-----------------| | **Proaktive Maßnahmen** | Datenschutz von Anfang an im System-Design berücksichtigt | | **Standard-Datenschutz** | Minimale Datenerhebung als Default | | **Eingebetteter Datenschutz** | Technische Maßnahmen nicht umgehbar | | **Volle Funktionalität** | Kein Trade-off Datenschutz vs. Funktionalität | | **End-to-End Sicherheit** | Verschlüsselung vom Upload bis zur Löschung | | **Sichtbarkeit/Transparenz** | Alle Verarbeitungen protokolliert und nachvollziehbar | | **Nutzerzentrierung** | Betroffenenrechte einfach ausübbar | ### 7.2 Umsetzung Datenminimierung | Maßnahme | Beschreibung | |----------|--------------| | Bildausschnitte | Nur relevante Textbereiche, nicht vollständige Seiten | | Metadaten-Beschränkung | Keine Speicherung von Geräteinformationen des Scanners | | Pseudonymisierung | Schüler-IDs durch UUIDs ersetzt bei Export | | Automatische Löschung | Konfigurierbare Aufbewahrungsfristen | ### 7.3 Default-Einstellungen | Einstellung | Default | Begründung | |-------------|---------|------------| | OCR-Ergebnis automatisch übernehmen | Nein | Menschliche Prüfung erforderlich | | Training-Export aktiviert | Nein | Opt-in erforderlich | | Metadaten-Speicherung | Minimal | Nur notwendige Daten | | Zugriffsprotokollierung | Ja | Transparenz und Nachvollziehbarkeit | ### 7.4 Vendor-Auswahl Die verwendeten KI-Modelle wurden nach Datenschutzkriterien ausgewählt: | Modell | Anbieter | Lizenz | Lokale Ausführung | Telemetrie | |--------|----------|--------|-------------------|------------| | llama3.2-vision:11b | Meta | Llama 3.2 Community | ✓ | Keine | | qwen2.5:14b | Alibaba | Apache 2.0 | ✓ | Keine | | TrOCR | Microsoft | MIT | ✓ | Keine | --- ## 8. Technisch-Organisatorische Maßnahmen (Art. 32 DSGVO) ### 8.1 Vertraulichkeit #### 8.1.1 Zutrittskontrolle | Maßnahme | Umsetzung | |----------|-----------| | Physische Sicherung | Server in abgeschlossenem Raum | | Zugangsprotokoll | Elektronisches Schloss mit Protokollierung | | Berechtigte Personen | IT-Administrator, Schulleitung | #### 8.1.2 Zugangskontrolle | Maßnahme | Umsetzung | |----------|-----------| | Authentifizierung | Benutzername + Passwort | | Passwort-Policy | Min. 12 Zeichen, Komplexitätsanforderungen | | Session-Timeout | 30 Minuten Inaktivität | | Fehlversuche | Account-Sperrung nach 5 Fehlversuchen | #### 8.1.3 Zugriffskontrolle (RBAC) | Rolle | Berechtigungen | |-------|----------------| | **Admin** | Vollzugriff, Benutzerverwaltung | | **Lehrkraft** | Eigene Sessions, Labeling, Export | | **Viewer** | Nur Lesezugriff auf Statistiken | #### 8.1.4 Pseudonymisierung | Datenfeld | Maßnahme | |-----------|----------| | Schüler-ID | UUID statt Klarname bei Export | | Lehrkraft-ID | Pseudonymisiert in Logs | | Session-Name | Keine Schülernamen erlaubt | #### 8.1.5 Verschlüsselung | Bereich | Maßnahme | |---------|----------| | Festplatte | FileVault 2 (AES-256) | | Datenbank | Transparent Data Encryption | | MinIO Storage | Server-Side Encryption (SSE) | | Netzwerk | TLS 1.3 für lokale Verbindungen | ### 8.2 Integrität #### 8.2.1 Weitergabekontrolle | Maßnahme | Umsetzung | |----------|-----------| | Netzwerkisolation | Lokales Netz, keine Internet-Verbindung erforderlich | | USB-Ports | Administrativ deaktiviert | | Firewall | Eingehende Verbindungen blockiert | #### 8.2.2 Eingabekontrolle | Maßnahme | Umsetzung | |----------|-----------| | Audit-Log | Alle Aktionen mit Timestamp und User-ID | | Unveränderlichkeit | Append-only Logging | | Log-Retention | 1 Jahr | **Protokollierte Aktionen:** - Session erstellen/löschen - Bild hochladen - OCR ausführen - Label bestätigen/korrigieren/überspringen - Export durchführen - Login/Logout ### 8.3 Verfügbarkeit | Maßnahme | Umsetzung | |----------|-----------| | Backup | Tägliches inkrementelles Backup | | USV | Unterbrechungsfreie Stromversorgung | | RAID | RAID 1 Spiegelung für Datenträger | | Recovery-Test | Halbjährlich | ### 8.4 Belastbarkeit | Maßnahme | Umsetzung | |----------|-----------| | Ressourcen-Monitoring | Prometheus + Grafana | | Alerts | E-Mail bei kritischen Schwellwerten | | Kapazitätsplanung | Jährliche Review | --- ## 9. BSI-Anforderungen und Sicherheitsrichtlinien ### 9.1 Angewandte BSI-Publikationen | Publikation | Relevanz | Umsetzung | |-------------|----------|-----------| | IT-Grundschutz-Kompendium | Basis-Absicherung | TOM nach Abschnitt 8 | | BSI TR-03116-4 | Kryptographische Verfahren | AES-256, TLS 1.3 | | Kriterienkatalog KI (Juni 2025) | KI-Sicherheit | Siehe 9.2 | | QUAIDAL (Juli 2025) | Trainingsdaten-Qualität | Siehe 9.3 | ### 9.2 KI-Sicherheitsanforderungen (BSI Kriterienkatalog) | Kriterium | Anforderung | Umsetzung | |-----------|-------------|-----------| | Modellintegrität | Schutz vor Manipulation | Lokale Modelle, keine Updates ohne Review | | Eingabevalidierung | Schutz vor Adversarial Attacks | Bildformat-Prüfung, Größenlimits | | Ausgabevalidierung | Plausibilitätsprüfung | Konfidenz-Schwellwerte | | Protokollierung | Nachvollziehbarkeit | Vollständiges Audit-Log | | Incident Response | Reaktion auf Fehlfunktionen | Eskalationsprozess definiert | ### 9.3 Trainingsdaten-Qualität (QUAIDAL) | Qualitätskriterium | Umsetzung | |--------------------|-----------| | **Herkunftsdokumentation** | Alle Trainingsdaten aus eigenem Labeling-Prozess | | **Repräsentativität** | Diverse Handschriften aus verschiedenen Klassenstufen | | **Qualitätskontrolle** | Lehrkraft-Verifikation jedes Samples | | **Bias-Prüfung** | Regelmäßige Stichproben-Analyse | | **Versionierung** | Git-basierte Versionskontrolle für Datasets | --- ## 10. EU AI Act Compliance (KI-Verordnung) ### 10.1 Risikoklassifizierung **Prüfung nach Anhang III der KI-Verordnung:** | Hochrisiko-Kategorie | Anwendbar | Begründung | |---------------------|-----------|------------| | 3(a) Biometrische Identifizierung | Nein | Keine biometrische Verarbeitung | | 3(b) Kritische Infrastruktur | Nein | Keine kritische Infrastruktur | | 3(c) Allgemeine/berufliche Bildung | **Prüfen** | Bildungsbereich | | 3(d) Beschäftigung | Nein | Nicht anwendbar | **Detailprüfung Bildung (Anhang III, Nr. 3c):** Das System wird **nicht** für folgende Hochrisiko-Anwendungen genutzt: - ✗ Entscheidung über Zugang zu Bildungseinrichtungen - ✗ Zuweisung zu Bildungseinrichtungen oder -programmen - ✗ Bewertung von Lernergebnissen (nur Unterstützung, keine automatische Bewertung) - ✗ Überwachung von Prüfungen **Ergebnis:** Kein Hochrisiko-KI-System nach aktuellem Stand. ### 10.2 Allgemeine Anforderungen Auch ohne Hochrisiko-Klassifizierung werden folgende Transparenzanforderungen erfüllt: | Anforderung | Umsetzung | |-------------|-----------| | KI-Literacy (Art. 4) | Schulung der Lehrkräfte | | Transparenz gegenüber Nutzern | Information über KI-Einsatz | | Menschliche Aufsicht | Teacher-in-the-Loop | ### 10.3 Verbotsprüfung (Art. 5) | Verbotene Praxis | Geprüft | Ergebnis | |------------------|---------|----------| | Unterschwellige Manipulation | ✓ | Nicht vorhanden | | Ausnutzung von Schwächen | ✓ | Nicht vorhanden | | Social Scoring | ✓ | Nicht vorhanden | | Echtzeit-Biometrie | ✓ | Nicht vorhanden | | Emotionserkennung in Bildung | ✓ | **Nicht vorhanden** | --- ## 11. ML/AI Training Dokumentation ### 11.1 Trainingsdaten-Quellen | Datensatz | Quelle | Rechtsgrundlage | Volumen | |-----------|--------|-----------------|---------| | Klausur-Scans | Schulinterne Prüfungen | Art. 6(1)(e) + Einwilligung | Variabel | | Lehrer-Korrekturen | Labeling-System | Art. 6(1)(e) | Variabel | ### 11.2 Datenqualitätsmaßnahmen | Maßnahme | Beschreibung | |----------|--------------| | Deduplizierung | SHA256-Hash zur Vermeidung von Duplikaten | | Qualitätskontrolle | Jedes Sample von Lehrkraft geprüft | | Repräsentativität | Samples aus verschiedenen Fächern/Klassenstufen | | Dokumentation | Metadaten zu jedem Sample | ### 11.3 Labeling-Prozess ``` ┌─────────────────────────────────────────────────────────────────────┐ │ LABELING WORKFLOW │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ 1. Bild-Upload 2. OCR-Vorschlag 3. Review │ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │ │ Scan │─────────►│ LLM-OCR │─────────►│ Lehrkraft │ │ │ │ Upload │ │ (lokal) │ │ prüft │ │ │ └─────────────┘ └─────────────┘ └──────┬──────┘ │ │ │ │ │ ┌──────────────────────┴─────┐ │ │ ▼ ▼ │ │ ┌─────────────┐ ┌─────────┐ │ │ │ Bestätigt │ │Korrigiert│ │ │ │ (korrekt) │ │(manuell) │ │ │ └─────────────┘ └─────────┘ │ │ │ │ │ │ └──────────┬─────────────────┘ │ │ ▼ │ │ ┌─────────────────┐ │ │ │ Ground Truth │ │ │ │ (verifiziert) │ │ │ └─────────────────┘ │ │ │ └─────────────────────────────────────────────────────────────────────┘ ``` ### 11.4 Export-Prozeduren | Schritt | Beschreibung | Datenschutzmaßnahme | |---------|--------------|---------------------| | 1. Auswahl | Sessions/Items für Export wählen | Nur bestätigte/korrigierte Items | | 2. Pseudonymisierung | Entfernung direkter Identifikatoren | UUID statt Schüler-ID | | 3. Format-Konvertierung | TrOCR/Llama/Generic Format | Nur notwendige Felder | | 4. Speicherung | Lokal in /app/ocr-exports/ | Verschlüsselt, zugriffsbeschränkt | ### 11.5 Modell-Provenienz | Modell | Basis | Fine-Tuning Daten | Training-Parameter | |--------|-------|-------------------|-------------------| | llama3.2-vision:11b | Meta Llama 3.2 | Lokale gelabelte Daten | Dokumentiert pro Training | | TrOCR | Microsoft | Lokale gelabelte Daten | Dokumentiert pro Training | --- ## 12. Betroffenenrechte ### 12.1 Implementierte Rechte | Recht | Art. DSGVO | Umsetzung | |-------|-----------|-----------| | **Auskunft** | 15 | Schriftliche Anfrage an DSB | | **Berichtigung** | 16 | Korrektur falscher OCR-Ergebnisse | | **Löschung** | 17 | Nach Aufbewahrungsfrist oder auf Antrag | | **Einschränkung** | 18 | Sperrung der Verarbeitung auf Antrag | | **Datenportabilität** | 20 | Export eigener Daten in JSON | | **Widerspruch** | 21 | Opt-out von Training-Verwendung | ### 12.2 Sonderrechte bei KI-Training | Recht | Umsetzung | |-------|-----------| | Widerspruch gegen Training | Daten werden nicht für Fine-Tuning verwendet | | Löschung aus Trainingsset | "Machine Unlearning" durch Re-Training ohne betroffene Daten | ### 12.3 Anfrage-Prozess | Schritt | Frist | Verantwortlich | |---------|-------|----------------| | Eingang der Anfrage | - | Sekretariat | | Identitätsprüfung | 3 Werktage | DSB | | Bearbeitung | 1 Monat | IT + DSB | | Antwort | 1 Monat | DSB | --- ## 13. Schulung und Awareness ### 13.1 Schulungskonzept | Schulung | Zielgruppe | Frequenz | Dokumentation | |----------|------------|----------|---------------| | DSGVO-Grundlagen | Alle Lehrkräfte | Jährlich | Teilnehmerliste | | OCR-System-Nutzung | Nutzende Lehrkräfte | Bei Einführung | Zertifikat | | KI-Kompetenz (AI Act Art. 4) | Alle Nutzenden | Jährlich | Nachweis | ### 13.2 Schulungsinhalte **DSGVO-Grundlagen:** - Prinzipien der Datenverarbeitung - Betroffenenrechte - Meldepflichten bei Datenpannen **OCR-System-Nutzung:** - Systemfunktionen und Bedienung - Datenschutzrelevante Einstellungen - Dos and Don'ts **KI-Kompetenz:** - Funktionsweise von KI-Systemen - Grenzen und Risiken - Verantwortungsvoller Umgang --- ## 14. Review und Audit ### 14.1 Regelmäßige Überprüfungen | Prüfung | Frequenz | Verantwortlich | |---------|----------|----------------| | DSFA-Review | Jährlich | DSB | | TOM-Wirksamkeit | Jährlich | IT-Administrator | | Zugriffsrechte | Halbjährlich | IT-Administrator | | Backup-Test | Halbjährlich | IT-Administrator | | Modell-Bias-Prüfung | Jährlich | IT + Lehrkräfte | ### 14.2 Audit-Trail | Protokollierte Daten | Aufbewahrung | Format | |---------------------|--------------|--------| | Benutzeraktionen | 1 Jahr | PostgreSQL | | Systemereignisse | 1 Jahr | Syslog | | Sicherheitsvorfälle | 3 Jahre | Incident-Dokumentation | --- ## 15. Vorfallmanagement ### 15.1 Datenpannen-Prozess ``` ┌─────────────────────────────────────────────────────────────────────┐ │ INCIDENT RESPONSE │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ Erkennung ──► Bewertung ──► Meldung ──► Eindämmung ──► Behebung │ │ │ │ │ │ │ │ │ ▼ ▼ ▼ ▼ ▼ │ │ Monitoring Risiko- 72h an LfD Isolation Ursachen- │ │ Audit-Log einschätzung (Art.33) Forensik analyse │ │ │ └─────────────────────────────────────────────────────────────────────┘ ``` ### 15.2 Meldepflichten | Ereignis | Frist | Empfänger | |----------|-------|-----------| | Datenpanne mit Risiko | 72 Stunden | Landesbeauftragte/r für Datenschutz | | Hohes Risiko für Betroffene | Unverzüglich | Betroffene Personen | ### 15.3 KI-spezifische Vorfälle | Vorfall | Reaktion | |---------|----------| | Systematisch falsche OCR-Ergebnisse | Modell-Rollback, Analyse | | Bias-Erkennung | Untersuchung, ggf. Re-Training | | Adversarial Attack | System-Isolierung, Forensik | --- ## 16. Kontakte ### 16.1 Interne Kontakte | Rolle | Name | Kontakt | |-------|------|---------| | Schulleitung | [Name] | [E-Mail] | | IT-Administrator | [Name] | [E-Mail] | | Datenschutzbeauftragter | [Name] | [E-Mail] | ### 16.2 Externe Kontakte | Institution | Kontakt | |-------------|---------| | LfD Niedersachsen | poststelle@lfd.niedersachsen.de | | BSI | bsi@bsi.bund.de | --- ## Anhänge ### Anhang A: Systemarchitektur-Diagramm Siehe Abschnitt 4.2 ### Anhang B: TOM-Checkliste | Kategorie | Maßnahme | Status | |-----------|----------|--------| | Zutrittskontrolle | Serverraum verschlossen | ✓ | | Zugangskontrolle | Passwort-Policy | ✓ | | Zugriffskontrolle | RBAC implementiert | ✓ | | Weitergabekontrolle | Netzwerkisolation | ✓ | | Eingabekontrolle | Audit-Logging | ✓ | | Verfügbarkeit | Backup + USV | ✓ | | Trennungskontrolle | Mandantentrennung | ✓ | | Verschlüsselung | FileVault + TLS | ✓ | ### Anhang C: Muster-Informationsschreiben [Zu erstellen für spezifische Schule] ### Anhang D: Einwilligungserklärung Training [Zu erstellen für spezifische Schule] ### Anhang E: Vendor-Dokumentation - llama3.2-vision: https://llama.meta.com/ - TrOCR: https://github.com/microsoft/unilm/tree/master/trocr - Ollama: https://ollama.ai/ --- **Dokumentende** *Diese Dokumentation wird jährlich oder bei wesentlichen Änderungen aktualisiert.* *Letzte Aktualisierung: 21. Januar 2026*