This repository has been archived on 2026-02-15. You can view files and clone it. You cannot open issues or pull requests or push a commit.
Files
breakpilot-pwa/klausur-service/docs/DSGVO-Audit-OCR-Labeling.md
Benjamin Admin 21a844cb8a fix: Restore all files lost during destructive rebase
A previous `git pull --rebase origin main` dropped 177 local commits,
losing 3400+ files across admin-v2, backend, studio-v2, website,
klausur-service, and many other services. The partial restore attempt
(660295e2) only recovered some files.

This commit restores all missing files from pre-rebase ref 98933f5e
while preserving post-rebase additions (night-scheduler, night-mode UI,
NightModeWidget dashboard integration).

Restored features include:
- AI Module Sidebar (FAB), OCR Labeling, OCR Compare
- GPU Dashboard, RAG Pipeline, Magic Help
- Klausur-Korrektur (8 files), Abitur-Archiv (5+ files)
- Companion, Zeugnisse-Crawler, Screen Flow
- Full backend, studio-v2, website, klausur-service
- All compliance SDKs, agent-core, voice-service
- CI/CD configs, documentation, scripts

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-09 09:51:32 +01:00

33 KiB

DSGVO-Audit-Dokumentation: OCR-Labeling-System für Handschrifterkennung

Dokumentversion: 1.0.0 Datum: 21. Januar 2026 Klassifizierung: Vertraulich - Nur für internen Gebrauch und Auditoren Nächste Überprüfung: 21. Januar 2027


1. Management Summary

1.1 Systemübersicht

Das OCR-Labeling-System ist eine vollständig lokal betriebene Lösung zur Digitalisierung und Auswertung handschriftlicher Schülerarbeiten (Klausuren, Aufsätze). Das System nutzt:

  • llama3.2-vision:11b - Open-Source Vision-Language-Modell für OCR (lokal via Ollama)
  • TrOCR - Microsoft Transformer OCR für Handschrifterkennung (lokal)
  • qwen2.5:14b - Open-Source LLM für Korrekturassistenz (lokal via Ollama)

1.2 Datenschutz-Garantien

Merkmal Umsetzung
Verarbeitungsort 100% lokal auf schuleigenem Mac Mini
Cloud-Dienste Keine - vollständig offline-fähig
Datenübertragung Keine Übertragung an externe Server
KI-Modelle Open-Source, lokal ausgeführt, kein Telemetrie
Speicherung Lokale PostgreSQL-Datenbank, MinIO Object Storage

1.3 Compliance-Status

Das System erfüllt die Anforderungen der:

  • DSGVO (Verordnung (EU) 2016/679)
  • BDSG (Bundesdatenschutzgesetz)
  • Niedersächsisches Schulgesetz (NSchG) §31
  • EU AI Act (Verordnung (EU) 2024/1689)

2. Verzeichnis der Verarbeitungstätigkeiten (Art. 30 DSGVO)

2.1 Verantwortlicher

Feld Inhalt
Verantwortlicher [Schulname], [Schuladresse]
Vertreter Schulleitung: [Name]
Kontakt [E-Mail], [Telefon]

2.2 Datenschutzbeauftragter

Feld Inhalt
Name [Name DSB]
Organisation [Behördlicher/Externer DSB]
Kontakt [E-Mail], [Telefon]

2.3 Verarbeitungstätigkeiten

2.3.1 OCR-Verarbeitung von Klausuren

Attribut Beschreibung
Zweck Digitalisierung handschriftlicher Prüfungsantworten mittels KI-gestützter Texterkennung zur Unterstützung der Lehrkräfte bei der Korrektur
Rechtsgrundlage Art. 6 Abs. 1 lit. e DSGVO i.V.m. §31 NSchG (öffentliche Aufgabe der Leistungsbewertung)
Betroffene Personen Schülerinnen und Schüler (Prüfungsarbeiten)
Datenkategorien Handschriftproben, Prüfungsantworten, Schülerkennung (optional)
Empfänger Ausschließlich berechtigte Lehrkräfte der Schule
Drittlandübermittlung Keine
Löschfrist Gem. Aufbewahrungspflichten für Prüfungsunterlagen (i.d.R. 2-10 Jahre je nach Bundesland)

2.3.2 Labeling für Modell-Training

Attribut Beschreibung
Zweck Erstellung von Trainingsdaten für lokales Fine-Tuning der OCR-Modelle zur Verbesserung der Handschrifterkennung
Rechtsgrundlage Art. 6 Abs. 1 lit. f DSGVO (berechtigtes Interesse) oder Art. 6 Abs. 1 lit. a DSGVO (Einwilligung)
Betroffene Personen Schülerinnen und Schüler (anonymisierte Handschriftproben)
Datenkategorien Anonymisierte/pseudonymisierte Handschriftbilder, korrigierter Text
Empfänger Lokales ML-System, keine externen Empfänger
Drittlandübermittlung Keine
Löschfrist Trainingsdaten: Nach Abschluss des Trainings oder auf Widerruf

2.4 Verweis auf TOM

Siehe Abschnitt 8: Technisch-Organisatorische Maßnahmen


3. Rechtsgrundlagen (Art. 6 DSGVO)

3.1 Primäre Rechtsgrundlagen

Verarbeitungsschritt Rechtsgrundlage Begründung
Scan von Klausuren Art. 6 Abs. 1 lit. e DSGVO Öffentliche Aufgabe der schulischen Leistungsbewertung
OCR-Verarbeitung Art. 6 Abs. 1 lit. e DSGVO Teil der Bewertungsaufgabe, Effizienzsteigerung
Lehrerkorrektur Art. 6 Abs. 1 lit. e DSGVO Kernaufgabe der Leistungsbewertung
Export für Training Art. 6 Abs. 1 lit. f DSGVO Berechtigtes Interesse an Modellverbesserung

3.2 Landesrechtliche Grundlagen

Niedersachsen:

  • §31 NSchG: Erhebung, Verarbeitung und Nutzung personenbezogener Daten
  • Ergänzende Bestimmungen zur VO-DV I

Interesse-Abwägung für Training (Art. 6 Abs. 1 lit. f):

Aspekt Bewertung
Interesse des Verantwortlichen Verbesserung der OCR-Qualität für effizientere Klausurkorrektur
Erwartung der Betroffenen Schüler erwarten, dass Prüfungsarbeiten für schulische Zwecke verarbeitet werden
Auswirkung auf Betroffene Minimal - Daten werden pseudonymisiert, rein lokale Verarbeitung
Schutzmaßnahmen Pseudonymisierung, keine Weitergabe, lokale Verarbeitung
Ergebnis Berechtigtes Interesse überwiegt

3.3 Besondere Kategorien (Art. 9 DSGVO)

Prüfung auf besondere Kategorien:

Handschriftproben könnten theoretisch Rückschlüsse auf Gesundheitszustände ermöglichen (z.B. Tremor). Dies wird wie folgt adressiert:

  • OCR-Modelle analysieren ausschließlich Textinhalt, nicht Handschriftcharakteristiken
  • Keine Speicherung von Handschriftanalysen
  • Bei Training werden nur Textinhalte verwendet, keine biometrischen Merkmale

Ergebnis: Art. 9 ist nicht anwendbar, da keine Verarbeitung besonderer Kategorien erfolgt.


4. Datenschutz-Folgenabschätzung (Art. 35 DSGVO)

4.1 Schwellwertanalyse - Erforderlichkeit der DSFA

Kriterium Erfüllt Begründung
Neue Technologien (KI/ML) Vision-LLM für OCR
Umfangreiche Verarbeitung Begrenzt auf einzelne Schule
Daten von Minderjährigen Schülerarbeiten
Systematische Überwachung Keine Überwachung
Scoring/Profiling Keine automatische Bewertung

Ergebnis: DSFA erforderlich aufgrund KI-Einsatz und Verarbeitung von Daten Minderjähriger.

4.2 Systematische Beschreibung der Verarbeitung

Datenfluss-Diagramm

┌─────────────────────────────────────────────────────────────────────────────────┐
│                         OCR-LABELING DATENFLUSS                                  │
├─────────────────────────────────────────────────────────────────────────────────┤
│                                                                                  │
│  ┌──────────────┐    ┌──────────────┐    ┌──────────────┐    ┌──────────────┐  │
│  │  1. SCAN     │───►│  2. UPLOAD   │───►│  3. OCR      │───►│  4. LABELING │  │
│  │  (Lehrkraft) │    │  (MinIO)     │    │  (Ollama)    │    │  (Lehrkraft) │  │
│  └──────────────┘    └──────────────┘    └──────────────┘    └──────────────┘  │
│         │                   │                   │                   │           │
│         ▼                   ▼                   ▼                   ▼           │
│  Papierdokument      Verschlüsselte      Lokale LLM-         Bestätigung/      │
│  → digitaler Scan    Bildspeicherung     Verarbeitung        Korrektur         │
│                                                                                  │
│  ┌──────────────────────────────────────────────────────────────────────────┐  │
│  │                         SPEICHERUNG (PostgreSQL)                         │  │
│  │  • Session-ID (UUID)           • Status (pending/confirmed/corrected)    │  │
│  │  • Bild-Hash (SHA256)          • Ground Truth (korrigierter Text)       │  │
│  │  • OCR-Text                    • Zeitstempel                             │  │
│  └──────────────────────────────────────────────────────────────────────────┘  │
│                                                                                  │
│  ┌──────────────┐                                                               │
│  │  5. EXPORT   │  Pseudonymisierte Trainingsdaten (JSONL)                     │
│  │  (Optional)  │  → Lokal gespeichert für Fine-Tuning                         │
│  └──────────────┘                                                               │
│                                                                                  │
└─────────────────────────────────────────────────────────────────────────────────┘

Verarbeitungsschritte im Detail

Schritt Beschreibung Datenschutzmaßnahme
1. Scan Lehrkraft scannt Papierklausur Physischer Zugang nur für Lehrkräfte
2. Upload Bild wird in lokales MinIO hochgeladen SHA256-Deduplizierung, verschlüsselte Speicherung
3. OCR llama3.2-vision erkennt Text 100% lokal, kein Internet
4. Labeling Lehrkraft prüft/korrigiert OCR-Ergebnis Protokollierung aller Aktionen
5. Export Optional: Pseudonymisierte Trainingsdaten Entfernung direkter Identifikatoren

4.3 Notwendigkeit und Verhältnismäßigkeit

Prüfung der Erforderlichkeit

Prinzip Umsetzung
Zweckbindung Ausschließlich für schulische Leistungsbewertung und Modelltraining
Datenminimierung Nur Bildausschnitte mit Text, keine vollständigen Klausuren nötig
Speicherbegrenzung Automatische Löschung nach definierter Aufbewahrungsfrist

Alternativenprüfung

Alternative Bewertung
Manuelle Transkription Zeitaufwändig, fehleranfällig, nicht praktikabel
Cloud-OCR (Google, Azure) Datenschutzrisiken durch Drittlandübermittlung
Kommerzielles lokales OCR Hohe Kosten, Lizenzabhängigkeit
Gewählte Lösung Open-Source lokal - optimale Balance

4.4 Risikobewertung

Identifizierte Risiken

Risiko Eintrittswahrscheinlichkeit Schwere Risikostufe Mitigationsmaßnahme
R1: Unbefugter Zugriff auf Schülerdaten Gering Hoch Mittel Rollenbasierte Zugriffskontrolle, MFA
R2: Datenleck durch Systemkompromittierung Gering Hoch Mittel Verschlüsselung, Netzwerkisolation
R3: Fehlerhaftes OCR beeinflusst Bewertung Mittel Mittel Mittel Pflicht-Review durch Lehrkraft
R4: Re-Identifizierung aus Handschrift Gering Mittel Gering Pseudonymisierung, keine Handschriftanalyse
R5: Bias im OCR-Modell Mittel Mittel Mittel Regelmäßige Qualitätsprüfung

Risikomatrix

               SCHWERE
         Gering  Mittel  Hoch
        ┌───────┬───────┬───────┐
Hoch    │       │       │       │
        ├───────┼───────┼───────┤
Mittel  │       │ R3,R5 │       │   WAHRSCHEINLICHKEIT
        ├───────┼───────┼───────┤
Gering  │       │  R4   │ R1,R2 │
        └───────┴───────┴───────┘

4.5 Maßnahmen zur Risikominderung

Risiko Maßnahme Umsetzungsstatus
R1 RBAC, MFA, Audit-Logging ✓ Implementiert
R2 FileVault-Verschlüsselung, lokales Netz ✓ Implementiert
R3 Pflicht-Bestätigung durch Lehrkraft ✓ Implementiert
R4 Pseudonymisierung bei Export ✓ Implementiert
R5 Diverse Trainingssamples, manuelle Reviews ○ In Entwicklung

5. Informationspflichten (Art. 13/14 DSGVO)

5.1 Informationen für Betroffene

Folgende Informationen werden Schülern und Erziehungsberechtigten bereitgestellt:

5.1.1 Pflichtangaben nach Art. 13 DSGVO

Information Bereitstellung
Identität des Verantwortlichen Schulwebsite, Datenschutzerklärung
Kontakt DSB Schulwebsite, Aushang
Verarbeitungszwecke Datenschutzinformation bei Einschulung
Rechtsgrundlage Datenschutzinformation
Empfänger/Kategorien Datenschutzinformation
Speicherdauer Datenschutzinformation
Betroffenenrechte Datenschutzinformation, auf Anfrage
Beschwerderecht Datenschutzinformation

5.1.2 KI-spezifische Transparenz

Zusätzlich zu den Standard-Informationspflichten:

Information Inhalt
Art der KI Vision-LLM für Texterkennung, kein automatisches Bewerten
Menschliche Aufsicht Jedes OCR-Ergebnis wird von Lehrkraft geprüft
Keine automatische Entscheidung System macht Vorschläge, Lehrkraft entscheidet
Widerspruchsrecht Opt-out von Training-Verwendung möglich

5.2 Informationsbereitstellung

Kanal Zeitpunkt Zielgruppe
Einschulungsunterlagen Bei Schulanmeldung Erziehungsberechtigte
Datenschutzerklärung Website Dauerhaft Alle
Klausur-Deckblatt (optional) Bei Prüfung Schüler
Elternabend Jährlich Erziehungsberechtigte

6. Automatisierte Entscheidungsfindung (Art. 22 DSGVO)

6.1 Anwendbarkeitsprüfung

Prüfung der Tatbestandsmerkmale:

Merkmal Erfüllt Begründung
Automatisierte Verarbeitung Ja KI-gestützte Texterkennung
Entscheidung Nein OCR liefert nur Vorschlag
Rechtliche Wirkung/erhebliche Beeinträchtigung Nein Lehrkraft trifft finale Bewertungsentscheidung

Ergebnis: Art. 22 DSGVO ist nicht anwendbar, da keine automatisierte Entscheidung mit rechtlicher Wirkung erfolgt.

6.2 Teacher-in-the-Loop Garantie

Das System implementiert obligatorische menschliche Aufsicht:

┌──────────────┐     ┌──────────────┐     ┌──────────────┐
│  OCR-System  │────►│  Lehrkraft   │────►│   Bewertung  │
│  (Vorschlag) │     │  (Prüfung)   │     │   (Final)    │
└──────────────┘     └──────────────┘     └──────────────┘
       │                    │                    │
       │                    ▼                    │
       │            ┌──────────────┐            │
       └───────────►│  Korrektur   │◄───────────┘
                    │  (Optional)  │
                    └──────────────┘

Workflow-Garantien:

  1. Kein OCR-Ergebnis wird automatisch als korrekt übernommen
  2. Lehrkraft muss explizit bestätigen ODER korrigieren
  3. Bewertungsentscheidung liegt ausschließlich bei der Lehrkraft
  4. System gibt keine Notenvorschläge

6.3 Dokumentation der menschlichen Aufsicht

Metrik Erhebung
Bestätigungsrate % der OCR-Ergebnisse als korrekt bestätigt
Korrekturrate % der OCR-Ergebnisse mit Korrekturen
Durchschnittliche Prüfzeit Zeit pro Item in Sekunden
Lehrkraft-ID Pseudonymisiert für Audit-Trail

7. Privacy by Design und Default (Art. 25 DSGVO)

7.1 Design-Prinzipien

Prinzip Implementierung
Proaktive Maßnahmen Datenschutz von Anfang an im System-Design berücksichtigt
Standard-Datenschutz Minimale Datenerhebung als Default
Eingebetteter Datenschutz Technische Maßnahmen nicht umgehbar
Volle Funktionalität Kein Trade-off Datenschutz vs. Funktionalität
End-to-End Sicherheit Verschlüsselung vom Upload bis zur Löschung
Sichtbarkeit/Transparenz Alle Verarbeitungen protokolliert und nachvollziehbar
Nutzerzentrierung Betroffenenrechte einfach ausübbar

7.2 Umsetzung Datenminimierung

Maßnahme Beschreibung
Bildausschnitte Nur relevante Textbereiche, nicht vollständige Seiten
Metadaten-Beschränkung Keine Speicherung von Geräteinformationen des Scanners
Pseudonymisierung Schüler-IDs durch UUIDs ersetzt bei Export
Automatische Löschung Konfigurierbare Aufbewahrungsfristen

7.3 Default-Einstellungen

Einstellung Default Begründung
OCR-Ergebnis automatisch übernehmen Nein Menschliche Prüfung erforderlich
Training-Export aktiviert Nein Opt-in erforderlich
Metadaten-Speicherung Minimal Nur notwendige Daten
Zugriffsprotokollierung Ja Transparenz und Nachvollziehbarkeit

7.4 Vendor-Auswahl

Die verwendeten KI-Modelle wurden nach Datenschutzkriterien ausgewählt:

Modell Anbieter Lizenz Lokale Ausführung Telemetrie
llama3.2-vision:11b Meta Llama 3.2 Community Keine
qwen2.5:14b Alibaba Apache 2.0 Keine
TrOCR Microsoft MIT Keine

8. Technisch-Organisatorische Maßnahmen (Art. 32 DSGVO)

8.1 Vertraulichkeit

8.1.1 Zutrittskontrolle

Maßnahme Umsetzung
Physische Sicherung Server in abgeschlossenem Raum
Zugangsprotokoll Elektronisches Schloss mit Protokollierung
Berechtigte Personen IT-Administrator, Schulleitung

8.1.2 Zugangskontrolle

Maßnahme Umsetzung
Authentifizierung Benutzername + Passwort
Passwort-Policy Min. 12 Zeichen, Komplexitätsanforderungen
Session-Timeout 30 Minuten Inaktivität
Fehlversuche Account-Sperrung nach 5 Fehlversuchen

8.1.3 Zugriffskontrolle (RBAC)

Rolle Berechtigungen
Admin Vollzugriff, Benutzerverwaltung
Lehrkraft Eigene Sessions, Labeling, Export
Viewer Nur Lesezugriff auf Statistiken

8.1.4 Pseudonymisierung

Datenfeld Maßnahme
Schüler-ID UUID statt Klarname bei Export
Lehrkraft-ID Pseudonymisiert in Logs
Session-Name Keine Schülernamen erlaubt

8.1.5 Verschlüsselung

Bereich Maßnahme
Festplatte FileVault 2 (AES-256)
Datenbank Transparent Data Encryption
MinIO Storage Server-Side Encryption (SSE)
Netzwerk TLS 1.3 für lokale Verbindungen

8.2 Integrität

8.2.1 Weitergabekontrolle

Maßnahme Umsetzung
Netzwerkisolation Lokales Netz, keine Internet-Verbindung erforderlich
USB-Ports Administrativ deaktiviert
Firewall Eingehende Verbindungen blockiert

8.2.2 Eingabekontrolle

Maßnahme Umsetzung
Audit-Log Alle Aktionen mit Timestamp und User-ID
Unveränderlichkeit Append-only Logging
Log-Retention 1 Jahr

Protokollierte Aktionen:

  • Session erstellen/löschen
  • Bild hochladen
  • OCR ausführen
  • Label bestätigen/korrigieren/überspringen
  • Export durchführen
  • Login/Logout

8.3 Verfügbarkeit

Maßnahme Umsetzung
Backup Tägliches inkrementelles Backup
USV Unterbrechungsfreie Stromversorgung
RAID RAID 1 Spiegelung für Datenträger
Recovery-Test Halbjährlich

8.4 Belastbarkeit

Maßnahme Umsetzung
Ressourcen-Monitoring Prometheus + Grafana
Alerts E-Mail bei kritischen Schwellwerten
Kapazitätsplanung Jährliche Review

9. BSI-Anforderungen und Sicherheitsrichtlinien

9.1 Angewandte BSI-Publikationen

Publikation Relevanz Umsetzung
IT-Grundschutz-Kompendium Basis-Absicherung TOM nach Abschnitt 8
BSI TR-03116-4 Kryptographische Verfahren AES-256, TLS 1.3
Kriterienkatalog KI (Juni 2025) KI-Sicherheit Siehe 9.2
QUAIDAL (Juli 2025) Trainingsdaten-Qualität Siehe 9.3

9.2 KI-Sicherheitsanforderungen (BSI Kriterienkatalog)

Kriterium Anforderung Umsetzung
Modellintegrität Schutz vor Manipulation Lokale Modelle, keine Updates ohne Review
Eingabevalidierung Schutz vor Adversarial Attacks Bildformat-Prüfung, Größenlimits
Ausgabevalidierung Plausibilitätsprüfung Konfidenz-Schwellwerte
Protokollierung Nachvollziehbarkeit Vollständiges Audit-Log
Incident Response Reaktion auf Fehlfunktionen Eskalationsprozess definiert

9.3 Trainingsdaten-Qualität (QUAIDAL)

Qualitätskriterium Umsetzung
Herkunftsdokumentation Alle Trainingsdaten aus eigenem Labeling-Prozess
Repräsentativität Diverse Handschriften aus verschiedenen Klassenstufen
Qualitätskontrolle Lehrkraft-Verifikation jedes Samples
Bias-Prüfung Regelmäßige Stichproben-Analyse
Versionierung Git-basierte Versionskontrolle für Datasets

10. EU AI Act Compliance (KI-Verordnung)

10.1 Risikoklassifizierung

Prüfung nach Anhang III der KI-Verordnung:

Hochrisiko-Kategorie Anwendbar Begründung
3(a) Biometrische Identifizierung Nein Keine biometrische Verarbeitung
3(b) Kritische Infrastruktur Nein Keine kritische Infrastruktur
3(c) Allgemeine/berufliche Bildung Prüfen Bildungsbereich
3(d) Beschäftigung Nein Nicht anwendbar

Detailprüfung Bildung (Anhang III, Nr. 3c):

Das System wird nicht für folgende Hochrisiko-Anwendungen genutzt:

  • ✗ Entscheidung über Zugang zu Bildungseinrichtungen
  • ✗ Zuweisung zu Bildungseinrichtungen oder -programmen
  • ✗ Bewertung von Lernergebnissen (nur Unterstützung, keine automatische Bewertung)
  • ✗ Überwachung von Prüfungen

Ergebnis: Kein Hochrisiko-KI-System nach aktuellem Stand.

10.2 Allgemeine Anforderungen

Auch ohne Hochrisiko-Klassifizierung werden folgende Transparenzanforderungen erfüllt:

Anforderung Umsetzung
KI-Literacy (Art. 4) Schulung der Lehrkräfte
Transparenz gegenüber Nutzern Information über KI-Einsatz
Menschliche Aufsicht Teacher-in-the-Loop

10.3 Verbotsprüfung (Art. 5)

Verbotene Praxis Geprüft Ergebnis
Unterschwellige Manipulation Nicht vorhanden
Ausnutzung von Schwächen Nicht vorhanden
Social Scoring Nicht vorhanden
Echtzeit-Biometrie Nicht vorhanden
Emotionserkennung in Bildung Nicht vorhanden

11. ML/AI Training Dokumentation

11.1 Trainingsdaten-Quellen

Datensatz Quelle Rechtsgrundlage Volumen
Klausur-Scans Schulinterne Prüfungen Art. 6(1)(e) + Einwilligung Variabel
Lehrer-Korrekturen Labeling-System Art. 6(1)(e) Variabel

11.2 Datenqualitätsmaßnahmen

Maßnahme Beschreibung
Deduplizierung SHA256-Hash zur Vermeidung von Duplikaten
Qualitätskontrolle Jedes Sample von Lehrkraft geprüft
Repräsentativität Samples aus verschiedenen Fächern/Klassenstufen
Dokumentation Metadaten zu jedem Sample

11.3 Labeling-Prozess

┌─────────────────────────────────────────────────────────────────────┐
│                     LABELING WORKFLOW                                │
├─────────────────────────────────────────────────────────────────────┤
│                                                                      │
│  1. Bild-Upload            2. OCR-Vorschlag           3. Review     │
│  ┌─────────────┐          ┌─────────────┐          ┌─────────────┐  │
│  │   Scan      │─────────►│   LLM-OCR   │─────────►│  Lehrkraft  │  │
│  │   Upload    │          │   (lokal)   │          │   prüft     │  │
│  └─────────────┘          └─────────────┘          └──────┬──────┘  │
│                                                           │         │
│                                    ┌──────────────────────┴─────┐   │
│                                    ▼                            ▼   │
│                           ┌─────────────┐              ┌─────────┐  │
│                           │  Bestätigt  │              │Korrigiert│  │
│                           │  (korrekt)  │              │(manuell) │  │
│                           └─────────────┘              └─────────┘  │
│                                    │                            │   │
│                                    └──────────┬─────────────────┘   │
│                                               ▼                     │
│                                    ┌─────────────────┐              │
│                                    │  Ground Truth   │              │
│                                    │  (verifiziert)  │              │
│                                    └─────────────────┘              │
│                                                                      │
└─────────────────────────────────────────────────────────────────────┘

11.4 Export-Prozeduren

Schritt Beschreibung Datenschutzmaßnahme
1. Auswahl Sessions/Items für Export wählen Nur bestätigte/korrigierte Items
2. Pseudonymisierung Entfernung direkter Identifikatoren UUID statt Schüler-ID
3. Format-Konvertierung TrOCR/Llama/Generic Format Nur notwendige Felder
4. Speicherung Lokal in /app/ocr-exports/ Verschlüsselt, zugriffsbeschränkt

11.5 Modell-Provenienz

Modell Basis Fine-Tuning Daten Training-Parameter
llama3.2-vision:11b Meta Llama 3.2 Lokale gelabelte Daten Dokumentiert pro Training
TrOCR Microsoft Lokale gelabelte Daten Dokumentiert pro Training

12. Betroffenenrechte

12.1 Implementierte Rechte

Recht Art. DSGVO Umsetzung
Auskunft 15 Schriftliche Anfrage an DSB
Berichtigung 16 Korrektur falscher OCR-Ergebnisse
Löschung 17 Nach Aufbewahrungsfrist oder auf Antrag
Einschränkung 18 Sperrung der Verarbeitung auf Antrag
Datenportabilität 20 Export eigener Daten in JSON
Widerspruch 21 Opt-out von Training-Verwendung

12.2 Sonderrechte bei KI-Training

Recht Umsetzung
Widerspruch gegen Training Daten werden nicht für Fine-Tuning verwendet
Löschung aus Trainingsset "Machine Unlearning" durch Re-Training ohne betroffene Daten

12.3 Anfrage-Prozess

Schritt Frist Verantwortlich
Eingang der Anfrage - Sekretariat
Identitätsprüfung 3 Werktage DSB
Bearbeitung 1 Monat IT + DSB
Antwort 1 Monat DSB

13. Schulung und Awareness

13.1 Schulungskonzept

Schulung Zielgruppe Frequenz Dokumentation
DSGVO-Grundlagen Alle Lehrkräfte Jährlich Teilnehmerliste
OCR-System-Nutzung Nutzende Lehrkräfte Bei Einführung Zertifikat
KI-Kompetenz (AI Act Art. 4) Alle Nutzenden Jährlich Nachweis

13.2 Schulungsinhalte

DSGVO-Grundlagen:

  • Prinzipien der Datenverarbeitung
  • Betroffenenrechte
  • Meldepflichten bei Datenpannen

OCR-System-Nutzung:

  • Systemfunktionen und Bedienung
  • Datenschutzrelevante Einstellungen
  • Dos and Don'ts

KI-Kompetenz:

  • Funktionsweise von KI-Systemen
  • Grenzen und Risiken
  • Verantwortungsvoller Umgang

14. Review und Audit

14.1 Regelmäßige Überprüfungen

Prüfung Frequenz Verantwortlich
DSFA-Review Jährlich DSB
TOM-Wirksamkeit Jährlich IT-Administrator
Zugriffsrechte Halbjährlich IT-Administrator
Backup-Test Halbjährlich IT-Administrator
Modell-Bias-Prüfung Jährlich IT + Lehrkräfte

14.2 Audit-Trail

Protokollierte Daten Aufbewahrung Format
Benutzeraktionen 1 Jahr PostgreSQL
Systemereignisse 1 Jahr Syslog
Sicherheitsvorfälle 3 Jahre Incident-Dokumentation

15. Vorfallmanagement

15.1 Datenpannen-Prozess

┌─────────────────────────────────────────────────────────────────────┐
│                    INCIDENT RESPONSE                                 │
├─────────────────────────────────────────────────────────────────────┤
│                                                                      │
│  Erkennung ──► Bewertung ──► Meldung ──► Eindämmung ──► Behebung   │
│      │            │            │             │              │       │
│      ▼            ▼            ▼             ▼              ▼       │
│  Monitoring    Risiko-     72h an LfD    Isolation      Ursachen-  │
│  Audit-Log    einschätzung  (Art.33)    Forensik       analyse    │
│                                                                      │
└─────────────────────────────────────────────────────────────────────┘

15.2 Meldepflichten

Ereignis Frist Empfänger
Datenpanne mit Risiko 72 Stunden Landesbeauftragte/r für Datenschutz
Hohes Risiko für Betroffene Unverzüglich Betroffene Personen

15.3 KI-spezifische Vorfälle

Vorfall Reaktion
Systematisch falsche OCR-Ergebnisse Modell-Rollback, Analyse
Bias-Erkennung Untersuchung, ggf. Re-Training
Adversarial Attack System-Isolierung, Forensik

16. Kontakte

16.1 Interne Kontakte

Rolle Name Kontakt
Schulleitung [Name] [E-Mail]
IT-Administrator [Name] [E-Mail]
Datenschutzbeauftragter [Name] [E-Mail]

16.2 Externe Kontakte

Institution Kontakt
LfD Niedersachsen poststelle@lfd.niedersachsen.de
BSI bsi@bsi.bund.de

Anhänge

Anhang A: Systemarchitektur-Diagramm

Siehe Abschnitt 4.2

Anhang B: TOM-Checkliste

Kategorie Maßnahme Status
Zutrittskontrolle Serverraum verschlossen
Zugangskontrolle Passwort-Policy
Zugriffskontrolle RBAC implementiert
Weitergabekontrolle Netzwerkisolation
Eingabekontrolle Audit-Logging
Verfügbarkeit Backup + USV
Trennungskontrolle Mandantentrennung
Verschlüsselung FileVault + TLS

Anhang C: Muster-Informationsschreiben

[Zu erstellen für spezifische Schule]

Anhang D: Einwilligungserklärung Training

[Zu erstellen für spezifische Schule]

Anhang E: Vendor-Dokumentation


Dokumentende

Diese Dokumentation wird jährlich oder bei wesentlichen Änderungen aktualisiert.

Letzte Aktualisierung: 21. Januar 2026