Files
breakpilot-lehrer/klausur-service/docs/DSGVO-Audit-OCR-Labeling.md
Benjamin Boenisch 5a31f52310 Initial commit: breakpilot-lehrer - Lehrer KI Platform
Services: Admin-Lehrer, Backend-Lehrer, Studio v2, Website,
Klausur-Service, School-Service, Voice-Service, Geo-Service,
BreakPilot Drive, Agent-Core

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-11 23:47:26 +01:00

789 lines
33 KiB
Markdown

# DSGVO-Audit-Dokumentation: OCR-Labeling-System für Handschrifterkennung
**Dokumentversion:** 1.0.0
**Datum:** 21. Januar 2026
**Klassifizierung:** Vertraulich - Nur für internen Gebrauch und Auditoren
**Nächste Überprüfung:** 21. Januar 2027
---
## 1. Management Summary
### 1.1 Systemübersicht
Das OCR-Labeling-System ist eine **vollständig lokal betriebene** Lösung zur Digitalisierung und Auswertung handschriftlicher Schülerarbeiten (Klausuren, Aufsätze). Das System nutzt:
- **llama3.2-vision:11b** - Open-Source Vision-Language-Modell für OCR (lokal via Ollama)
- **TrOCR** - Microsoft Transformer OCR für Handschrifterkennung (lokal)
- **qwen2.5:14b** - Open-Source LLM für Korrekturassistenz (lokal via Ollama)
### 1.2 Datenschutz-Garantien
| Merkmal | Umsetzung |
|---------|-----------|
| **Verarbeitungsort** | 100% lokal auf schuleigenem Mac Mini |
| **Cloud-Dienste** | Keine - vollständig offline-fähig |
| **Datenübertragung** | Keine Übertragung an externe Server |
| **KI-Modelle** | Open-Source, lokal ausgeführt, kein Telemetrie |
| **Speicherung** | Lokale PostgreSQL-Datenbank, MinIO Object Storage |
### 1.3 Compliance-Status
Das System erfüllt die Anforderungen der:
- DSGVO (Verordnung (EU) 2016/679)
- BDSG (Bundesdatenschutzgesetz)
- Niedersächsisches Schulgesetz (NSchG) §31
- EU AI Act (Verordnung (EU) 2024/1689)
---
## 2. Verzeichnis der Verarbeitungstätigkeiten (Art. 30 DSGVO)
### 2.1 Verantwortlicher
| Feld | Inhalt |
|------|--------|
| **Verantwortlicher** | [Schulname], [Schuladresse] |
| **Vertreter** | Schulleitung: [Name] |
| **Kontakt** | [E-Mail], [Telefon] |
### 2.2 Datenschutzbeauftragter
| Feld | Inhalt |
|------|--------|
| **Name** | [Name DSB] |
| **Organisation** | [Behördlicher/Externer DSB] |
| **Kontakt** | [E-Mail], [Telefon] |
### 2.3 Verarbeitungstätigkeiten
#### 2.3.1 OCR-Verarbeitung von Klausuren
| Attribut | Beschreibung |
|----------|--------------|
| **Zweck** | Digitalisierung handschriftlicher Prüfungsantworten mittels KI-gestützter Texterkennung zur Unterstützung der Lehrkräfte bei der Korrektur |
| **Rechtsgrundlage** | Art. 6 Abs. 1 lit. e DSGVO i.V.m. §31 NSchG (öffentliche Aufgabe der Leistungsbewertung) |
| **Betroffene Personen** | Schülerinnen und Schüler (Prüfungsarbeiten) |
| **Datenkategorien** | Handschriftproben, Prüfungsantworten, Schülerkennung (optional) |
| **Empfänger** | Ausschließlich berechtigte Lehrkräfte der Schule |
| **Drittlandübermittlung** | Keine |
| **Löschfrist** | Gem. Aufbewahrungspflichten für Prüfungsunterlagen (i.d.R. 2-10 Jahre je nach Bundesland) |
#### 2.3.2 Labeling für Modell-Training
| Attribut | Beschreibung |
|----------|--------------|
| **Zweck** | Erstellung von Trainingsdaten für lokales Fine-Tuning der OCR-Modelle zur Verbesserung der Handschrifterkennung |
| **Rechtsgrundlage** | Art. 6 Abs. 1 lit. f DSGVO (berechtigtes Interesse) oder Art. 6 Abs. 1 lit. a DSGVO (Einwilligung) |
| **Betroffene Personen** | Schülerinnen und Schüler (anonymisierte Handschriftproben) |
| **Datenkategorien** | Anonymisierte/pseudonymisierte Handschriftbilder, korrigierter Text |
| **Empfänger** | Lokales ML-System, keine externen Empfänger |
| **Drittlandübermittlung** | Keine |
| **Löschfrist** | Trainingsdaten: Nach Abschluss des Trainings oder auf Widerruf |
### 2.4 Verweis auf TOM
Siehe Abschnitt 8: Technisch-Organisatorische Maßnahmen
---
## 3. Rechtsgrundlagen (Art. 6 DSGVO)
### 3.1 Primäre Rechtsgrundlagen
| Verarbeitungsschritt | Rechtsgrundlage | Begründung |
|---------------------|-----------------|------------|
| Scan von Klausuren | Art. 6 Abs. 1 lit. e DSGVO | Öffentliche Aufgabe der schulischen Leistungsbewertung |
| OCR-Verarbeitung | Art. 6 Abs. 1 lit. e DSGVO | Teil der Bewertungsaufgabe, Effizienzsteigerung |
| Lehrerkorrektur | Art. 6 Abs. 1 lit. e DSGVO | Kernaufgabe der Leistungsbewertung |
| Export für Training | Art. 6 Abs. 1 lit. f DSGVO | Berechtigtes Interesse an Modellverbesserung |
### 3.2 Landesrechtliche Grundlagen
**Niedersachsen:**
- §31 NSchG: Erhebung, Verarbeitung und Nutzung personenbezogener Daten
- Ergänzende Bestimmungen zur VO-DV I
**Interesse-Abwägung für Training (Art. 6 Abs. 1 lit. f):**
| Aspekt | Bewertung |
|--------|-----------|
| **Interesse des Verantwortlichen** | Verbesserung der OCR-Qualität für effizientere Klausurkorrektur |
| **Erwartung der Betroffenen** | Schüler erwarten, dass Prüfungsarbeiten für schulische Zwecke verarbeitet werden |
| **Auswirkung auf Betroffene** | Minimal - Daten werden pseudonymisiert, rein lokale Verarbeitung |
| **Schutzmaßnahmen** | Pseudonymisierung, keine Weitergabe, lokale Verarbeitung |
| **Ergebnis** | Berechtigtes Interesse überwiegt |
### 3.3 Besondere Kategorien (Art. 9 DSGVO)
**Prüfung auf besondere Kategorien:**
Handschriftproben könnten theoretisch Rückschlüsse auf Gesundheitszustände ermöglichen (z.B. Tremor). Dies wird wie folgt adressiert:
- OCR-Modelle analysieren ausschließlich Textinhalt, nicht Handschriftcharakteristiken
- Keine Speicherung von Handschriftanalysen
- Bei Training werden nur Textinhalte verwendet, keine biometrischen Merkmale
**Ergebnis:** Art. 9 ist nicht anwendbar, da keine Verarbeitung besonderer Kategorien erfolgt.
---
## 4. Datenschutz-Folgenabschätzung (Art. 35 DSGVO)
### 4.1 Schwellwertanalyse - Erforderlichkeit der DSFA
| Kriterium | Erfüllt | Begründung |
|-----------|---------|------------|
| Neue Technologien (KI/ML) | ✓ | Vision-LLM für OCR |
| Umfangreiche Verarbeitung | ✗ | Begrenzt auf einzelne Schule |
| Daten von Minderjährigen | ✓ | Schülerarbeiten |
| Systematische Überwachung | ✗ | Keine Überwachung |
| Scoring/Profiling | ✗ | Keine automatische Bewertung |
**Ergebnis:** DSFA erforderlich aufgrund KI-Einsatz und Verarbeitung von Daten Minderjähriger.
### 4.2 Systematische Beschreibung der Verarbeitung
#### Datenfluss-Diagramm
```
┌─────────────────────────────────────────────────────────────────────────────────┐
│ OCR-LABELING DATENFLUSS │
├─────────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 1. SCAN │───►│ 2. UPLOAD │───►│ 3. OCR │───►│ 4. LABELING │ │
│ │ (Lehrkraft) │ │ (MinIO) │ │ (Ollama) │ │ (Lehrkraft) │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │
│ │ │ │ │ │
│ ▼ ▼ ▼ ▼ │
│ Papierdokument Verschlüsselte Lokale LLM- Bestätigung/ │
│ → digitaler Scan Bildspeicherung Verarbeitung Korrektur │
│ │
│ ┌──────────────────────────────────────────────────────────────────────────┐ │
│ │ SPEICHERUNG (PostgreSQL) │ │
│ │ • Session-ID (UUID) • Status (pending/confirmed/corrected) │ │
│ │ • Bild-Hash (SHA256) • Ground Truth (korrigierter Text) │ │
│ │ • OCR-Text • Zeitstempel │ │
│ └──────────────────────────────────────────────────────────────────────────┘ │
│ │
│ ┌──────────────┐ │
│ │ 5. EXPORT │ Pseudonymisierte Trainingsdaten (JSONL) │
│ │ (Optional) │ → Lokal gespeichert für Fine-Tuning │
│ └──────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────────┘
```
#### Verarbeitungsschritte im Detail
| Schritt | Beschreibung | Datenschutzmaßnahme |
|---------|--------------|---------------------|
| 1. Scan | Lehrkraft scannt Papierklausur | Physischer Zugang nur für Lehrkräfte |
| 2. Upload | Bild wird in lokales MinIO hochgeladen | SHA256-Deduplizierung, verschlüsselte Speicherung |
| 3. OCR | llama3.2-vision erkennt Text | 100% lokal, kein Internet |
| 4. Labeling | Lehrkraft prüft/korrigiert OCR-Ergebnis | Protokollierung aller Aktionen |
| 5. Export | Optional: Pseudonymisierte Trainingsdaten | Entfernung direkter Identifikatoren |
### 4.3 Notwendigkeit und Verhältnismäßigkeit
#### Prüfung der Erforderlichkeit
| Prinzip | Umsetzung |
|---------|-----------|
| **Zweckbindung** | Ausschließlich für schulische Leistungsbewertung und Modelltraining |
| **Datenminimierung** | Nur Bildausschnitte mit Text, keine vollständigen Klausuren nötig |
| **Speicherbegrenzung** | Automatische Löschung nach definierter Aufbewahrungsfrist |
#### Alternativenprüfung
| Alternative | Bewertung |
|-------------|-----------|
| Manuelle Transkription | Zeitaufwändig, fehleranfällig, nicht praktikabel |
| Cloud-OCR (Google, Azure) | Datenschutzrisiken durch Drittlandübermittlung |
| Kommerzielles lokales OCR | Hohe Kosten, Lizenzabhängigkeit |
| **Gewählte Lösung** | Open-Source lokal - optimale Balance |
### 4.4 Risikobewertung
#### Identifizierte Risiken
| Risiko | Eintrittswahrscheinlichkeit | Schwere | Risikostufe | Mitigationsmaßnahme |
|--------|---------------------------|---------|-------------|---------------------|
| R1: Unbefugter Zugriff auf Schülerdaten | Gering | Hoch | Mittel | Rollenbasierte Zugriffskontrolle, MFA |
| R2: Datenleck durch Systemkompromittierung | Gering | Hoch | Mittel | Verschlüsselung, Netzwerkisolation |
| R3: Fehlerhaftes OCR beeinflusst Bewertung | Mittel | Mittel | Mittel | Pflicht-Review durch Lehrkraft |
| R4: Re-Identifizierung aus Handschrift | Gering | Mittel | Gering | Pseudonymisierung, keine Handschriftanalyse |
| R5: Bias im OCR-Modell | Mittel | Mittel | Mittel | Regelmäßige Qualitätsprüfung |
#### Risikomatrix
```
SCHWERE
Gering Mittel Hoch
┌───────┬───────┬───────┐
Hoch │ │ │ │
├───────┼───────┼───────┤
Mittel │ │ R3,R5 │ │ WAHRSCHEINLICHKEIT
├───────┼───────┼───────┤
Gering │ │ R4 │ R1,R2 │
└───────┴───────┴───────┘
```
### 4.5 Maßnahmen zur Risikominderung
| Risiko | Maßnahme | Umsetzungsstatus |
|--------|----------|------------------|
| R1 | RBAC, MFA, Audit-Logging | ✓ Implementiert |
| R2 | FileVault-Verschlüsselung, lokales Netz | ✓ Implementiert |
| R3 | Pflicht-Bestätigung durch Lehrkraft | ✓ Implementiert |
| R4 | Pseudonymisierung bei Export | ✓ Implementiert |
| R5 | Diverse Trainingssamples, manuelle Reviews | ○ In Entwicklung |
---
## 5. Informationspflichten (Art. 13/14 DSGVO)
### 5.1 Informationen für Betroffene
Folgende Informationen werden Schülern und Erziehungsberechtigten bereitgestellt:
#### 5.1.1 Pflichtangaben nach Art. 13 DSGVO
| Information | Bereitstellung |
|-------------|----------------|
| Identität des Verantwortlichen | Schulwebsite, Datenschutzerklärung |
| Kontakt DSB | Schulwebsite, Aushang |
| Verarbeitungszwecke | Datenschutzinformation bei Einschulung |
| Rechtsgrundlage | Datenschutzinformation |
| Empfänger/Kategorien | Datenschutzinformation |
| Speicherdauer | Datenschutzinformation |
| Betroffenenrechte | Datenschutzinformation, auf Anfrage |
| Beschwerderecht | Datenschutzinformation |
#### 5.1.2 KI-spezifische Transparenz
Zusätzlich zu den Standard-Informationspflichten:
| Information | Inhalt |
|-------------|--------|
| Art der KI | Vision-LLM für Texterkennung, kein automatisches Bewerten |
| Menschliche Aufsicht | Jedes OCR-Ergebnis wird von Lehrkraft geprüft |
| Keine automatische Entscheidung | System macht Vorschläge, Lehrkraft entscheidet |
| Widerspruchsrecht | Opt-out von Training-Verwendung möglich |
### 5.2 Informationsbereitstellung
| Kanal | Zeitpunkt | Zielgruppe |
|-------|-----------|------------|
| Einschulungsunterlagen | Bei Schulanmeldung | Erziehungsberechtigte |
| Datenschutzerklärung Website | Dauerhaft | Alle |
| Klausur-Deckblatt (optional) | Bei Prüfung | Schüler |
| Elternabend | Jährlich | Erziehungsberechtigte |
---
## 6. Automatisierte Entscheidungsfindung (Art. 22 DSGVO)
### 6.1 Anwendbarkeitsprüfung
**Prüfung der Tatbestandsmerkmale:**
| Merkmal | Erfüllt | Begründung |
|---------|---------|------------|
| Automatisierte Verarbeitung | Ja | KI-gestützte Texterkennung |
| Entscheidung | Nein | OCR liefert nur Vorschlag |
| Rechtliche Wirkung/erhebliche Beeinträchtigung | Nein | Lehrkraft trifft finale Bewertungsentscheidung |
**Ergebnis:** Art. 22 DSGVO ist **nicht anwendbar**, da keine automatisierte Entscheidung mit rechtlicher Wirkung erfolgt.
### 6.2 Teacher-in-the-Loop Garantie
Das System implementiert obligatorische menschliche Aufsicht:
```
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ OCR-System │────►│ Lehrkraft │────►│ Bewertung │
│ (Vorschlag) │ │ (Prüfung) │ │ (Final) │
└──────────────┘ └──────────────┘ └──────────────┘
│ │ │
│ ▼ │
│ ┌──────────────┐ │
└───────────►│ Korrektur │◄───────────┘
│ (Optional) │
└──────────────┘
```
**Workflow-Garantien:**
1. Kein OCR-Ergebnis wird automatisch als korrekt übernommen
2. Lehrkraft muss explizit bestätigen ODER korrigieren
3. Bewertungsentscheidung liegt ausschließlich bei der Lehrkraft
4. System gibt keine Notenvorschläge
### 6.3 Dokumentation der menschlichen Aufsicht
| Metrik | Erhebung |
|--------|----------|
| Bestätigungsrate | % der OCR-Ergebnisse als korrekt bestätigt |
| Korrekturrate | % der OCR-Ergebnisse mit Korrekturen |
| Durchschnittliche Prüfzeit | Zeit pro Item in Sekunden |
| Lehrkraft-ID | Pseudonymisiert für Audit-Trail |
---
## 7. Privacy by Design und Default (Art. 25 DSGVO)
### 7.1 Design-Prinzipien
| Prinzip | Implementierung |
|---------|-----------------|
| **Proaktive Maßnahmen** | Datenschutz von Anfang an im System-Design berücksichtigt |
| **Standard-Datenschutz** | Minimale Datenerhebung als Default |
| **Eingebetteter Datenschutz** | Technische Maßnahmen nicht umgehbar |
| **Volle Funktionalität** | Kein Trade-off Datenschutz vs. Funktionalität |
| **End-to-End Sicherheit** | Verschlüsselung vom Upload bis zur Löschung |
| **Sichtbarkeit/Transparenz** | Alle Verarbeitungen protokolliert und nachvollziehbar |
| **Nutzerzentrierung** | Betroffenenrechte einfach ausübbar |
### 7.2 Umsetzung Datenminimierung
| Maßnahme | Beschreibung |
|----------|--------------|
| Bildausschnitte | Nur relevante Textbereiche, nicht vollständige Seiten |
| Metadaten-Beschränkung | Keine Speicherung von Geräteinformationen des Scanners |
| Pseudonymisierung | Schüler-IDs durch UUIDs ersetzt bei Export |
| Automatische Löschung | Konfigurierbare Aufbewahrungsfristen |
### 7.3 Default-Einstellungen
| Einstellung | Default | Begründung |
|-------------|---------|------------|
| OCR-Ergebnis automatisch übernehmen | Nein | Menschliche Prüfung erforderlich |
| Training-Export aktiviert | Nein | Opt-in erforderlich |
| Metadaten-Speicherung | Minimal | Nur notwendige Daten |
| Zugriffsprotokollierung | Ja | Transparenz und Nachvollziehbarkeit |
### 7.4 Vendor-Auswahl
Die verwendeten KI-Modelle wurden nach Datenschutzkriterien ausgewählt:
| Modell | Anbieter | Lizenz | Lokale Ausführung | Telemetrie |
|--------|----------|--------|-------------------|------------|
| llama3.2-vision:11b | Meta | Llama 3.2 Community | ✓ | Keine |
| qwen2.5:14b | Alibaba | Apache 2.0 | ✓ | Keine |
| TrOCR | Microsoft | MIT | ✓ | Keine |
---
## 8. Technisch-Organisatorische Maßnahmen (Art. 32 DSGVO)
### 8.1 Vertraulichkeit
#### 8.1.1 Zutrittskontrolle
| Maßnahme | Umsetzung |
|----------|-----------|
| Physische Sicherung | Server in abgeschlossenem Raum |
| Zugangsprotokoll | Elektronisches Schloss mit Protokollierung |
| Berechtigte Personen | IT-Administrator, Schulleitung |
#### 8.1.2 Zugangskontrolle
| Maßnahme | Umsetzung |
|----------|-----------|
| Authentifizierung | Benutzername + Passwort |
| Passwort-Policy | Min. 12 Zeichen, Komplexitätsanforderungen |
| Session-Timeout | 30 Minuten Inaktivität |
| Fehlversuche | Account-Sperrung nach 5 Fehlversuchen |
#### 8.1.3 Zugriffskontrolle (RBAC)
| Rolle | Berechtigungen |
|-------|----------------|
| **Admin** | Vollzugriff, Benutzerverwaltung |
| **Lehrkraft** | Eigene Sessions, Labeling, Export |
| **Viewer** | Nur Lesezugriff auf Statistiken |
#### 8.1.4 Pseudonymisierung
| Datenfeld | Maßnahme |
|-----------|----------|
| Schüler-ID | UUID statt Klarname bei Export |
| Lehrkraft-ID | Pseudonymisiert in Logs |
| Session-Name | Keine Schülernamen erlaubt |
#### 8.1.5 Verschlüsselung
| Bereich | Maßnahme |
|---------|----------|
| Festplatte | FileVault 2 (AES-256) |
| Datenbank | Transparent Data Encryption |
| MinIO Storage | Server-Side Encryption (SSE) |
| Netzwerk | TLS 1.3 für lokale Verbindungen |
### 8.2 Integrität
#### 8.2.1 Weitergabekontrolle
| Maßnahme | Umsetzung |
|----------|-----------|
| Netzwerkisolation | Lokales Netz, keine Internet-Verbindung erforderlich |
| USB-Ports | Administrativ deaktiviert |
| Firewall | Eingehende Verbindungen blockiert |
#### 8.2.2 Eingabekontrolle
| Maßnahme | Umsetzung |
|----------|-----------|
| Audit-Log | Alle Aktionen mit Timestamp und User-ID |
| Unveränderlichkeit | Append-only Logging |
| Log-Retention | 1 Jahr |
**Protokollierte Aktionen:**
- Session erstellen/löschen
- Bild hochladen
- OCR ausführen
- Label bestätigen/korrigieren/überspringen
- Export durchführen
- Login/Logout
### 8.3 Verfügbarkeit
| Maßnahme | Umsetzung |
|----------|-----------|
| Backup | Tägliches inkrementelles Backup |
| USV | Unterbrechungsfreie Stromversorgung |
| RAID | RAID 1 Spiegelung für Datenträger |
| Recovery-Test | Halbjährlich |
### 8.4 Belastbarkeit
| Maßnahme | Umsetzung |
|----------|-----------|
| Ressourcen-Monitoring | Prometheus + Grafana |
| Alerts | E-Mail bei kritischen Schwellwerten |
| Kapazitätsplanung | Jährliche Review |
---
## 9. BSI-Anforderungen und Sicherheitsrichtlinien
### 9.1 Angewandte BSI-Publikationen
| Publikation | Relevanz | Umsetzung |
|-------------|----------|-----------|
| IT-Grundschutz-Kompendium | Basis-Absicherung | TOM nach Abschnitt 8 |
| BSI TR-03116-4 | Kryptographische Verfahren | AES-256, TLS 1.3 |
| Kriterienkatalog KI (Juni 2025) | KI-Sicherheit | Siehe 9.2 |
| QUAIDAL (Juli 2025) | Trainingsdaten-Qualität | Siehe 9.3 |
### 9.2 KI-Sicherheitsanforderungen (BSI Kriterienkatalog)
| Kriterium | Anforderung | Umsetzung |
|-----------|-------------|-----------|
| Modellintegrität | Schutz vor Manipulation | Lokale Modelle, keine Updates ohne Review |
| Eingabevalidierung | Schutz vor Adversarial Attacks | Bildformat-Prüfung, Größenlimits |
| Ausgabevalidierung | Plausibilitätsprüfung | Konfidenz-Schwellwerte |
| Protokollierung | Nachvollziehbarkeit | Vollständiges Audit-Log |
| Incident Response | Reaktion auf Fehlfunktionen | Eskalationsprozess definiert |
### 9.3 Trainingsdaten-Qualität (QUAIDAL)
| Qualitätskriterium | Umsetzung |
|--------------------|-----------|
| **Herkunftsdokumentation** | Alle Trainingsdaten aus eigenem Labeling-Prozess |
| **Repräsentativität** | Diverse Handschriften aus verschiedenen Klassenstufen |
| **Qualitätskontrolle** | Lehrkraft-Verifikation jedes Samples |
| **Bias-Prüfung** | Regelmäßige Stichproben-Analyse |
| **Versionierung** | Git-basierte Versionskontrolle für Datasets |
---
## 10. EU AI Act Compliance (KI-Verordnung)
### 10.1 Risikoklassifizierung
**Prüfung nach Anhang III der KI-Verordnung:**
| Hochrisiko-Kategorie | Anwendbar | Begründung |
|---------------------|-----------|------------|
| 3(a) Biometrische Identifizierung | Nein | Keine biometrische Verarbeitung |
| 3(b) Kritische Infrastruktur | Nein | Keine kritische Infrastruktur |
| 3(c) Allgemeine/berufliche Bildung | **Prüfen** | Bildungsbereich |
| 3(d) Beschäftigung | Nein | Nicht anwendbar |
**Detailprüfung Bildung (Anhang III, Nr. 3c):**
Das System wird **nicht** für folgende Hochrisiko-Anwendungen genutzt:
- ✗ Entscheidung über Zugang zu Bildungseinrichtungen
- ✗ Zuweisung zu Bildungseinrichtungen oder -programmen
- ✗ Bewertung von Lernergebnissen (nur Unterstützung, keine automatische Bewertung)
- ✗ Überwachung von Prüfungen
**Ergebnis:** Kein Hochrisiko-KI-System nach aktuellem Stand.
### 10.2 Allgemeine Anforderungen
Auch ohne Hochrisiko-Klassifizierung werden folgende Transparenzanforderungen erfüllt:
| Anforderung | Umsetzung |
|-------------|-----------|
| KI-Literacy (Art. 4) | Schulung der Lehrkräfte |
| Transparenz gegenüber Nutzern | Information über KI-Einsatz |
| Menschliche Aufsicht | Teacher-in-the-Loop |
### 10.3 Verbotsprüfung (Art. 5)
| Verbotene Praxis | Geprüft | Ergebnis |
|------------------|---------|----------|
| Unterschwellige Manipulation | ✓ | Nicht vorhanden |
| Ausnutzung von Schwächen | ✓ | Nicht vorhanden |
| Social Scoring | ✓ | Nicht vorhanden |
| Echtzeit-Biometrie | ✓ | Nicht vorhanden |
| Emotionserkennung in Bildung | ✓ | **Nicht vorhanden** |
---
## 11. ML/AI Training Dokumentation
### 11.1 Trainingsdaten-Quellen
| Datensatz | Quelle | Rechtsgrundlage | Volumen |
|-----------|--------|-----------------|---------|
| Klausur-Scans | Schulinterne Prüfungen | Art. 6(1)(e) + Einwilligung | Variabel |
| Lehrer-Korrekturen | Labeling-System | Art. 6(1)(e) | Variabel |
### 11.2 Datenqualitätsmaßnahmen
| Maßnahme | Beschreibung |
|----------|--------------|
| Deduplizierung | SHA256-Hash zur Vermeidung von Duplikaten |
| Qualitätskontrolle | Jedes Sample von Lehrkraft geprüft |
| Repräsentativität | Samples aus verschiedenen Fächern/Klassenstufen |
| Dokumentation | Metadaten zu jedem Sample |
### 11.3 Labeling-Prozess
```
┌─────────────────────────────────────────────────────────────────────┐
│ LABELING WORKFLOW │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 1. Bild-Upload 2. OCR-Vorschlag 3. Review │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ Scan │─────────►│ LLM-OCR │─────────►│ Lehrkraft │ │
│ │ Upload │ │ (lokal) │ │ prüft │ │
│ └─────────────┘ └─────────────┘ └──────┬──────┘ │
│ │ │
│ ┌──────────────────────┴─────┐ │
│ ▼ ▼ │
│ ┌─────────────┐ ┌─────────┐ │
│ │ Bestätigt │ │Korrigiert│ │
│ │ (korrekt) │ │(manuell) │ │
│ └─────────────┘ └─────────┘ │
│ │ │ │
│ └──────────┬─────────────────┘ │
│ ▼ │
│ ┌─────────────────┐ │
│ │ Ground Truth │ │
│ │ (verifiziert) │ │
│ └─────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────┘
```
### 11.4 Export-Prozeduren
| Schritt | Beschreibung | Datenschutzmaßnahme |
|---------|--------------|---------------------|
| 1. Auswahl | Sessions/Items für Export wählen | Nur bestätigte/korrigierte Items |
| 2. Pseudonymisierung | Entfernung direkter Identifikatoren | UUID statt Schüler-ID |
| 3. Format-Konvertierung | TrOCR/Llama/Generic Format | Nur notwendige Felder |
| 4. Speicherung | Lokal in /app/ocr-exports/ | Verschlüsselt, zugriffsbeschränkt |
### 11.5 Modell-Provenienz
| Modell | Basis | Fine-Tuning Daten | Training-Parameter |
|--------|-------|-------------------|-------------------|
| llama3.2-vision:11b | Meta Llama 3.2 | Lokale gelabelte Daten | Dokumentiert pro Training |
| TrOCR | Microsoft | Lokale gelabelte Daten | Dokumentiert pro Training |
---
## 12. Betroffenenrechte
### 12.1 Implementierte Rechte
| Recht | Art. DSGVO | Umsetzung |
|-------|-----------|-----------|
| **Auskunft** | 15 | Schriftliche Anfrage an DSB |
| **Berichtigung** | 16 | Korrektur falscher OCR-Ergebnisse |
| **Löschung** | 17 | Nach Aufbewahrungsfrist oder auf Antrag |
| **Einschränkung** | 18 | Sperrung der Verarbeitung auf Antrag |
| **Datenportabilität** | 20 | Export eigener Daten in JSON |
| **Widerspruch** | 21 | Opt-out von Training-Verwendung |
### 12.2 Sonderrechte bei KI-Training
| Recht | Umsetzung |
|-------|-----------|
| Widerspruch gegen Training | Daten werden nicht für Fine-Tuning verwendet |
| Löschung aus Trainingsset | "Machine Unlearning" durch Re-Training ohne betroffene Daten |
### 12.3 Anfrage-Prozess
| Schritt | Frist | Verantwortlich |
|---------|-------|----------------|
| Eingang der Anfrage | - | Sekretariat |
| Identitätsprüfung | 3 Werktage | DSB |
| Bearbeitung | 1 Monat | IT + DSB |
| Antwort | 1 Monat | DSB |
---
## 13. Schulung und Awareness
### 13.1 Schulungskonzept
| Schulung | Zielgruppe | Frequenz | Dokumentation |
|----------|------------|----------|---------------|
| DSGVO-Grundlagen | Alle Lehrkräfte | Jährlich | Teilnehmerliste |
| OCR-System-Nutzung | Nutzende Lehrkräfte | Bei Einführung | Zertifikat |
| KI-Kompetenz (AI Act Art. 4) | Alle Nutzenden | Jährlich | Nachweis |
### 13.2 Schulungsinhalte
**DSGVO-Grundlagen:**
- Prinzipien der Datenverarbeitung
- Betroffenenrechte
- Meldepflichten bei Datenpannen
**OCR-System-Nutzung:**
- Systemfunktionen und Bedienung
- Datenschutzrelevante Einstellungen
- Dos and Don'ts
**KI-Kompetenz:**
- Funktionsweise von KI-Systemen
- Grenzen und Risiken
- Verantwortungsvoller Umgang
---
## 14. Review und Audit
### 14.1 Regelmäßige Überprüfungen
| Prüfung | Frequenz | Verantwortlich |
|---------|----------|----------------|
| DSFA-Review | Jährlich | DSB |
| TOM-Wirksamkeit | Jährlich | IT-Administrator |
| Zugriffsrechte | Halbjährlich | IT-Administrator |
| Backup-Test | Halbjährlich | IT-Administrator |
| Modell-Bias-Prüfung | Jährlich | IT + Lehrkräfte |
### 14.2 Audit-Trail
| Protokollierte Daten | Aufbewahrung | Format |
|---------------------|--------------|--------|
| Benutzeraktionen | 1 Jahr | PostgreSQL |
| Systemereignisse | 1 Jahr | Syslog |
| Sicherheitsvorfälle | 3 Jahre | Incident-Dokumentation |
---
## 15. Vorfallmanagement
### 15.1 Datenpannen-Prozess
```
┌─────────────────────────────────────────────────────────────────────┐
│ INCIDENT RESPONSE │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ Erkennung ──► Bewertung ──► Meldung ──► Eindämmung ──► Behebung │
│ │ │ │ │ │ │
│ ▼ ▼ ▼ ▼ ▼ │
│ Monitoring Risiko- 72h an LfD Isolation Ursachen- │
│ Audit-Log einschätzung (Art.33) Forensik analyse │
│ │
└─────────────────────────────────────────────────────────────────────┘
```
### 15.2 Meldepflichten
| Ereignis | Frist | Empfänger |
|----------|-------|-----------|
| Datenpanne mit Risiko | 72 Stunden | Landesbeauftragte/r für Datenschutz |
| Hohes Risiko für Betroffene | Unverzüglich | Betroffene Personen |
### 15.3 KI-spezifische Vorfälle
| Vorfall | Reaktion |
|---------|----------|
| Systematisch falsche OCR-Ergebnisse | Modell-Rollback, Analyse |
| Bias-Erkennung | Untersuchung, ggf. Re-Training |
| Adversarial Attack | System-Isolierung, Forensik |
---
## 16. Kontakte
### 16.1 Interne Kontakte
| Rolle | Name | Kontakt |
|-------|------|---------|
| Schulleitung | [Name] | [E-Mail] |
| IT-Administrator | [Name] | [E-Mail] |
| Datenschutzbeauftragter | [Name] | [E-Mail] |
### 16.2 Externe Kontakte
| Institution | Kontakt |
|-------------|---------|
| LfD Niedersachsen | poststelle@lfd.niedersachsen.de |
| BSI | bsi@bsi.bund.de |
---
## Anhänge
### Anhang A: Systemarchitektur-Diagramm
Siehe Abschnitt 4.2
### Anhang B: TOM-Checkliste
| Kategorie | Maßnahme | Status |
|-----------|----------|--------|
| Zutrittskontrolle | Serverraum verschlossen | ✓ |
| Zugangskontrolle | Passwort-Policy | ✓ |
| Zugriffskontrolle | RBAC implementiert | ✓ |
| Weitergabekontrolle | Netzwerkisolation | ✓ |
| Eingabekontrolle | Audit-Logging | ✓ |
| Verfügbarkeit | Backup + USV | ✓ |
| Trennungskontrolle | Mandantentrennung | ✓ |
| Verschlüsselung | FileVault + TLS | ✓ |
### Anhang C: Muster-Informationsschreiben
[Zu erstellen für spezifische Schule]
### Anhang D: Einwilligungserklärung Training
[Zu erstellen für spezifische Schule]
### Anhang E: Vendor-Dokumentation
- llama3.2-vision: https://llama.meta.com/
- TrOCR: https://github.com/microsoft/unilm/tree/master/trocr
- Ollama: https://ollama.ai/
---
**Dokumentende**
*Diese Dokumentation wird jährlich oder bei wesentlichen Änderungen aktualisiert.*
*Letzte Aktualisierung: 21. Januar 2026*