feat(klausur): Handschrift entfernen + Klausur-HTR implementiert

Feature 1: Handschrift entfernen via OCR-Pipeline Session - services/handwriting_detection.py: _detect_pencil() + target_ink Parameter ("all" | "colored" | "pencil") für gezielte Tinten-Erkennung - ocr_pipeline_session_store.py: clean_png + handwriting_removal_meta Spalten (idempotentes ALTER TABLE in init_ocr_pipeline_tables) - ocr_pipeline_api.py: POST /sessions/{id}/remove-handwriting Endpoint + "clean" zu valid_types für Image-Serving hinzugefügt Feature 2: Klausur-HTR (Hochwertige Handschriftenerkennung) - handwriting_htr_api.py: Neuer Router /api/v1/htr/recognize + /recognize-session Primary: qwen2.5vl:32b via Ollama, Fallback: trocr-large-handwritten - services/trocr_service.py: size Parameter (base | large) für get_trocr_model() + run_trocr_ocr() - unterstützt jetzt trocr-large-handwritten - main.py: HTR Router registriert Config: - docker-compose.yml: OLLAMA_HTR_MODEL, HTR_FALLBACK_MODEL - .env.example: HTR Env-Vars dokumentiert Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-03 12:04:26 +01:00
parent 606bef0591
commit 2e0f8632f8
8 changed files with 529 additions and 56 deletions
@@ -30,6 +30,23 @@ OLLAMA_VISION_MODEL=llama3.2-vision
 OLLAMA_CORRECTION_MODEL=llama3.2
 OLLAMA_TIMEOUT=120

+# OCR-Pipeline: LLM-Review (Schritt 6)
+# Kleine Modelle reichen fuer Zeichen-Korrekturen (0->O, 1->l, 5->S)
+# Optionen: qwen3:0.6b, qwen3:1.7b, gemma3:1b, qwen3:30b-a3b
+OLLAMA_REVIEW_MODEL=qwen3:0.6b
+# Eintraege pro Ollama-Call. Groesser = weniger HTTP-Overhead.
+OLLAMA_REVIEW_BATCH_SIZE=20
+
+# OCR-Pipeline: Engine fuer Schritt 5 (Worterkennung)
+# Optionen: auto (bevorzugt RapidOCR), rapid, tesseract,
+#           trocr-printed, trocr-handwritten, lighton
+OCR_ENGINE=auto
+
+# Klausur-HTR: Primaerem Modell fuer Handschriftenerkennung (qwen2.5vl bereits auf Mac Mini)
+OLLAMA_HTR_MODEL=qwen2.5vl:32b
+# HTR Fallback: genutzt wenn Ollama nicht erreichbar (auto-download ~340 MB)
+HTR_FALLBACK_MODEL=trocr-large
+
 # Anthropic (optional)
 ANTHROPIC_API_KEY=