feat: Orientierung + Zuschneiden als Schritte 1-2 in OCR-Pipeline

Zwei neue Wizard-Schritte vor Begradigung: - Step 1: Orientierungserkennung (0/90/180/270° via Tesseract OSD) - Step 2: Seitenrand-Erkennung und Zuschnitt (Scannerraender entfernen) Backend: - orientation_crop_api.py: POST /orientation, POST /crop, POST /crop/skip - page_crop.py: detect_and_crop_page() mit Format-Erkennung (A4/A5/Letter) - Session-Store: orientation_result, crop_result Felder - Pipeline nutzt zugeschnittenes Bild fuer Deskew/Dewarp Frontend: - StepOrientation.tsx: Upload + Auto-Orientierung + Vorher/Nachher - StepCrop.tsx: Auto-Crop + Format-Badge + Ueberspringen-Option - Pipeline-Stepper: 10 Schritte (war 8) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-08 23:55:23 +01:00
parent 9a5a35bff1
commit 2763631711
12 changed files with 1247 additions and 259 deletions
@@ -1,12 +1,12 @@
 # OCR Pipeline - Schrittweise Seitenrekonstruktion

-**Version:** 3.0.0
-**Status:** Produktiv (Schritte 1–8 implementiert)
+**Version:** 4.0.0
+**Status:** Produktiv (Schritte 1–10 implementiert)
 **URL:** https://macmini:3002/ai/ocr-pipeline

 ## Uebersicht

-Die OCR Pipeline zerlegt den OCR-Prozess in **8 einzelne Schritte**, um eingescannte Seiten
+Die OCR Pipeline zerlegt den OCR-Prozess in **10 einzelne Schritte**, um eingescannte Seiten
 aus mehrspaltig gedruckten Schulbuechern Wort fuer Wort zu rekonstruieren.
 Jeder Schritt kann individuell geprueft, korrigiert und mit Ground-Truth-Daten versehen werden.

@@ -16,14 +16,16 @@ Jeder Schritt kann individuell geprueft, korrigiert und mit Ground-Truth-Daten v

 | Schritt | Name | Beschreibung | Status |
 |---------|------|--------------|--------|
-| 1 | Begradigung (Deskew) | Scan begradigen (Hough Lines + Word Alignment) | Implementiert |
-| 2 | Entzerrung (Dewarp) | Buchwoelbung entzerren (Vertikalkanten-Analyse) | Implementiert |
-| 3 | Spaltenerkennung | Unsichtbare Spalten finden (Projektionsprofile + Wortvalidierung) | Implementiert |
-| 4 | Zeilenerkennung | Horizontale Zeilen + Kopf-/Fusszeilen-Klassifikation + Luecken-Heilung | Implementiert |
-| 5 | Worterkennung | Hybrid-Grid: Breite Spalten full-page, schmale cell-crop | Implementiert |
-| 6 | Korrektur | Zeichenverwirrung + regel-basierte Rechtschreibkorrektur (SSE-Stream) | Implementiert |
-| 7 | Rekonstruktion | Interaktive Zellenbearbeitung auf Bildhintergrund (Fabric.js) | Implementiert |
-| 8 | Validierung | Ground-Truth-Vergleich und Qualitaetspruefung | Implementiert |
+| 1 | Orientierung | 90/180/270° Drehungen von Scannern korrigieren | Implementiert |
+| 2 | Zuschneiden (Crop) | Scannerraender entfernen, Papierformat (A4) erkennen | Implementiert |
+| 3 | Begradigung (Deskew) | Scan begradigen (Hough Lines + Word Alignment) | Implementiert |
+| 4 | Entzerrung (Dewarp) | Buchwoelbung entzerren (Vertikalkanten-Analyse) | Implementiert |
+| 5 | Spaltenerkennung | Unsichtbare Spalten finden (Projektionsprofile + Wortvalidierung) | Implementiert |
+| 6 | Zeilenerkennung | Horizontale Zeilen + Kopf-/Fusszeilen-Klassifikation + Luecken-Heilung | Implementiert |
+| 7 | Worterkennung | Hybrid-Grid: Breite Spalten full-page, schmale cell-crop | Implementiert |
+| 8 | Korrektur | Zeichenverwirrung + regel-basierte Rechtschreibkorrektur (SSE-Stream) | Implementiert |
+| 9 | Rekonstruktion | Interaktive Zellenbearbeitung auf Bildhintergrund (Fabric.js) | Implementiert |
+| 10 | Validierung | Ground-Truth-Vergleich und Qualitaetspruefung | Implementiert |

 ---

@@ -206,6 +208,7 @@ Alle Endpoints unter `/api/v1/ocr-pipeline/`.
 |---------|------|--------------|
 | `POST` | `/sessions/{id}/dewarp` | Automatische Entzerrung |
 | `POST` | `/sessions/{id}/dewarp/manual` | Manueller Scherbungswinkel |
+| `POST` | `/sessions/{id}/adjust-combined` | Kombinierte Rotation + Shear Feinabstimmung |
 | `POST` | `/sessions/{id}/ground-truth/dewarp` | Ground Truth speichern |

 ### Schritt 3: Spalten
@@ -274,16 +277,48 @@ Die Dewarp-Erkennung misst die **vertikale Spaltenkippung** (dx/dy) statt Textze
 | Ensemble Min-Confidence | 0.35 | Mindest-Konfidenz fuer Korrektur |
 | Quality-Gate Skip | < 0.5° | Kleine Korrekturen ueberspringen Quality-Gate |

+### Feinabstimmung (Combined Adjust)
+
+Der Endpoint `POST /sessions/{id}/adjust-combined` erlaubt die kombinierte Feinabstimmung von
+Rotation und Shear in einem Schritt. Im Frontend stehen **7 Schieberegler** zur Verfuegung:
+
+**Rotation (3 Paesse):**
+
+| Slider | Bereich | Beschreibung |
+|--------|---------|--------------|
+| P1 Iterative | ±5° | Erster Deskew-Pass (Hough Lines) |
+| P2 Word-Alignment | ±3° | Zweiter Pass (Wort-Ausrichtung) |
+| P3 Textline | ±3° | Dritter Pass (Textzeilen-Regression) |
+
+Die Summe aller drei ergibt den finalen Rotationswinkel.
+
+**Shear (4 Methoden, Radio-Auswahl):**
+
+| Slider | Bereich | Beschreibung |
+|--------|---------|--------------|
+| A: Textline Drift | ±5° | Textzeilen-Drift |
+| B: Projection Profile | ±5° | 2-Pass Projektionsprofil |
+| C: Vertical Edges | ±5° | Vertikalkanten-Analyse |
+| D: Ensemble | ±5° | Gewichteter Ensemble-Wert |
+
+Nur der per Radio-Button ausgewaehlte Shear-Wert wird verwendet.
+
+```
+POST /sessions/{id}/adjust-combined
+Body: {"rotation_degrees": 1.23, "shear_degrees": -0.45}
+Response: {"method_used": "manual_combined", "shear_degrees": -0.45, "dewarped_image_url": "..."}
+```
+
 ---

 ## Schritt 3: Spaltenerkennung (Detail)

 ### Algorithmus: `detect_column_geometry()`

-Zweistufige Erkennung: vertikale Projektionsprofile finden Luecken, Wort-Bounding-Boxes validieren.
+Mehrstufige Erkennung: Seite segmentieren, vertikale Projektionsprofile finden Luecken, Wort-Bounding-Boxes validieren.

 ```
-Bild → Binarisierung → Vertikalprofil → Lueckenerkennung → Wort-Validierung → ColumnGeometry
+Bild → Binarisierung → Seiten-Segmentierung → Vertikalprofil → Lueckenerkennung → Wort-Validierung → ColumnGeometry
 ```

 **Wichtige Implementierungsdetails:**
@@ -293,6 +328,54 @@ Bild → Binarisierung → Vertikalprofil → Lueckenerkennung → Wort-Validier
 - **Phantom-Spalten-Filter (Step 9):** Spalten mit Breite < 3 % der Content-Breite UND < 3 Woerter werden als Artefakte entfernt; die angrenzenden Spalten schliessen die Luecke.
 - **Spaltenzuweisung:** Woerter werden anhand des groessten horizontalen Ueberlappungsbereichs einer Spalte zugeordnet.

+### Seiten-Segmentierung an Sub-Headern
+
+Farbige Zwischenueberschriften (z.B. „Unit 4: Bonnie Scotland" mit blauem Hintergrund)
+erzeugen nach Binarisierung Tinte ueber die gesamte Seitenbreite. Diese Baender fuellen
+Spaltenluecken im vertikalen Projektionsprofil auf und fuehren zu fragmentierten Spalten
+(z.B. 11 statt 5).
+
+**Loesung: Horizontale Gap-Segmentierung (Step 2b)**
+
+1. **Horizontales Projektionsprofil** berechnen: Zeilensummen ueber den Content-Bereich
+2. **Leere Zeilen** erkennen: Zeilen mit < 2% Tinten-Dichte (`H_GAP_THRESH = 0.02`)
+3. **Gaps sammeln**: Zusammenhaengende leere Zeilen zu Gaps buendeln (Mindestlaenge: `max(5, h/200)`)
+4. **Grosse Gaps identifizieren**: Gaps > 1.8× Median-Gap-Hoehe = Sub-Header-Trennungen
+5. **Segmente bilden**: Seite an grossen Gaps aufteilen
+6. **Groesstes Segment waehlen**: Das hoechste Segment wird fuer die vertikale Projektion verwendet
+
+```
+┌─────────────────────────────────┐
+│  Header / Titel                 │  ─── grosser Gap ───
+├─────────────────────────────────┤
+│  EN  │  DE  │ Example │ Page   │  ← Segment 1 (groesster)
+│  ... │  ... │ ...     │ ...    │
+├─────────────────────────────────┤
+│  Unit 4: Bonnie Scotland        │  ─── grosser Gap ───
+├─────────────────────────────────┤
+│  EN  │  DE  │ Example │ Page   │  ← Segment 2
+│  ... │  ... │ ...     │ ...    │
+└─────────────────────────────────┘
+```
+
+**Segment-gefilterte Wort-Validierung:**
+
+Die Wort-Validierung (Step 5) nutzt nur Tesseract-Woerter **innerhalb des gewaehlten Segments**.
+Woerter aus Sub-Header-Bereichen (die die volle Breite einnehmen) werden so ausgeschlossen
+und koennen die Spaltenluecken-Validierung nicht verfaelschen.
+
+### Word-Coverage Gap Detection (Fallback)
+
+Wenn die pixel-basierte Projektion keine ausreichenden Spaltenluecken findet
+(z.B. bei Seiten mit Illustrationen, die Spaltenluecken teilweise verdecken),
+greift ein Fallback auf Basis der Tesseract-Wort-Bounding-Boxes:
+
+1. X-Achse in 2px-Bins aufteilen
+2. Pro Bin zaehlen, wie viele Segment-Woerter ihn ueberdecken
+3. Zusammenhaengende Bins mit 0 Woertern = Gap-Kandidaten
+4. Nur Gaps im inneren 90%-Bereich beruecksichtigen (Raender ignorieren)
+5. Gaps mit Mindestbreite (`max(8px, content_w * 0.5%)`) werden als Spaltenluecken akzeptiert
+
 ### Sub-Spalten-Erkennung: `_detect_sub_columns()`

 Erkennt versteckte Sub-Spalten innerhalb breiter Spalten (z.B. Seitenzahl-Spalte links neben EN-Vokabeln).
@@ -658,7 +741,7 @@ CREATE TABLE ocr_pipeline_sessions (
 | Schraeg gedruckte Seiten | Deskew erkennt Text-Rotation, nicht Seiten-Rotation | Manueller Winkel |
 | Sehr kleine Schrift (< 8pt) | Tesseract PSM 7 braucht min. Zeichengroesse | Vorher zoomen |
 | Handgeschriebene Eintraege | Tesseract/RapidOCR sind fuer Druckschrift optimiert | TrOCR-Engine |
-| Mehr als 4 Spalten | Projektionsprofil kann verschmelzen | Manuelle Spalten |
+| Mehr als 5 Spalten | Projektionsprofil kann verschmelzen (Segmentierung hilft) | Manuelle Spalten |
 | Farbige Marker (rot/blau) | HSV-Erkennung erzeugt False Positives | Manuell im Rekonstruktions-Editor |
 | 15%-Schwelle nicht breit validiert | Nur an einem Arbeitsblatt-Typ getestet | Diverse Schulbuchseiten testen |

@@ -699,6 +782,8 @@ ssh macmini "/usr/local/bin/docker compose -f /Users/benjaminadmin/Projekte/brea

 | Datum | Version | Aenderung |
 |-------|---------|----------|
+| 2026-03-05 | 3.1.0 | Spalten: Seiten-Segmentierung an Sub-Headern, Word-Coverage Fallback, Segment-gefilterte Validierung |
+| 2026-03-05 | 3.0.1 | Dewarp: Feinabstimmung mit 7 Schiebereglern (3 Rotation + 4 Shear), Combined-Adjust-Endpoint |
 | 2026-03-05 | 3.0.0 | Doku-Update: Dokumenttyp-Erkennung, Hybrid-Grid, Sub-Column-Detection, Pipeline-Pfade |
 | 2026-03-04 | 2.2.0 | Dewarp: Vertikalkanten-Drift statt Textzeilen-Neigung, Schwellenwerte gesenkt |
 | 2026-03-04 | 2.1.0 | Sub-Column-Detection, expand_narrow_columns, Fabric.js Editor, PDF/DOCX-Export |