breakpilot-lehrer

Author	SHA1	Message	Date
Benjamin Admin	b681ddb131	[split-required] Split 58 monoliths across Python, Go, TypeScript (Phases 1-3) Phase 1 — Python (klausur-service): 5 monoliths → 36 files - dsfa_corpus_ingestion.py (1,828 LOC → 5 files) - cv_ocr_engines.py (2,102 LOC → 7 files) - cv_layout.py (3,653 LOC → 10 files) - vocab_worksheet_api.py (2,783 LOC → 8 files) - grid_build_core.py (1,958 LOC → 6 files) Phase 2 — Go (edu-search-service, school-service): 8 monoliths → 19 files - staff_crawler.go (1,402 → 4), policy/store.go (1,168 → 3) - policy_handlers.go (700 → 2), repository.go (684 → 2) - search.go (592 → 2), ai_extraction_handlers.go (554 → 2) - seed_data.go (591 → 2), grade_service.go (646 → 2) Phase 3 — TypeScript (admin-lehrer): 45 monoliths → 220+ files - sdk/types.ts (2,108 → 16 domain files) - ai/rag/page.tsx (2,686 → 14 files) - 22 page.tsx files split into _components/ + _hooks/ - 11 component files split into sub-components - 10 SDK data catalogs added to loc-exceptions - Deleted dead backup index_original.ts (4,899 LOC) All original public APIs preserved via re-export facades. Zero new errors: Python imports verified, Go builds clean, TypeScript tsc --noEmit shows only pre-existing errors. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-24 17:28:57 +02:00
Benjamin Admin	4a15d46dfd	refactor: rename PaddleOCR → PP-OCRv5 in frontend, remove Kombi-Vergleich tab CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 27s Details CI / test-go-edu-search (push) Successful in 26s Details CI / test-python-klausur (push) Failing after 1m53s Details CI / test-python-agent-core (push) Successful in 16s Details CI / test-nodejs-website (push) Successful in 16s Details Since ocr_region_paddle() now runs RapidOCR locally (same PP-OCRv5 models), the "PaddleOCR (Hetzner)" labels were misleading. Renamed to "PP-OCRv5 (lokal)". Removed the Kombi-Vergleich tab since both sides would produce identical results. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-14 09:11:26 +01:00
Benjamin Admin	a994ddee83	feat: add Kombi-Vergleich mode for side-by-side Paddle vs RapidOCR comparison CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 33s Details CI / test-go-edu-search (push) Successful in 26s Details CI / test-python-klausur (push) Failing after 1m55s Details CI / test-python-agent-core (push) Successful in 17s Details CI / test-nodejs-website (push) Successful in 21s Details Add /rapid-kombi backend endpoint using local RapidOCR + Tesseract merge, KombiCompareStep component for parallel execution and side-by-side overlay, and wordResultOverride prop on OverlayReconstruction for direct data injection. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-14 07:59:06 +01:00
Benjamin Admin	d6f51e4418	fix: deduplicate overlapping OCR words and use per-word Y positions in overlay CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 30s Details CI / test-go-edu-search (push) Successful in 33s Details CI / test-python-klausur (push) Failing after 2m9s Details CI / test-python-agent-core (push) Successful in 19s Details CI / test-nodejs-website (push) Successful in 24s Details Backend: Add spatial overlap check (>=50% horizontal IoU) to Kombi merge so words at the same position are deduplicated even when OCR text differs. Frontend: Add yPct/hPct to WordPosition so each word renders at its actual vertical position instead of all words collapsing to the cell center Y. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-13 20:27:08 +01:00
Benjamin Admin	e9ccd1e35c	feat: add Kombi-Modus (PaddleOCR + Tesseract) for OCR Overlay CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 35s Details CI / test-go-edu-search (push) Successful in 33s Details CI / test-python-klausur (push) Failing after 2m20s Details CI / test-python-agent-core (push) Successful in 22s Details CI / test-nodejs-website (push) Successful in 41s Details Runs both OCR engines on the preprocessed image and merges results: word boxes matched by IoU, coordinates averaged by confidence weight. Unmatched Tesseract words (bullets, symbols) are added for better coverage. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-12 20:05:50 +01:00
Benjamin Admin	d335a7bbf3	fix: use OCR word_box coordinates directly instead of fuzzy matching CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 30s Details CI / test-go-edu-search (push) Successful in 30s Details CI / test-python-klausur (push) Failing after 2m6s Details CI / test-python-agent-core (push) Successful in 19s Details CI / test-nodejs-website (push) Successful in 25s Details The slide positioning hook was re-matching cell.text tokens against word_boxes via fuzzy text similarity, which broke positioning for special characters (!, bullet points, IPA). Now uses word_box coordinates directly — exact OCR positions without re-interpretation. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-12 18:54:37 +01:00
Benjamin Admin	90c1efd9b0	feat: Paddle Direct — 1-click OCR without deskew/dewarp/crop CI / go-lint (push) Has been cancelled Details CI / python-lint (push) Has been cancelled Details CI / nodejs-lint (push) Has been cancelled Details CI / test-go-school (push) Has been cancelled Details CI / test-go-edu-search (push) Has been cancelled Details CI / test-python-klausur (push) Has been cancelled Details CI / test-python-agent-core (push) Has been cancelled Details CI / test-nodejs-website (push) Has been cancelled Details New 2-step mode (Upload → PaddleOCR+Overlay) alongside the existing 7-step pipeline. Backend endpoint runs PaddleOCR on the original image and clusters words into rows/cells directly. Frontend adds a mode toggle and PaddleDirectStep component. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-12 16:41:55 +01:00
Benjamin Admin	06d63d18f9	fix: generic fuzzy text matching for overlay word-box positioning CI / test-go-edu-search (push) Has been cancelled Details CI / go-lint (push) Has been cancelled Details CI / python-lint (push) Has been cancelled Details CI / nodejs-lint (push) Has been cancelled Details CI / test-go-school (push) Has been cancelled Details CI / test-python-klausur (push) Has been cancelled Details CI / test-python-agent-core (push) Has been cancelled Details CI / test-nodejs-website (push) Has been cancelled Details Replace sequential 1:1 token-to-box mapping with fuzzy text matching. Each token from cell.text finds its best matching word_box by text similarity (normalized prefix match + substring bonus). Handles: - Reordered boxes (different sort between text and boxes) - IPA corrections changing token boundaries - Token/box count mismatches Unmatched tokens get interpolated positions from matched neighbors. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-12 16:19:19 +01:00
Benjamin Admin	35f2706098	fix: Slide-Modus nutzt cell.text Tokens statt word_boxes Text (keine Woerter verloren) CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 27s Details CI / test-go-edu-search (push) Successful in 29s Details CI / test-python-klausur (push) Failing after 2m8s Details CI / test-python-agent-core (push) Successful in 20s Details CI / test-nodejs-website (push) Successful in 22s Details TEXT kommt aus cell.text (bereinigt, IPA-korrigiert). POSITIONEN kommen aus word_boxes (exakte OCR-Koordinaten). Tokens werden 1:1 in Leserichtung zugeordnet. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 20:01:57 +01:00
Benjamin Admin	0ee92e7210	feat: OCR word_boxes fuer pixelgenaue Overlay-Positionierung CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 37s Details CI / test-go-edu-search (push) Successful in 32s Details CI / test-python-klausur (push) Failing after 2m10s Details CI / test-python-agent-core (push) Successful in 19s Details CI / test-nodejs-website (push) Successful in 20s Details Backend: _ocr_cell_crop speichert jetzt word_boxes mit exakten Tesseract/RapidOCR Wort-Koordinaten (left, top, width, height) im Cell-Ergebnis. Absolute Bildkoordinaten, bereits zurueckgemappt. Frontend: Slide-Hook nutzt word_boxes direkt wenn vorhanden — jedes Wort wird exakt an seiner OCR-Position platziert. Kein Pixel-Scanning noetig. Fallback auf alten Slide wenn keine Boxes. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 19:39:49 +01:00
Benjamin Admin	4949863bd7	revert: Zurueck zum Einzelwort-Slide mit fontRatio=1.0 Fix CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 31s Details CI / test-go-edu-search (push) Successful in 30s Details CI / test-python-klausur (push) Failing after 2m5s Details CI / test-python-agent-core (push) Successful in 18s Details CI / test-nodejs-website (push) Successful in 19s Details Gruppen-Sliding schob nicht weit genug nach rechts. Zurueck zum Original-Einzelwort-Slide, aber mit den Fixes: - fontRatio=1.0 (konsistente Schriftgroesse wie Fallback) - Token-Breiten aus medianCh * 0.7 / refFontSize (statt totalInk) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 19:15:52 +01:00
Benjamin Admin	efbe15f895	fix: Slide-Modus auf Gruppen-basiertes Sliding umgestellt CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 30s Details CI / test-go-edu-search (push) Successful in 28s Details CI / test-python-klausur (push) Failing after 2m0s Details CI / test-python-agent-core (push) Successful in 18s Details CI / test-nodejs-website (push) Successful in 23s Details Vorher: split(/\s+/) zerlegte alles in Einzelwoerter, verlor die Spaltenstruktur (3+ Spaces zwischen Gruppen). Woerter stauten sich links. Jetzt: split(/\s{3,}/) erhält Gruppen wie im Cluster-Modus. Jede Gruppe wird als Einheit von links nach rechts geschoben bis Tinte gefunden. Breite = max(gemessene Textbreite, tatsaechliche Tintenbreite). fontRatio=1.0, kein Wort geht verloren. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 18:31:17 +01:00
Benjamin Admin	c3da131129	fix: Slide fontRatio=1.0 und Token-Breite aus gerenderter Fontgroesse CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 31s Details CI / test-go-edu-search (push) Successful in 30s Details CI / test-python-klausur (push) Failing after 2m3s Details CI / test-python-agent-core (push) Successful in 17s Details CI / test-nodejs-website (push) Successful in 18s Details fontRatio war 0.65 (35% kleiner als Fallback-Rendering). Jetzt 1.0 wie beim Fallback. Token-Breiten berechnet aus measureText skaliert auf die tatsaechlich gerenderte Schriftgroesse (medianCh * 0.7). Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 17:59:31 +01:00
Benjamin Admin	b81baa1d16	fix: Slide-Modus globale Schriftgroesse statt per-Token Scale CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 31s Details CI / test-go-edu-search (push) Successful in 30s Details CI / test-python-klausur (push) Failing after 2m3s Details CI / test-python-agent-core (push) Successful in 20s Details CI / test-nodejs-website (push) Successful in 25s Details Schriftgroesse wird jetzt GLOBAL aus der medianen Zellhoehe berechnet (65% der Zellhoehe als Ziel-Font). Alle Tokens bekommen dieselbe konsistente Groesse. Die Slide-Logik bestimmt nur noch die x-Position. Vorher: Scale pro Zelle aus Ink-Span/Textbreite -> inkonsistente Groessen. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 16:51:55 +01:00
Benjamin Admin	2010cab894	fix: Slide-Modus Scale-Berechnung auf Ink-Span statt Ink-Count CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 36s Details CI / test-go-edu-search (push) Successful in 31s Details CI / test-python-klausur (push) Failing after 2m11s Details CI / test-python-agent-core (push) Successful in 24s Details CI / test-nodejs-website (push) Successful in 31s Details totalInk zaehlte nur dunkle Pixel-Spalten (Striche), ignorierte Luecken zwischen Buchstaben. Scale war dadurch viel zu klein, Schrift unlesbar. Jetzt wird der Ink-Span (erstes bis letztes dunkles Pixel) als Referenz fuer die Textbreite verwendet. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 16:41:38 +01:00
Benjamin Admin	bc13978bc1	feat: Slide-Modus als alternative Wort-Positionierung im Overlay CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 34s Details CI / test-go-edu-search (push) Successful in 33s Details CI / test-python-klausur (push) Failing after 2m9s Details CI / test-python-agent-core (push) Successful in 23s Details CI / test-nodejs-website (push) Successful in 24s Details Neuer Hook useSlideWordPositions: Schiebt alle erkannten Woerter von links nach rechts ueber die Pixel-Projektion bis jedes Wort auf seiner Tinte einrastet. Kein Wort geht verloren, keine Cluster-Matching-Regeln noetig. Toggle-Button (Slide/Cluster) in der Overlay-Toolbar zum Umschalten. Bestehender Cluster-Algorithmus bleibt als Alternative erhalten. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 16:13:31 +01:00
Benjamin Admin	8a5f2aa188	fix: Cluster-Zuordnung per Breiten-Proportionalitaet statt Position CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 36s Details CI / test-go-edu-search (push) Successful in 36s Details CI / test-python-klausur (push) Failing after 2m20s Details CI / test-python-agent-core (push) Successful in 21s Details CI / test-nodejs-website (push) Successful in 29s Details Zwei wesentliche Verbesserungen: 1. Multi-group: Gruppen werden per Best-Fit-Breite den Clustern zugeordnet statt naiv links-nach-rechts. Damit wird z.B. "Kokosnuss" dem DE-Spalten-Cluster zugeordnet statt dem breiteren Box-Cluster. 2. Single-group Fallback: verwendet den BREITESTEN Cluster statt first-to-last Span. Verhindert dass Streupixel von benachbarten Seitenbereichen den Text nach links ziehen. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 15:39:54 +01:00
Benjamin Admin	d182d87f26	fix: OCR-Artefakte (\|, >) vor Cluster-Matching zusammenfuehren CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 34s Details CI / test-go-edu-search (push) Successful in 31s Details CI / test-python-klausur (push) Failing after 2m23s Details CI / test-python-agent-core (push) Successful in 22s Details CI / test-nodejs-website (push) Successful in 22s Details Box-Rahmen werden vom OCR als einzelne Symbole wie "\|" oder ">" erkannt und als eigene Text-Gruppen behandelt. Das verfaelscht die Cluster-Zuordnung weil diese Artefakte entweder keinen eigenen Cluster erzeugen oder den falschen Cluster zugewiesen bekommen. Fix: Gruppen mit max 2 Zeichen ohne Buchstaben/Ziffern werden mit der benachbarten Gruppe zusammengefuehrt bevor die Cluster-Zuordnung laeuft. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 15:03:37 +01:00
Benjamin Admin	87efc1b4ba	fix: bei Cluster-Ueberschuss die breitesten N Cluster waehlen CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 30s Details CI / test-go-edu-search (push) Successful in 30s Details CI / test-python-klausur (push) Failing after 2m5s Details CI / test-python-agent-core (push) Successful in 22s Details CI / test-nodejs-website (push) Successful in 20s Details Wenn mehr Pixel-Cluster als Text-Gruppen existieren (z.B. wegen Box-Rahmenlinien), werden jetzt die N breitesten Cluster ausgewaehlt statt naiv clusters[i]→groups[i] zuzuordnen. Text-Cluster sind breiter als Rahmenlinien-Cluster. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 14:34:58 +01:00
Benjamin Admin	dd7087cd6d	fix: Pixel-Analyse nicht mehr ueberspringen wenn Cluster < Gruppen CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 31s Details CI / test-go-edu-search (push) Successful in 31s Details CI / test-python-klausur (push) Failing after 2m1s Details CI / test-python-agent-core (push) Successful in 18s Details CI / test-nodejs-website (push) Successful in 20s Details Vorher: wenn Text mehr Wort-Gruppen hatte als Pixel-Cluster gefunden wurden (z.B. bei Box-Rahmen die Cluster zusammenmergen), wurde die Zelle komplett uebersprungen → Fallback bei x=0%. Jetzt: Fallback auf Single-Span Positionierung (first→last Cluster) statt Skip. Damit wird der Text immer korrekt horizontal platziert. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 10:14:58 +01:00
Benjamin Admin	7282a220d6	fix: useMemo vor Early Returns verschieben (Rules of Hooks) CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 31s Details CI / test-go-edu-search (push) Successful in 31s Details CI / test-python-klausur (push) Failing after 2m0s Details CI / test-python-agent-core (push) Successful in 20s Details CI / test-nodejs-website (push) Successful in 28s Details Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 09:46:25 +01:00
Benjamin Admin	b5d5371f72	fix: einheitliche Schriftgroesse + Border-Cluster-Filter im Overlay CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 35s Details CI / test-go-edu-search (push) Successful in 31s Details CI / test-python-klausur (push) Failing after 2m24s Details CI / test-python-agent-core (push) Successful in 25s Details CI / test-nodejs-website (push) Successful in 25s Details 1. Schriftgroesse basiert jetzt auf Median-Zeilenhoehe statt individueller Zellhoehe — keine Groessensprunge in Box-Bereichen 2. Sehr schmale Pixel-Cluster (< 0.5% Zellbreite) werden gefiltert, damit Box-Rahmen nicht als Textposition erkannt werden Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 09:34:41 +01:00
Benjamin Admin	2df2a01a8b	feat: Echtes Overlay — Text direkt ueber dem Originalbild CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 33s Details CI / test-go-edu-search (push) Successful in 36s Details CI / test-python-klausur (push) Failing after 2m11s Details CI / test-python-agent-core (push) Successful in 25s Details CI / test-nodejs-website (push) Successful in 26s Details Statt Side-by-Side wird der erkannte Text jetzt direkt ueber das Originalbild gelegt. Textfarbe (rot/blau/schwarz) und Deckkraft per Slider einstellbar fuer einfache visuelle Fehlersuche. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 00:25:11 +01:00
Benjamin Admin	2cbdfc56f3	feat: OCR Overlay — ganzseitige Rekonstruktion ohne Spaltenerkennung CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 31s Details CI / test-go-edu-search (push) Successful in 33s Details CI / test-python-klausur (push) Failing after 2m6s Details CI / test-python-agent-core (push) Successful in 20s Details CI / test-nodejs-website (push) Successful in 28s Details Neue Route /ai/ocr-overlay mit vereinfachter 7-Schritt-Pipeline (Orientierung, Begradigung, Entzerrung, Zuschnitt, Zeilen, Woerter, Overlay). Nutzt bestehende Step-Komponenten, ueberspringt Spalten/LLM-Review/Ground-Truth. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 00:08:05 +01:00

24 Commits