breakpilot-lehrer

Author	SHA1	Message	Date
Benjamin Admin	d6f51e4418	fix: deduplicate overlapping OCR words and use per-word Y positions in overlay Some checks failed CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 30s Details CI / test-go-edu-search (push) Successful in 33s Details CI / test-python-klausur (push) Failing after 2m9s Details CI / test-python-agent-core (push) Successful in 19s Details CI / test-nodejs-website (push) Successful in 24s Details Backend: Add spatial overlap check (>=50% horizontal IoU) to Kombi merge so words at the same position are deduplicated even when OCR text differs. Frontend: Add yPct/hPct to WordPosition so each word renders at its actual vertical position instead of all words collapsing to the cell center Y. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-13 20:27:08 +01:00
Benjamin Admin	8a5f2aa188	fix: Cluster-Zuordnung per Breiten-Proportionalitaet statt Position Some checks failed CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 36s Details CI / test-go-edu-search (push) Successful in 36s Details CI / test-python-klausur (push) Failing after 2m20s Details CI / test-python-agent-core (push) Successful in 21s Details CI / test-nodejs-website (push) Successful in 29s Details Zwei wesentliche Verbesserungen: 1. Multi-group: Gruppen werden per Best-Fit-Breite den Clustern zugeordnet statt naiv links-nach-rechts. Damit wird z.B. "Kokosnuss" dem DE-Spalten-Cluster zugeordnet statt dem breiteren Box-Cluster. 2. Single-group Fallback: verwendet den BREITESTEN Cluster statt first-to-last Span. Verhindert dass Streupixel von benachbarten Seitenbereichen den Text nach links ziehen. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 15:39:54 +01:00
Benjamin Admin	d182d87f26	fix: OCR-Artefakte (\|, >) vor Cluster-Matching zusammenfuehren Some checks failed CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 34s Details CI / test-go-edu-search (push) Successful in 31s Details CI / test-python-klausur (push) Failing after 2m23s Details CI / test-python-agent-core (push) Successful in 22s Details CI / test-nodejs-website (push) Successful in 22s Details Box-Rahmen werden vom OCR als einzelne Symbole wie "\|" oder ">" erkannt und als eigene Text-Gruppen behandelt. Das verfaelscht die Cluster-Zuordnung weil diese Artefakte entweder keinen eigenen Cluster erzeugen oder den falschen Cluster zugewiesen bekommen. Fix: Gruppen mit max 2 Zeichen ohne Buchstaben/Ziffern werden mit der benachbarten Gruppe zusammengefuehrt bevor die Cluster-Zuordnung laeuft. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 15:03:37 +01:00
Benjamin Admin	87efc1b4ba	fix: bei Cluster-Ueberschuss die breitesten N Cluster waehlen Some checks failed CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 30s Details CI / test-go-edu-search (push) Successful in 30s Details CI / test-python-klausur (push) Failing after 2m5s Details CI / test-python-agent-core (push) Successful in 22s Details CI / test-nodejs-website (push) Successful in 20s Details Wenn mehr Pixel-Cluster als Text-Gruppen existieren (z.B. wegen Box-Rahmenlinien), werden jetzt die N breitesten Cluster ausgewaehlt statt naiv clusters[i]→groups[i] zuzuordnen. Text-Cluster sind breiter als Rahmenlinien-Cluster. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 14:34:58 +01:00
Benjamin Admin	dd7087cd6d	fix: Pixel-Analyse nicht mehr ueberspringen wenn Cluster < Gruppen Some checks failed CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 31s Details CI / test-go-edu-search (push) Successful in 31s Details CI / test-python-klausur (push) Failing after 2m1s Details CI / test-python-agent-core (push) Successful in 18s Details CI / test-nodejs-website (push) Successful in 20s Details Vorher: wenn Text mehr Wort-Gruppen hatte als Pixel-Cluster gefunden wurden (z.B. bei Box-Rahmen die Cluster zusammenmergen), wurde die Zelle komplett uebersprungen → Fallback bei x=0%. Jetzt: Fallback auf Single-Span Positionierung (first→last Cluster) statt Skip. Damit wird der Text immer korrekt horizontal platziert. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 10:14:58 +01:00
Benjamin Admin	b5d5371f72	fix: einheitliche Schriftgroesse + Border-Cluster-Filter im Overlay Some checks failed CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 35s Details CI / test-go-edu-search (push) Successful in 31s Details CI / test-python-klausur (push) Failing after 2m24s Details CI / test-python-agent-core (push) Successful in 25s Details CI / test-nodejs-website (push) Successful in 25s Details 1. Schriftgroesse basiert jetzt auf Median-Zeilenhoehe statt individueller Zellhoehe — keine Groessensprunge in Box-Bereichen 2. Sehr schmale Pixel-Cluster (< 0.5% Zellbreite) werden gefiltert, damit Box-Rahmen nicht als Textposition erkannt werden Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 09:34:41 +01:00
Benjamin Admin	2cbdfc56f3	feat: OCR Overlay — ganzseitige Rekonstruktion ohne Spaltenerkennung Some checks failed CI / go-lint (push) Has been skipped Details CI / python-lint (push) Has been skipped Details CI / nodejs-lint (push) Has been skipped Details CI / test-go-school (push) Successful in 31s Details CI / test-go-edu-search (push) Successful in 33s Details CI / test-python-klausur (push) Failing after 2m6s Details CI / test-python-agent-core (push) Successful in 20s Details CI / test-nodejs-website (push) Successful in 28s Details Neue Route /ai/ocr-overlay mit vereinfachter 7-Schritt-Pipeline (Orientierung, Begradigung, Entzerrung, Zuschnitt, Zeilen, Woerter, Overlay). Nutzt bestehende Step-Komponenten, ueberspringt Spalten/LLM-Review/Ground-Truth. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 00:08:05 +01:00

7 Commits