fix(llm-review): think=false und Logging in Streaming-Version fehlten

Die UI nutzt llm_review_entries_streaming, nicht llm_review_entries. Die Streaming-Version hatte kein think:false → qwen3:0.6b verbrachte 9 Sekunden im Denkprozess ohne Token-Budget für die eigentliche Antwort. - think: false in Streaming-Version ergänzt - num_predict: 4096 → 8192 (konsistent mit nicht-streaming) - Logging für batch-Fortschritt, Response-Länge, geparste Einträge Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-03 14:43:42 +01:00
parent 1ac47cd9b7
commit dc5d76ecf5
1 changed files with 9 additions and 1 deletions
--- a/klausur-service/backend/cv_vocab_pipeline.py
+++ b/klausur-service/backend/cv_vocab_pipeline.py
@@ -5657,6 +5657,9 @@ async def llm_review_entries_streaming(

        prompt = _build_llm_prompt(table_lines)

+        logger.info("LLM review streaming: batch %d — sending %d entries to %s",
+                    batch_start // batch_size, len(batch_entries), model)
+
        t0 = time.time()
        async with httpx.AsyncClient(timeout=300.0) as client:
            resp = await client.post(
@@ -5665,7 +5668,8 @@ async def llm_review_entries_streaming(
                    "model": model,
                    "messages": [{"role": "user", "content": prompt}],
                    "stream": False,
-                    "options": {"temperature": 0.1, "num_predict": 4096},
+                    "think": False,   # qwen3: disable chain-of-thought
+                    "options": {"temperature": 0.1, "num_predict": 8192},
                },
            )
            resp.raise_for_status()
@@ -5673,7 +5677,11 @@ async def llm_review_entries_streaming(
        batch_ms = int((time.time() - t0) * 1000)
        total_duration_ms += batch_ms

+        logger.info("LLM review streaming: response %dms, length=%d chars", batch_ms, len(content))
+        logger.debug("LLM review streaming raw (first 500): %.500s", content)
+
        corrected = _parse_llm_json_array(content)
+        logger.info("LLM review streaming: parsed %d entries, applying diff...", len(corrected))
        batch_changes, batch_corrected = _diff_batch(batch_entries, corrected)

        # Merge back