fix(cra): 35B-Datenblatt-Extraktion — Thinking-Mode aus (think=false)

qwen3.5:35b-a3b ist ein Thinking-Modell → generierte erst Reasoning, riss das 90s-Timeout → leere Extraktion. llm_cascade additiv um think-Param erweitert (Cache-Key kennt think); Datenblatt-Extraktor setzt think=False → sauberes JSON in ~1s. Default fuer alle anderen Cascade-Nutzer unveraendert. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-06-16 20:22:57 +02:00
parent b217429d39
commit fae826e1f7
2 changed files with 11 additions and 5 deletions
@@ -165,7 +165,7 @@ async def extract_grenzen(text: str, max_chars: int = 20000) -> dict:
            res = await call_with_cascade(
                system=_system_prompt(),
                user=f"Datenblatt-Text:\n\n{excerpt}",
-                min_confidence=0.5, max_tokens=4000, model=_DATASHEET_MODEL,
+                min_confidence=0.5, max_tokens=4000, model=_DATASHEET_MODEL, think=False,
            )
            parsed = parse_grenzen_json(res.get("text", "") if isinstance(res, dict) else "")
            for key, entry in parsed.items():