fix(advisor): keep_alive 30m gegen Modell-Kaltstart ("Load failed")

Ollama entlädt das 35b-Modell nach 5 Min Leerlauf → jede Frage danach startet es kalt (Modell-Load) und läuft in den Frontend-Timeout ("Load failed"). keep_alive='30m' im Chat-Request hält es warm. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-06-12 13:20:13 +02:00
parent bb777fd474
commit 2f68646c2d
1 changed files with 3 additions and 0 deletions
@@ -179,6 +179,9 @@ Der Nutzer hat "${countryLabel} (${validCountry})" gewaehlt.
        messages,
        stream: true,
        think: false,
+        // Modell im VRAM halten → kein Kaltstart bei der naechsten Frage
+        // (Kaltstart eines 35b-Modells war die Ursache fuer "Load failed").
+        keep_alive: '30m',
        options: {
          temperature: 0.3,
          num_predict: 8192,