fix(advisor): keep_alive 30m gegen Modell-Kaltstart ("Load failed")

Ollama entlädt das 35b-Modell nach 5 Min Leerlauf → jede Frage danach
startet es kalt (Modell-Load) und läuft in den Frontend-Timeout ("Load
failed"). keep_alive='30m' im Chat-Request hält es warm.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
This commit is contained in:
Benjamin Admin
2026-06-12 13:20:13 +02:00
parent bb777fd474
commit 2f68646c2d
@@ -179,6 +179,9 @@ Der Nutzer hat "${countryLabel} (${validCountry})" gewaehlt.
messages,
stream: true,
think: false,
// Modell im VRAM halten → kein Kaltstart bei der naechsten Frage
// (Kaltstart eines 35b-Modells war die Ursache fuer "Load failed").
keep_alive: '30m',
options: {
temperature: 0.3,
num_predict: 8192,