fix(advisor): keep_alive 30m gegen Modell-Kaltstart ("Load failed")
Ollama entlädt das 35b-Modell nach 5 Min Leerlauf → jede Frage danach
startet es kalt (Modell-Load) und läuft in den Frontend-Timeout ("Load
failed"). keep_alive='30m' im Chat-Request hält es warm.
Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
This commit is contained in:
@@ -179,6 +179,9 @@ Der Nutzer hat "${countryLabel} (${validCountry})" gewaehlt.
|
||||
messages,
|
||||
stream: true,
|
||||
think: false,
|
||||
// Modell im VRAM halten → kein Kaltstart bei der naechsten Frage
|
||||
// (Kaltstart eines 35b-Modells war die Ursache fuer "Load failed").
|
||||
keep_alive: '30m',
|
||||
options: {
|
||||
temperature: 0.3,
|
||||
num_predict: 8192,
|
||||
|
||||
Reference in New Issue
Block a user