fix(advisor): keep_alive 30m gegen Modell-Kaltstart ("Load failed")
Ollama entlädt das 35b-Modell nach 5 Min Leerlauf → jede Frage danach
startet es kalt (Modell-Load) und läuft in den Frontend-Timeout ("Load
failed"). keep_alive='30m' im Chat-Request hält es warm.
Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
This commit is contained in:
@@ -179,6 +179,9 @@ Der Nutzer hat "${countryLabel} (${validCountry})" gewaehlt.
|
|||||||
messages,
|
messages,
|
||||||
stream: true,
|
stream: true,
|
||||||
think: false,
|
think: false,
|
||||||
|
// Modell im VRAM halten → kein Kaltstart bei der naechsten Frage
|
||||||
|
// (Kaltstart eines 35b-Modells war die Ursache fuer "Load failed").
|
||||||
|
keep_alive: '30m',
|
||||||
options: {
|
options: {
|
||||||
temperature: 0.3,
|
temperature: 0.3,
|
||||||
num_predict: 8192,
|
num_predict: 8192,
|
||||||
|
|||||||
Reference in New Issue
Block a user