import type { SystemInfoConfig } from './types' export const llmCompareConfig: SystemInfoConfig = { title: 'LLM Vergleich System-Info', description: 'Vergleich und Benchmarking verschiedener KI-Provider und Modelle.', version: '1.0', architecture: { layers: [ { title: 'Vergleichs-UI', components: ['Provider-Auswahl', 'Prompt-Editor', 'Ergebnis-Vergleich'], color: '#3b82f6' }, { title: 'Provider Adapters', components: ['OpenAI', 'Anthropic', 'Google', 'Local'], color: '#8b5cf6' }, { title: 'Evaluation Engine', components: ['Latenz-Messung', 'Qualitaets-Scoring', 'Cost Calculator'], color: '#10b981' }, { title: 'Logging', components: ['Request Logs', 'Token Tracking', 'Error Logs'], color: '#f59e0b' }, ], }, features: [ { name: 'Multi-Provider Vergleich', status: 'active', description: 'Parallele Anfragen an mehrere LLMs' }, { name: 'Latenz-Tracking', status: 'active', description: 'Echtzeit-Performance-Messung' }, { name: 'Kosten-Kalkulation', status: 'active', description: 'Token-basierte Kostenberechnung' }, { name: 'Qualitaets-Bewertung', status: 'planned', description: 'Automatisches Scoring der Antworten' }, { name: 'A/B Testing', status: 'planned', description: 'Statistische Signifikanz-Tests' }, ], roadmap: [ { phase: 'Phase 1: Provider (Q1)', priority: 'high', items: ['Mistral Integration', 'Llama 3 Integration', 'Gemini Pro Integration', 'Rate Limiting'] }, { phase: 'Phase 2: Evaluation (Q2)', priority: 'high', items: ['Automatisches Scoring', 'Benchmark-Suite', 'Domain-spezifische Tests', 'Halluzinations-Erkennung'] }, { phase: 'Phase 3: Optimierung (Q3)', priority: 'medium', items: ['Prompt-Optimierung', 'Modell-Routing', 'Fallback-Strategien', 'Caching'] }, ], technicalDetails: [ { component: 'OpenAI', technology: 'GPT-4o / o1', description: 'Haupt-Provider' }, { component: 'Anthropic', technology: 'Claude 3.5', description: 'Alternative' }, { component: 'Google', technology: 'Gemini 2.0', description: 'Multimodal' }, { component: 'Local', technology: 'Ollama', description: 'Self-hosted' }, ], auditInfo: [ { category: 'Provider-Status', items: [ { label: 'OpenAI', value: 'Aktiv', status: 'ok' }, { label: 'Anthropic', value: 'Aktiv', status: 'ok' }, { label: 'Google Gemini', value: 'Aktiv', status: 'ok' }, { label: 'Ollama (Local)', value: 'Verfuegbar', status: 'ok' }, ], }, { category: 'Kosten & Limits', items: [ { label: 'Monatliches Budget', value: 'Konfigurierbar', status: 'ok' }, { label: 'Rate Limiting', value: 'Pro Provider', status: 'ok' }, { label: 'Token Tracking', value: 'Aktiviert', status: 'ok' }, { label: 'Cost Alerts', value: 'E-Mail', status: 'ok' }, ], }, { category: 'Datenschutz', items: [ { label: 'Prompt-Logging', value: 'Optional', status: 'ok' }, { label: 'PII Detection', value: 'Geplant', status: 'warning' }, { label: 'Data Residency', value: 'EU verfuegbar', status: 'ok' }, { label: 'Audit-Log', value: 'Aktiviert', status: 'ok' }, ], }, ], fullDocumentation: `

LLM Provider Vergleich & Benchmarking

1. Uebersicht

Das LLM-Vergleichsmodul ermoeglicht den direkten Vergleich verschiedener KI-Provider hinsichtlich Qualitaet, Latenz und Kosten. Es dient der Auswahl des optimalen Modells fuer spezifische Use Cases.

2. Unterstuetzte Provider

ProviderModelleStaerkenPreisbereich
OpenAIGPT-4o, GPT-4o-mini, o1Allrounder, Coding$0.15-15/1M Token
AnthropicClaude 3.5 Sonnet/HaikuLange Kontexte, Safety$0.25-15/1M Token
GoogleGemini 2.0 Flash/ProMultimodal, Speed$0.075-5/1M Token
OllamaLlama 3, Mistral, PhiLokal, DatenschutzNur Hardware-Kosten

3. Vergleichs-Architektur

┌────────────────────────────────────────────────────────────────┐
│                        Frontend UI                              │
│  ┌──────────────┐  ┌──────────────┐  ┌──────────────────────┐ │
│  │ Prompt Input │  │ Provider Sel │  │ Results Comparison   │ │
│  └──────────────┘  └──────────────┘  └──────────────────────┘ │
└────────────────────────────────────────────────────────────────┘
                              │
                              v
┌────────────────────────────────────────────────────────────────┐
│                    Backend Orchestrator                         │
│  ┌──────────────────────────────────────────────────────────┐ │
│  │  Parallel Request Handler  |  Response Aggregator        │ │
│  └──────────────────────────────────────────────────────────┘ │
└────────────────────────────────────────────────────────────────┘
          │              │              │              │
          v              v              v              v
     ┌─────────┐   ┌─────────┐   ┌─────────┐   ┌─────────┐
     │ OpenAI  │   │Anthropic│   │ Google  │   │ Ollama  │
     └─────────┘   └─────────┘   └─────────┘   └─────────┘

4. Metriken

MetrikBeschreibungMessung
TTFBTime to First ByteMillisekunden
Total LatencyGesamtantwortzeitMillisekunden
Tokens/SekundeGenerierungsgeschwindigkeitOutput Tokens/s
KostenGesamtkostenUSD
QualitaetManuelle/Auto Bewertung1-5 Sterne

5. API Endpoints

EndpointMethodeBeschreibung
/api/llm/comparePOSTParallelen Vergleich starten
/api/llm/providersGETVerfuegbare Provider listen
/api/llm/statsGETNutzungsstatistiken
/api/llm/benchmarkPOSTBenchmark-Suite ausfuehren

6. Benchmark-Suite

Vordefinierte Tests fuer verschiedene Use Cases:

7. Kostenmanagement

Budgetkontrolle
     │
     ├── Monatliches Limit pro Provider
     ├── Echtzeit-Kostentracking
     ├── Alerts bei 80%/90%/100%
     └── Auto-Fallback bei Limit

8. Datenschutz-Konfiguration

EinstellungOptionenDefault
Prompt-LoggingEin/Aus/AnonymisiertAnonymisiert
Response-SpeicherungEin/Aus/24h24h
Metriken-Retention30/90/365 Tage90 Tage
PII-FilterEin/AusEin (geplant)

9. Fehlerbehandlung

10. Best Practices

  1. Immer mindestens 3 Provider fuer aussagekraeftigen Vergleich
  2. Benchmark-Suite fuer reproduzierbare Ergebnisse nutzen
  3. Kosten und Qualitaet gemeinsam bewerten
  4. Lokale Modelle fuer sensible Daten bevorzugen
`, }