import type { SystemInfoConfig } from './types' export const gpuConfig: SystemInfoConfig = { title: 'GPU Infrastruktur System-Info', description: 'vast.ai GPU-Management fuer KI-Workloads und Training.', version: '1.5', privacyNotes: [ 'GPU-Workloads werden isoliert in Docker-Containern ausgefuehrt', 'Keine persistente Speicherung von Trainingsdaten auf GPU-Instanzen', 'SSH-Keys werden regelmaessig rotiert', 'Audit-Log fuer alle GPU-Operationen', ], architecture: { layers: [ { title: 'Admin UI', components: ['GPU Dashboard', 'Instance Manager', 'Cost Calculator'], color: '#3b82f6' }, { title: 'vast.ai API', components: ['Instance API', 'Billing API', 'SSH Management'], color: '#8b5cf6' }, { title: 'GPU Instances', components: ['RTX 4090', 'A100', 'H100'], color: '#10b981' }, { title: 'Workloads', components: ['Model Training', 'Inference', 'Fine-Tuning'], color: '#f59e0b' }, ], }, features: [ { name: 'Instance Management', status: 'active', description: 'Start/Stop/Destroy von GPU-Instanzen' }, { name: 'SSH Key Management', status: 'active', description: 'Automatische SSH-Key Rotation' }, { name: 'Cost Tracking', status: 'active', description: 'Echtzeit-Kostenüberwachung' }, { name: 'Auto-Scaling', status: 'planned', description: 'Automatische Skalierung bei Last' }, { name: 'Spot Instance Management', status: 'planned', description: 'Kostenoptimierung durch Spot-Instances' }, ], roadmap: [ { phase: 'Phase 1: Automation (Q1)', priority: 'high', items: ['Auto-Start bei Bedarf', 'Auto-Stop bei Inaktivitaet', 'Scheduled Instances', 'Budget Alerts'] }, { phase: 'Phase 2: Multi-Cloud (Q2)', priority: 'medium', items: ['Lambda Labs Integration', 'RunPod Integration', 'Cloud-uebergreifende Orchestrierung', 'Preisvergleich'] }, { phase: 'Phase 3: ML Ops (Q3)', priority: 'medium', items: ['Model Registry', 'Experiment Tracking', 'A/B Testing', 'Model Versioning'] }, ], technicalDetails: [ { component: 'API', technology: 'vast.ai REST API', version: 'v1', description: 'GPU-Marktplatz' }, { component: 'SSH', technology: 'OpenSSH', version: '9.x', description: 'Sichere Verbindung' }, { component: 'Container', technology: 'Docker', version: '24.x', description: 'Workload-Isolation' }, { component: 'ML Framework', technology: 'PyTorch', version: '2.x', description: 'Model Training' }, ], auditInfo: [ { category: 'Sicherheit & Zugriffskontrolle', items: [ { label: 'Authentifizierung', value: 'API-Key + SSH-Key', status: 'ok' }, { label: 'Verschluesselung', value: 'TLS 1.3', status: 'ok' }, { label: 'Key Rotation', value: 'Alle 30 Tage', status: 'ok' }, { label: 'Audit-Log', value: 'Aktiviert', status: 'ok' }, ], }, { category: 'Kosten & Ressourcen', items: [ { label: 'Budget-Limit', value: 'Konfigurierbar', status: 'ok' }, { label: 'Auto-Shutdown', value: '30 Min Inaktivitaet', status: 'ok' }, { label: 'Spot-Instances', value: 'Geplant', status: 'warning' }, { label: 'Multi-Cloud', value: 'Geplant', status: 'warning' }, ], }, { category: 'Compliance', items: [ { label: 'Daten-Residenz', value: 'EU/US waehlbar', status: 'ok' }, { label: 'DSGVO-Konformitaet', value: 'Ja', status: 'ok' }, { label: 'SOC 2 Type II', value: 'vast.ai zertifiziert', status: 'ok' }, ], }, ], fullDocumentation: `
Das GPU-Infrastruktur-Modul ermoeglicht die Verwaltung von Cloud-GPU-Ressourcen ueber vast.ai fuer KI-Workloads wie Model Training, Fine-Tuning und Inference.
┌─────────────────────────────────────────────────────────────┐
│ Admin Dashboard │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────────────┐ │
│ │ Start/Stop │ │ Status │ │ Cost Tracking │ │
│ └──────┬──────┘ └──────┬──────┘ └──────────┬──────────┘ │
└─────────┼───────────────┼─────────────────────┼─────────────┘
│ │ │
v v v
┌─────────────────────────────────────────────────────────────┐
│ Backend API │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ /infra/vast/* - vast.ai Proxy mit Auth │ │
│ └─────────────────────────────────────────────────────┘ │
└──────────────────────────┬──────────────────────────────────┘
│
v
┌─────────────────────────────────────────────────────────────┐
│ vast.ai Cloud │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ RTX 4090 │ │ A100 │ │ H100 │ │ RTX 3090 │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
└─────────────────────────────────────────────────────────────┘
| Endpoint | Methode | Beschreibung |
|---|---|---|
| /infra/vast/status | GET | Aktueller Status der GPU-Instanz |
| /infra/vast/power/on | POST | GPU-Instanz starten |
| /infra/vast/power/off | POST | GPU-Instanz stoppen |
| /infra/vast/audit | GET | Audit-Log der letzten Aktionen |
| GPU | Preis/Stunde | VRAM | Use Case |
|---|---|---|---|
| RTX 4090 | ~$0.40 | 24 GB | Training, Inference |
| A100 | ~$1.50 | 80 GB | Large Model Training |
| H100 | ~$3.00 | 80 GB | Enterprise Training |
GPU-Instanzen werden automatisch nach 30 Minuten Inaktivitaet gestoppt, um Kosten zu sparen. Bei jedem LLM-Request wird die Aktivitaet aufgezeichnet.