import type { SystemInfoConfig } from './types' export const gpuConfig: SystemInfoConfig = { title: 'GPU Infrastruktur System-Info', description: 'vast.ai GPU-Management fuer KI-Workloads und Training.', version: '1.5', privacyNotes: [ 'GPU-Workloads werden isoliert in Docker-Containern ausgefuehrt', 'Keine persistente Speicherung von Trainingsdaten auf GPU-Instanzen', 'SSH-Keys werden regelmaessig rotiert', 'Audit-Log fuer alle GPU-Operationen', ], architecture: { layers: [ { title: 'Admin UI', components: ['GPU Dashboard', 'Instance Manager', 'Cost Calculator'], color: '#3b82f6' }, { title: 'vast.ai API', components: ['Instance API', 'Billing API', 'SSH Management'], color: '#8b5cf6' }, { title: 'GPU Instances', components: ['RTX 4090', 'A100', 'H100'], color: '#10b981' }, { title: 'Workloads', components: ['Model Training', 'Inference', 'Fine-Tuning'], color: '#f59e0b' }, ], }, features: [ { name: 'Instance Management', status: 'active', description: 'Start/Stop/Destroy von GPU-Instanzen' }, { name: 'SSH Key Management', status: 'active', description: 'Automatische SSH-Key Rotation' }, { name: 'Cost Tracking', status: 'active', description: 'Echtzeit-Kostenüberwachung' }, { name: 'Auto-Scaling', status: 'planned', description: 'Automatische Skalierung bei Last' }, { name: 'Spot Instance Management', status: 'planned', description: 'Kostenoptimierung durch Spot-Instances' }, ], roadmap: [ { phase: 'Phase 1: Automation (Q1)', priority: 'high', items: ['Auto-Start bei Bedarf', 'Auto-Stop bei Inaktivitaet', 'Scheduled Instances', 'Budget Alerts'] }, { phase: 'Phase 2: Multi-Cloud (Q2)', priority: 'medium', items: ['Lambda Labs Integration', 'RunPod Integration', 'Cloud-uebergreifende Orchestrierung', 'Preisvergleich'] }, { phase: 'Phase 3: ML Ops (Q3)', priority: 'medium', items: ['Model Registry', 'Experiment Tracking', 'A/B Testing', 'Model Versioning'] }, ], technicalDetails: [ { component: 'API', technology: 'vast.ai REST API', version: 'v1', description: 'GPU-Marktplatz' }, { component: 'SSH', technology: 'OpenSSH', version: '9.x', description: 'Sichere Verbindung' }, { component: 'Container', technology: 'Docker', version: '24.x', description: 'Workload-Isolation' }, { component: 'ML Framework', technology: 'PyTorch', version: '2.x', description: 'Model Training' }, ], auditInfo: [ { category: 'Sicherheit & Zugriffskontrolle', items: [ { label: 'Authentifizierung', value: 'API-Key + SSH-Key', status: 'ok' }, { label: 'Verschluesselung', value: 'TLS 1.3', status: 'ok' }, { label: 'Key Rotation', value: 'Alle 30 Tage', status: 'ok' }, { label: 'Audit-Log', value: 'Aktiviert', status: 'ok' }, ], }, { category: 'Kosten & Ressourcen', items: [ { label: 'Budget-Limit', value: 'Konfigurierbar', status: 'ok' }, { label: 'Auto-Shutdown', value: '30 Min Inaktivitaet', status: 'ok' }, { label: 'Spot-Instances', value: 'Geplant', status: 'warning' }, { label: 'Multi-Cloud', value: 'Geplant', status: 'warning' }, ], }, { category: 'Compliance', items: [ { label: 'Daten-Residenz', value: 'EU/US waehlbar', status: 'ok' }, { label: 'DSGVO-Konformitaet', value: 'Ja', status: 'ok' }, { label: 'SOC 2 Type II', value: 'vast.ai zertifiziert', status: 'ok' }, ], }, ], fullDocumentation: `

GPU Infrastructure Management

1. Uebersicht

Das GPU-Infrastruktur-Modul ermoeglicht die Verwaltung von Cloud-GPU-Ressourcen ueber vast.ai fuer KI-Workloads wie Model Training, Fine-Tuning und Inference.

2. Architektur

┌─────────────────────────────────────────────────────────────┐
│                      Admin Dashboard                         │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────────────┐ │
│  │ Start/Stop  │  │   Status    │  │   Cost Tracking     │ │
│  └──────┬──────┘  └──────┬──────┘  └──────────┬──────────┘ │
└─────────┼───────────────┼─────────────────────┼─────────────┘
          │               │                     │
          v               v                     v
┌─────────────────────────────────────────────────────────────┐
│                      Backend API                             │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  /infra/vast/*  -  vast.ai Proxy mit Auth           │   │
│  └─────────────────────────────────────────────────────┘   │
└──────────────────────────┬──────────────────────────────────┘
                           │
                           v
┌─────────────────────────────────────────────────────────────┐
│                      vast.ai Cloud                           │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐    │
│  │ RTX 4090 │  │   A100   │  │   H100   │  │ RTX 3090 │    │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘    │
└─────────────────────────────────────────────────────────────┘

3. API Endpoints

EndpointMethodeBeschreibung
/infra/vast/statusGETAktueller Status der GPU-Instanz
/infra/vast/power/onPOSTGPU-Instanz starten
/infra/vast/power/offPOSTGPU-Instanz stoppen
/infra/vast/auditGETAudit-Log der letzten Aktionen

4. Sicherheitskonzept

5. Kostenmanagement

GPUPreis/StundeVRAMUse Case
RTX 4090~$0.4024 GBTraining, Inference
A100~$1.5080 GBLarge Model Training
H100~$3.0080 GBEnterprise Training

6. Auto-Shutdown Policy

GPU-Instanzen werden automatisch nach 30 Minuten Inaktivitaet gestoppt, um Kosten zu sparen. Bei jedem LLM-Request wird die Aktivitaet aufgezeichnet.

7. Audit-relevante Informationen

8. Notfallprozeduren

  1. Bei Kostenüberschreitung: Automatischer Stop aller Instanzen
  2. Bei API-Ausfall: Fallback auf manuelles vast.ai Dashboard
  3. Bei Sicherheitsvorfall: Sofortiges Destroy aller Instanzen
`, }