KI-Infrastruktur
Inferenz auf Ihrer Hardware. Geplant, deployt, überwacht.
Ein einzelner GPU-Server oder ein Multi-Node-Setup. Modell-Routing, Auto-Scaling, Token-Throughput-Monitoring.
- vLLM
- SGLang
- LiteLLM
- Multi-GPU
Unabhängiger Berater
Ich helfe österreichischen Unternehmen, künstliche Intelligenz und kritische Dienste auf eigener Hardware zu betreiben — ohne Cloud-Bindung, ohne Datenabfluss, mit voller Kontrolle.
01 / Leistungen
Alles, was unten steht, betreibe ich selbst produktiv. Kein PowerPoint, kein Reseller-Geschäft.
Inferenz auf Ihrer Hardware. Geplant, deployt, überwacht.
Ein einzelner GPU-Server oder ein Multi-Node-Setup. Modell-Routing, Auto-Scaling, Token-Throughput-Monitoring.
Open-Source-Modelle on-prem. Audit-fähig, optional air-gapped.
Llama, Mistral, Qwen, DeepSeek — gehostet, gerouted, dokumentiert. Konform mit DSGVO und NISG 2026.
Wissens-Retrieval auf eigenen Daten. Aufgesetzt und betrieben.
Embedding-Pipelines, Vector Stores, Re-Ranking, Eval-Loops. Für interne Dokumente, Code-Bases, Support-Tickets — auf Ihrer Infrastruktur.
Claude Code & Co. — eingeführt, abgesichert, gemessen.
Schulung, Workflow-Integration, Review-Pipelines, die KI-Output absichern. Realistische Erwartungen, messbare Resultate.
SaaS raus, eigene Server rein. Reproduzierbar und dokumentiert.
Mail, Identity, Monitoring, Backups, CI — auf einem Stack ohne Vendor-Lock-in. Proxmox als Basis für alles oben.
02 / Über
Unabhängig, technisch, hands-on.
Ich betreibe denselben Stack, den ich empfehle: einen 4-Knoten-Proxmox-Cluster, einen GPU-Server mit zwei RTX PRO 6000, souveräne LLMs hinter LiteLLM, eigene CI-Runner, Monitoring, Mail- und Vault-Server.
Sitz in Österreich. Beratung auf Deutsch und Englisch.
03 / Kontakt
Antwort innerhalb eines Werktages.