Lokale KI im Homelab: Ollama, Open WebUI und eigene Modelle betreiben

Wie man mit Ollama und Open WebUI lokale KI-Modelle auf dem eigenen Server betreibt – datenschutzkonform, kostengünstig und ohne Cloud-Abhängigkeit.

Warum lokale KI im Jahr 2026 relevant ist

Der Trend ist eindeutig: Immer mehr Unternehmen und technikaffine Privatpersonen verlagern ihre KI-Workloads vom Cloud-Anbieter auf eigene Hardware. Der Grund ist nicht nur Kostenersparnis – es geht um Datensouveränität, DSGVO-Konformität und die schlichte Tatsache, dass man nicht möchte, dass sensible Anfragen auf fremden Servern landen.

Laut einer Bitkom-Studie aus 2025 nutzen bereits 38 Prozent der deutschen Unternehmen KI-gestützte Tools produktiv. Gleichzeitig nennen 61 Prozent Datenschutzbedenken als größtes Hindernis bei der Einführung cloudbasierter KI-Dienste. Lokale Modelle lösen dieses Dilemma elegant: Die Daten verlassen nie das eigene Netzwerk.

Mit Tools wie Ollama und Open WebUI ist der Einstieg heute überraschend niedrigschwellig – auch ohne Deep-Learning-Expertise.

Hardware-Anforderungen: Was brauche ich wirklich?

Bevor man Modelle installiert, muss die Hardware stimmen. Der kritischste Faktor ist der RAM – nicht die CPU-Geschwindigkeit, nicht die Festplattenkapazität.

Faustformel: Ein Sprachmodell benötigt ungefähr so viel RAM, wie es Parameter in Gigabyte hat (bei 4-Bit-Quantisierung etwa die Hälfte). Konkret:

  • 7B-Modelle (z. B. Llama 3.2, Mistral 7B): 8 GB RAM ausreichend, 16 GB empfohlen
  • 13B-Modelle: mindestens 16 GB RAM, besser 32 GB
  • 34B-Modelle und größer: 64 GB RAM oder GPU mit entsprechendem VRAM

Für CPU-Inferenz reicht ein moderner Server oder auch ein leistungsfähiger Mini-PC mit ausreichend RAM. Eine dedizierte GPU beschleunigt die Inferenz erheblich – selbst eine ältere Consumer-GPU mit 8–12 GB VRAM macht Llama 3.2 7B deutlich flüssiger.

Proxmox-Nutzer können Ollama komfortabel in einem LXC-Container oder einer VM betreiben. Für GPU-Passthrough muss der LXC als privilegierter Container konfiguriert werden und Zugriff auf das entsprechende Device erhalten (/dev/dri für integrierte Grafik, NVIDIA-Passthrough erfordert etwas mehr Konfigurationsaufwand mit den passenden Treiber-Mounts).

Ollama installieren und erste Modelle laden

Ollama ist ein schlankes Tool, das das Management lokaler Sprachmodelle übernimmt – ähnlich wie Docker für Container. Die Installation unter Linux erfolgt mit einem einzigen Befehl:

curl -fsSL https://ollama.com/install.sh | sh

Danach läuft Ollama als systemd-Service und ist über eine REST-API auf Port 11434 erreichbar. Modelle werden einfach gepullt:

# Llama 3.2 (Meta, 3B – sehr schnell auch auf CPU)
ollama pull llama3.2

# Mistral 7B (ausgezeichnete deutschsprachige Fähigkeiten)
ollama pull mistral

# Gemma 2 (Google-Architektur, ebenfalls open-weight)
ollama pull gemma2

# Größeres Modell für anspruchsvollere Aufgaben
ollama pull llama3.1:8b

Interaktiv chatten lässt sich direkt im Terminal:

ollama run mistral

Ollama verwaltet automatisch den Modell-Cache und entlädt Modelle aus dem RAM, wenn sie nicht mehr benötigt werden.

BSS KI-Chatbot – KI-Lösungen für Ihr Unternehmen

Open WebUI: Das ChatGPT-ähnliche Frontend

Die Kommandozeile ist für Entwickler praktisch, für den Alltag möchte man eine grafische Oberfläche. Open WebUI ist ein selbst gehostetes Web-Interface, das sich direkt mit Ollama verbindet und eine vertraute Chat-Oberfläche bietet.

Die einfachste Installation läuft über Docker:

docker run -d \
  --network=host \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Alternativ via Docker Compose, was sich besonders für Integration in bestehende Homelab-Setups eignet (mehr dazu im Artikel Infrastructure as Code im Homelab).

Nach dem Start ist Open WebUI unter http://localhost:3000 erreichbar. Die Oberfläche erlaubt:

  • Wechsel zwischen installierten Modellen mit einem Klick
  • Verwaltung mehrerer Konversationen und Verlauf
  • System-Prompts und Personas definieren
  • RAG (Retrieval-Augmented Generation): eigene Dokumente als Wissensbasis hochladen
  • Benutzerverwaltung für Mehrbenutzerbetrieb

GPU-Passthrough in Proxmox (Kurzanleitung)

Wer eine NVIDIA-GPU für Ollama nutzen möchte und Proxmox einsetzt, muss folgende Schritte durchführen:

  1. IOMMU aktivieren: In /etc/default/grub die Kernel-Parameter intel_iommu=on iommu=pt (Intel) bzw. amd_iommu=on (AMD) ergänzen, update-grub ausführen und rebooten.
  2. Treiber auf dem Host installieren: NVIDIA-Treiber und nvidia-container-toolkit auf dem Proxmox-Host einrichten.
  3. LXC konfigurieren: Im LXC-Konfigurationsfile (/etc/pve/lxc/ID.conf) die GPU-Devices eintragen und features: nesting=1 setzen.
  4. In der VM/LXC: CUDA installieren und Ollama nutzt die GPU automatisch.

Für reine CPU-Setups entfällt dieser Schritt – Ollama läuft problemlos auch ohne GPU, nur langsamer.

DSGVO und Datensouveränität: Der entscheidende Vorteil

Der wichtigste Aspekt lokaler KI wird oft unterschätzt: Alle Anfragen bleiben im eigenen Netzwerk. Kein Drittanbieter sieht die Prompts, keine Trainingsdaten werden ungewollt geteilt, und es gibt keine Nutzungsbedingungen, die sich ändern können.

Das ist besonders relevant für:

  • Anwaltskanzleien und Steuerberater: Mandantendaten dürfen nicht auf externen Servern verarbeitet werden
  • Medizinische Einrichtungen: Patientendaten unterliegen strengen Datenschutzauflagen
  • Unternehmen mit Betriebsgeheimnissen: Interne Dokumente, Strategiepapiere, Quellcode

Lokale KI ist damit nicht nur eine technische Spielerei – sie ist für viele Branchen die einzige DSGVO-konforme Option, KI produktiv einzusetzen. Mehr zum Thema Datensouveränität findet sich im Artikel Digitale Souveränität für deutsche Unternehmen.

Fazit: Einstieg lohnt sich

Lokale KI ist 2026 kein Nischenprojekt mehr. Mit Ollama und Open WebUI steht ein robustes, aktiv gepflegtes Ökosystem bereit, das sich in wenigen Stunden aufsetzen lässt. Die Hardwareanforderungen sind überschaubar – wer bereits einen Homelab-Server betreibt, kann heute noch anfangen.

Der Mehrwert liegt nicht nur in der Kostenersparnis gegenüber API-Abonnements. Es ist das Gefühl, die eigene KI zu kontrollieren: welche Modelle laufen, wer Zugriff hat, welche Daten verarbeitet werden.

Mehr zu KI-Lösungen für Ihr Unternehmen