Ollama: Lokale KI-Modelle auf eigener Hardware

Nicht jedes Unternehmen möchte sensible Daten an Cloud-Anbieter senden – und muss es auch nicht. Mit Ollama laufen leistungsfähige Sprachmodelle direkt auf Ihrem Server, ohne dass jemals ein Byte Ihr Netzwerk verlässt. Wir nutzen Ollama für Projekte, bei denen maximaler Datenschutz gefordert ist.

Ollama lokale KI On-Premise Server

Was ist Ollama?

Ollama ist ein Open-Source-Tool, das es ermöglicht, große Sprachmodelle (LLMs) lokal auf eigener Hardware zu betreiben. Es abstrahiert die Komplexität des Modell-Managements und bietet eine einfache API, die kompatibel mit OpenAIs Format ist. Bestehende Anwendungen können also mit minimalen Änderungen auf lokale Modelle umgestellt werden.

Der entscheidende Vorteil ist, dass Ihre Daten niemals Ihr Netzwerk verlassen. Es gibt keine API-Calls an Server in den USA, keine Speicherung durch Dritte und keine Abhängigkeit von Internetverbindung oder Anbieter-Uptime. Für Branchen mit strengen Datenschutzanforderungen wie Gesundheitswesen, Rechtsberatung oder Finanzdienstleistungen ist das oft eine Grundvoraussetzung.

Fakten zu Ollama

  • Lizenz: MIT (vollständig Open Source)
  • Plattformen: macOS, Linux, Windows
  • API: OpenAI-kompatibel
  • GPU-Support: NVIDIA, Apple Silicon
  • Modelle: Llama 3, Mistral, Gemma, Phi
GitHub Repository

Verfügbare Modelle

Ollama bietet Zugriff auf eine Vielzahl von Open-Source-Modellen, die wir je nach Anforderung einsetzen:

llama3.2

Metas neuestes Modell ist stark in deutscher Sprache und gut für allgemeine Aufgaben wie Textzusammenfassungen und Beantwortung von Fragen geeignet.

mistral

Ein schnelles, effizientes Modell aus Frankreich (EU!) das ideal für schnelle Kategorisierung und einfache Textanalysen ist.

gemma2

Googles Open-Source-Modell ist kompakt und schnell, und damit geeignet für ressourcenbeschränkte Umgebungen.

codellama

Spezialisiert auf Code, geeignet für automatisierte Code-Reviews oder Dokumentationserstellung.

phi3

Microsofts kleines, aber leistungsfähiges Modell läuft auch auf Hardware ohne dedizierte GPU.

nomic-embed-text

Embedding-Modell für Vektorsuche das semantische Suche in Ihren Dokumenten ermöglicht.

Alle verfügbaren Modelle ansehen

Installation und Nutzung

Ollama ist so konzipiert, dass es in wenigen Minuten einsatzbereit ist. Ein einziger Befehl genügt, um ein Modell herunterzuladen und zu starten. Die API ist kompatibel mit OpenAIs Format, sodass bestehende Tools und Workflows oft ohne Änderungen funktionieren.

Für Produktionsumgebungen konfigurieren wir zusätzlich Authentifizierung, Logging und Monitoring, und integrieren Ollama in n8n-Workflows, sodass die lokale KI nahtlos mit Ihren anderen Systemen kommuniziert.

  • Installation mit einem Befehl
  • OpenAI-kompatible API (Drop-in Replacement)
  • GPU-Beschleunigung für schnelle Inferenz
  • Modellwechsel ohne Code-Änderungen
# Installation (macOS/Linux) curl -fsSL https://ollama.com/install.sh | sh # Modell herunterladen und starten ollama pull llama3.2 ollama run llama3.2 # API-Aufruf (OpenAI-kompatibel) curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{"model": "llama3.2", "messages": [{"role": "user", "content": "Hallo!"}]}'

Wann lokale KI statt Cloud?

Lokale KI (Ollama) wählen, wenn:

  • Sensible Daten verarbeitet werden (Gesundheit, Recht, Finanzen)
  • Regulatorische Anforderungen Daten-Lokalität fordern
  • Keine stabile Internetverbindung garantiert ist
  • Kosten pro Token vermieden werden sollen (hohe Volumina)
  • Volle Kontrolle über die Infrastruktur nötig ist

Cloud-KI (Claude/GPT-4) wählen, wenn:

  • Maximale Modellqualität benötigt wird
  • Keine lokale GPU-Hardware vorhanden ist
  • Schnelle Skalierung wichtiger ist als Datenlokalisierung
  • Die verarbeiteten Daten nicht sensibel sind
  • Spezialfähigkeiten (z.B. Vision, lange Kontexte) nötig sind

In vielen Projekten kombinieren wir beide Ansätze: Sensible Daten werden lokal mit Ollama verarbeitet, während nicht-kritische Aufgaben an leistungsfähigere Cloud-Modelle wie Claude delegiert werden.

Häufige Fragen zu Ollama

Hardware, Modelle und Performance

Welche Hardware brauche ich für Ollama?
Das hängt vom Modell ab. Für kleine Modelle (z.B. Llama 3 8B) reicht ein moderner Laptop (MacBook M1/M2/M3 oder PC mit NVIDIA GPU). Für größere Modelle empfehlen wir dedizierte Server mit starker GPU-Ausstattung.
Welche Modelle kann ich lokal laufen lassen?
Fast alle Open-Source-Modelle: Llama 3, Mistral, Gemma, Phi-3, und viele spezialisierte Modelle für Code oder Medizin. Die Auswahl wächst täglich.
Ist Ollama wirklich kostenlos?
Ja, Ollama selbst ist Open Source und kostenlos. Auch die meisten Modelle (Llama, Mistral) sind für die Nutzung frei verfügbar (Apache 2.0 oder MIT Lizenz). Kosten entstehen nur für Ihre eigene Hardware.
Wie performant sind lokale Modelle?
Überraschend gut. Auf passender Hardware antworten sie oft schneller als Cloud-APIs, da keine Netzwerklatenz besteht. Die Intelligenz der neuesten Open-Source-Modelle nähert sich GPT-4 rasant an.

On-Premise KI anfragen

Volle Datenkontrolle auf Ihrer Infrastruktur