Ollama einrichten: Lokale KI Schritt für Schritt ohne Cloud

Ollama macht lokale KI so einfach wie moeglich: Ein Befehl installiert, ein Befehl laedt das Modell, ein Befehl startet es. Keine Cloud, keine Datenuebertragung, keine laufenden Kosten.

Was ist Ollama und warum ist es relevant?

Ollama ist eine Open-Source-Plattform, die es ermoeglicht, grosse Sprachmodelle (LLMs) lokal auf dem eigenen Rechner zu betreiben. Unterstuetzt werden Modelle wie Llama 3, Mistral und Phi-3 - ohne Cloud-Anbindung, ohne monatliche Gebuehren, ohne Datenweitergabe.

Fuer Unternehmen ist das besonders attraktiv: Kundendaten und vertrauliche Texte verlassen nie das eigene Netzwerk. Das macht Ollama zur idealen Loesung fuer datenschutzsensible Anwendungsfaelle - vollstaendig DSGVO-konform, weil keine personenbezogenen Daten an externe Anbieter uebermittelt werden.

Systemvoraussetzungen

Ollama laeuft auf Windows, macOS und Linux. Die wichtigste Variable ist der Arbeitsspeicher (RAM):

8 GB RAM: ausreichend fuer kleine Modelle wie Phi-3 mini oder Llama 3.2 3B
16 GB RAM: empfohlen fuer Llama 3 8B und Mistral 7B
32 GB RAM oder mehr: fuer groessere Modelle wie Llama 3 70B quantisiert

Apple Silicon (M1 bis M4) ist besonders gut geeignet: Durch den gemeinsamen Speicher fuer CPU und GPU laufen Modelle deutlich schneller als auf vergleichbarer x86-Hardware.

Installation Schritt fuer Schritt

Ollama herunterladen
Besuchen Sie ollama.com und laden Sie das Installationspaket fuer Ihr Betriebssystem herunter. Fuer Windows steht ein klassischer Installer bereit, fuer macOS eine .dmg-Datei, fuer Linux ein einzeiliges Shell-Skript.
Installieren und starten
Fuehren Sie den Installer aus. Unter Windows und macOS startet Ollama automatisch als Hintergrunddienst. Die lokale API ist danach unter http://localhost:11434 erreichbar.
Erstes Modell laden
Oeffnen Sie ein Terminal und fuehren Sie aus: ollama pull llama3 - Ollama laedt das Modell (ca. 4,7 GB) automatisch herunter. Es wird lokal gespeichert und steht dauerhaft offline zur Verfuegung.
Modell starten und testen
Starten Sie eine Konversation direkt im Terminal: ollama run llama3 - Sie koennen sofort Fragen stellen. Mit /bye beenden Sie die Sitzung. Die KI laeuft jetzt vollstaendig lokal.
Open WebUI als Browser-Oberflaeche
Fuer eine komfortable Chat-Oberflaeche im Browser empfiehlt sich Open WebUI. Installation via Docker: docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main - danach erreichbar unter http://localhost:3000.

Welches Modell fuer welchen Anwendungsfall?

Die Wahl des Modells haengt von Aufgabe und verfuegbarem RAM ab:

Llama 3 8B: Bester Allrounder fuer Texte, Zusammenfassungen und Frage-Antwort (16 GB RAM)
Mistral 7B: Besonders stark bei Code-Generierung und strukturierten Ausgaben (16 GB RAM)
Phi-3 mini: Microsoft-Modell fuer schwaechere Hardware (8 GB RAM)
Llama 3 70B quantisiert: Nahe an GPT-4-Niveau, erfordert 32+ GB RAM oder eine starke GPU

Tipp: Laden Sie mehrere Modelle und wechseln Sie per ollama run Modellname - alle bleiben lokal gespeichert.

Typische Anwendungsfaelle in Unternehmen

Interne Wissensdatenbank: Dokumente lokal indexieren und per KI durchsuchen (RAG-Setup)
DSGVO-konforme Kundendatenverarbeitung: Texte analysieren ohne externe API-Aufrufe
Offline-Entwuerfe: E-Mails, Angebote und Berichte ohne Internetzugang erstellen
Code-Review und Dokumentation: Entwickler-Teams ohne Cloud-Abhaengigkeit unterstuetzen
Support-Vorbereitung: FAQ-Antworten und Textbausteine intern generieren

Grenzen und Einschraenkungen

Ollama ist leistungsfaehig - aber kein Ersatz fuer alle Cloud-KI-Szenarien:

Kein Internetzugang: Lokale Modelle haben keinen Zugriff auf aktuelle Informationen.
Geschwindigkeit: Auf Standard-Laptop-Hardware ohne GPU ist die Antwortgeschwindigkeit spuerbar langsamer als bei Cloud-Diensten.
Modellgroesse: Sehr grosse Modelle (70B+) benoetigen High-End-Hardware. Fuer die meisten Buero-Anwendungsfaelle reichen 7B- bis 8B-Modelle vollstaendig aus.
Kein automatisches Update: Neue Modellversionen muessen manuell per ollama pull geladen werden.

Profi-Tipp fuer den Einstieg

Starten Sie mit ollama pull llama3 und testen Sie das Modell eine Woche lang fuer reale Aufgaben aus dem Arbeitsalltag - Texte zusammenfassen, E-Mails formulieren, einfache Code-Snippets. Erst dann entscheiden, ob ein groesseres Modell oder eine GPU-Investition sinnvoll ist.

Fazit

Zusammenfassung

Ollama laeuft lokal: keine Cloud, keine API-Kosten, keine Datenweitergabe
Installation in unter 5 Minuten - ein Befehl pro Schritt
Llama 3 8B ist der beste Einstieg fuer 16 GB RAM, Phi-3 mini fuer 8 GB
Open WebUI liefert eine komfortable Browser-Oberflaeche ohne Programmierkenntnisse
Ideal fuer DSGVO-sensible Unternehmen mit vertraulichen Daten

Ollama einrichten: Lokale KI Schritt für Schritt ohne Cloud

Was ist Ollama und warum ist es relevant?

Systemvoraussetzungen

Installation Schritt fuer Schritt

Welches Modell fuer welchen Anwendungsfall?

Typische Anwendungsfaelle in Unternehmen

Grenzen und Einschraenkungen

Profi-Tipp fuer den Einstieg

Fazit

Häufige Fragen

Haben Sie weitere Fragen?