Ollama ist eine Open-Source-Lösung, die es ermöglicht, große Sprachmodelle wie Llama 3, Mistral oder Phi-3 lokal auf dem eigenen Rechner zu betreiben. Für Unternehmen bedeutet das: keine API-Kosten, keine Datenweitergabe an externe Anbieter und volle Offline-Fähigkeit — ideal für datenschutzsensible Anwendungsfälle.
Ollama macht lokale KI so einfach wie moeglich: Ein Befehl installiert, ein Befehl laedt das Modell, ein Befehl startet es. Keine Cloud, keine Datenuebertragung, keine laufenden Kosten.
Was ist Ollama und warum ist es relevant?
Ollama ist eine Open-Source-Plattform, die es ermoeglicht, grosse Sprachmodelle (LLMs) lokal auf dem eigenen Rechner zu betreiben. Unterstuetzt werden Modelle wie Llama 3, Mistral und Phi-3 - ohne Cloud-Anbindung, ohne monatliche Gebuehren, ohne Datenweitergabe.
Fuer Unternehmen ist das besonders attraktiv: Kundendaten und vertrauliche Texte verlassen nie das eigene Netzwerk. Das macht Ollama zur idealen Loesung fuer datenschutzsensible Anwendungsfaelle - vollstaendig DSGVO-konform, weil keine personenbezogenen Daten an externe Anbieter uebermittelt werden.
Systemvoraussetzungen
Ollama laeuft auf Windows, macOS und Linux. Die wichtigste Variable ist der Arbeitsspeicher (RAM):
- 8 GB RAM: ausreichend fuer kleine Modelle wie Phi-3 mini oder Llama 3.2 3B
- 16 GB RAM: empfohlen fuer Llama 3 8B und Mistral 7B
- 32 GB RAM oder mehr: fuer groessere Modelle wie Llama 3 70B quantisiert
Apple Silicon (M1 bis M4) ist besonders gut geeignet: Durch den gemeinsamen Speicher fuer CPU und GPU laufen Modelle deutlich schneller als auf vergleichbarer x86-Hardware.
Installation Schritt fuer Schritt
-
Ollama herunterladen
Besuchen Sie ollama.com und laden Sie das Installationspaket fuer Ihr Betriebssystem herunter. Fuer Windows steht ein klassischer Installer bereit, fuer macOS eine .dmg-Datei, fuer Linux ein einzeiliges Shell-Skript.
-
Installieren und starten
Fuehren Sie den Installer aus. Unter Windows und macOS startet Ollama automatisch als Hintergrunddienst. Die lokale API ist danach unter http://localhost:11434 erreichbar.
-
Erstes Modell laden
Oeffnen Sie ein Terminal und fuehren Sie aus: ollama pull llama3 - Ollama laedt das Modell (ca. 4,7 GB) automatisch herunter. Es wird lokal gespeichert und steht dauerhaft offline zur Verfuegung.
-
Modell starten und testen
Starten Sie eine Konversation direkt im Terminal: ollama run llama3 - Sie koennen sofort Fragen stellen. Mit /bye beenden Sie die Sitzung. Die KI laeuft jetzt vollstaendig lokal.
-
Open WebUI als Browser-Oberflaeche
Fuer eine komfortable Chat-Oberflaeche im Browser empfiehlt sich Open WebUI. Installation via Docker: docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main - danach erreichbar unter http://localhost:3000.
Welches Modell fuer welchen Anwendungsfall?
Die Wahl des Modells haengt von Aufgabe und verfuegbarem RAM ab:
- Llama 3 8B: Bester Allrounder fuer Texte, Zusammenfassungen und Frage-Antwort (16 GB RAM)
- Mistral 7B: Besonders stark bei Code-Generierung und strukturierten Ausgaben (16 GB RAM)
- Phi-3 mini: Microsoft-Modell fuer schwaechere Hardware (8 GB RAM)
- Llama 3 70B quantisiert: Nahe an GPT-4-Niveau, erfordert 32+ GB RAM oder eine starke GPU
Tipp: Laden Sie mehrere Modelle und wechseln Sie per ollama run Modellname - alle bleiben lokal gespeichert.
Typische Anwendungsfaelle in Unternehmen
- Interne Wissensdatenbank: Dokumente lokal indexieren und per KI durchsuchen (RAG-Setup)
- DSGVO-konforme Kundendatenverarbeitung: Texte analysieren ohne externe API-Aufrufe
- Offline-Entwuerfe: E-Mails, Angebote und Berichte ohne Internetzugang erstellen
- Code-Review und Dokumentation: Entwickler-Teams ohne Cloud-Abhaengigkeit unterstuetzen
- Support-Vorbereitung: FAQ-Antworten und Textbausteine intern generieren
Grenzen und Einschraenkungen
Ollama ist leistungsfaehig - aber kein Ersatz fuer alle Cloud-KI-Szenarien:
- Kein Internetzugang: Lokale Modelle haben keinen Zugriff auf aktuelle Informationen.
- Geschwindigkeit: Auf Standard-Laptop-Hardware ohne GPU ist die Antwortgeschwindigkeit spuerbar langsamer als bei Cloud-Diensten.
- Modellgroesse: Sehr grosse Modelle (70B+) benoetigen High-End-Hardware. Fuer die meisten Buero-Anwendungsfaelle reichen 7B- bis 8B-Modelle vollstaendig aus.
- Kein automatisches Update: Neue Modellversionen muessen manuell per ollama pull geladen werden.
Profi-Tipp fuer den Einstieg
Fazit
- Ollama laeuft lokal: keine Cloud, keine API-Kosten, keine Datenweitergabe
- Installation in unter 5 Minuten - ein Befehl pro Schritt
- Llama 3 8B ist der beste Einstieg fuer 16 GB RAM, Phi-3 mini fuer 8 GB
- Open WebUI liefert eine komfortable Browser-Oberflaeche ohne Programmierkenntnisse
- Ideal fuer DSGVO-sensible Unternehmen mit vertraulichen Daten
Häufige Fragen
Was kostet Ollama?
Welches Modell soll ich als Einsteiger waehlen?
Sind meine Daten bei Ollama sicher?
Laeuft Ollama auch ohne Internetverbindung?
Wie unterscheidet sich Ollama von ChatGPT?
War dieser Artikel hilfreich?