Digitalisierung & KI

Ollama einrichten: Lokale KI Schritt für Schritt ohne Cloud

9 Min. Lesezeit
Kurze Antwort

Ollama ist eine Open-Source-Lösung, die es ermöglicht, große Sprachmodelle wie Llama 3, Mistral oder Phi-3 lokal auf dem eigenen Rechner zu betreiben. Für Unternehmen bedeutet das: keine API-Kosten, keine Datenweitergabe an externe Anbieter und volle Offline-Fähigkeit — ideal für datenschutzsensible Anwendungsfälle.

Ollama macht lokale KI so einfach wie moeglich: Ein Befehl installiert, ein Befehl laedt das Modell, ein Befehl startet es. Keine Cloud, keine Datenuebertragung, keine laufenden Kosten.

Was ist Ollama und warum ist es relevant?

Ollama ist eine Open-Source-Plattform, die es ermoeglicht, grosse Sprachmodelle (LLMs) lokal auf dem eigenen Rechner zu betreiben. Unterstuetzt werden Modelle wie Llama 3, Mistral und Phi-3 - ohne Cloud-Anbindung, ohne monatliche Gebuehren, ohne Datenweitergabe.

Fuer Unternehmen ist das besonders attraktiv: Kundendaten und vertrauliche Texte verlassen nie das eigene Netzwerk. Das macht Ollama zur idealen Loesung fuer datenschutzsensible Anwendungsfaelle - vollstaendig DSGVO-konform, weil keine personenbezogenen Daten an externe Anbieter uebermittelt werden.

Systemvoraussetzungen

Ollama laeuft auf Windows, macOS und Linux. Die wichtigste Variable ist der Arbeitsspeicher (RAM):

  • 8 GB RAM: ausreichend fuer kleine Modelle wie Phi-3 mini oder Llama 3.2 3B
  • 16 GB RAM: empfohlen fuer Llama 3 8B und Mistral 7B
  • 32 GB RAM oder mehr: fuer groessere Modelle wie Llama 3 70B quantisiert

Apple Silicon (M1 bis M4) ist besonders gut geeignet: Durch den gemeinsamen Speicher fuer CPU und GPU laufen Modelle deutlich schneller als auf vergleichbarer x86-Hardware.

Installation Schritt fuer Schritt

  1. Ollama herunterladen

    Besuchen Sie ollama.com und laden Sie das Installationspaket fuer Ihr Betriebssystem herunter. Fuer Windows steht ein klassischer Installer bereit, fuer macOS eine .dmg-Datei, fuer Linux ein einzeiliges Shell-Skript.

  2. Installieren und starten

    Fuehren Sie den Installer aus. Unter Windows und macOS startet Ollama automatisch als Hintergrunddienst. Die lokale API ist danach unter http://localhost:11434 erreichbar.

  3. Erstes Modell laden

    Oeffnen Sie ein Terminal und fuehren Sie aus: ollama pull llama3 - Ollama laedt das Modell (ca. 4,7 GB) automatisch herunter. Es wird lokal gespeichert und steht dauerhaft offline zur Verfuegung.

  4. Modell starten und testen

    Starten Sie eine Konversation direkt im Terminal: ollama run llama3 - Sie koennen sofort Fragen stellen. Mit /bye beenden Sie die Sitzung. Die KI laeuft jetzt vollstaendig lokal.

  5. Open WebUI als Browser-Oberflaeche

    Fuer eine komfortable Chat-Oberflaeche im Browser empfiehlt sich Open WebUI. Installation via Docker: docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main - danach erreichbar unter http://localhost:3000.

Welches Modell fuer welchen Anwendungsfall?

Die Wahl des Modells haengt von Aufgabe und verfuegbarem RAM ab:

  • Llama 3 8B: Bester Allrounder fuer Texte, Zusammenfassungen und Frage-Antwort (16 GB RAM)
  • Mistral 7B: Besonders stark bei Code-Generierung und strukturierten Ausgaben (16 GB RAM)
  • Phi-3 mini: Microsoft-Modell fuer schwaechere Hardware (8 GB RAM)
  • Llama 3 70B quantisiert: Nahe an GPT-4-Niveau, erfordert 32+ GB RAM oder eine starke GPU

Tipp: Laden Sie mehrere Modelle und wechseln Sie per ollama run Modellname - alle bleiben lokal gespeichert.

Typische Anwendungsfaelle in Unternehmen

  • Interne Wissensdatenbank: Dokumente lokal indexieren und per KI durchsuchen (RAG-Setup)
  • DSGVO-konforme Kundendatenverarbeitung: Texte analysieren ohne externe API-Aufrufe
  • Offline-Entwuerfe: E-Mails, Angebote und Berichte ohne Internetzugang erstellen
  • Code-Review und Dokumentation: Entwickler-Teams ohne Cloud-Abhaengigkeit unterstuetzen
  • Support-Vorbereitung: FAQ-Antworten und Textbausteine intern generieren

Grenzen und Einschraenkungen

Ollama ist leistungsfaehig - aber kein Ersatz fuer alle Cloud-KI-Szenarien:

  • Kein Internetzugang: Lokale Modelle haben keinen Zugriff auf aktuelle Informationen.
  • Geschwindigkeit: Auf Standard-Laptop-Hardware ohne GPU ist die Antwortgeschwindigkeit spuerbar langsamer als bei Cloud-Diensten.
  • Modellgroesse: Sehr grosse Modelle (70B+) benoetigen High-End-Hardware. Fuer die meisten Buero-Anwendungsfaelle reichen 7B- bis 8B-Modelle vollstaendig aus.
  • Kein automatisches Update: Neue Modellversionen muessen manuell per ollama pull geladen werden.

Profi-Tipp fuer den Einstieg

Starten Sie mit ollama pull llama3 und testen Sie das Modell eine Woche lang fuer reale Aufgaben aus dem Arbeitsalltag - Texte zusammenfassen, E-Mails formulieren, einfache Code-Snippets. Erst dann entscheiden, ob ein groesseres Modell oder eine GPU-Investition sinnvoll ist.

Fazit

Zusammenfassung
  • Ollama laeuft lokal: keine Cloud, keine API-Kosten, keine Datenweitergabe
  • Installation in unter 5 Minuten - ein Befehl pro Schritt
  • Llama 3 8B ist der beste Einstieg fuer 16 GB RAM, Phi-3 mini fuer 8 GB
  • Open WebUI liefert eine komfortable Browser-Oberflaeche ohne Programmierkenntnisse
  • Ideal fuer DSGVO-sensible Unternehmen mit vertraulichen Daten

Häufige Fragen

Was kostet Ollama?
Ollama selbst ist kostenlos und Open Source. Auch alle gaengigen Modelle wie Llama 3 oder Mistral sind kostenlos verfuegbar. Sie zahlen nur einmalig fuer die Hardware - danach entstehen keine laufenden Kosten.
Welches Modell soll ich als Einsteiger waehlen?
Fuer die meisten Anwendungsfaelle ist Llama 3 8B der beste Einstieg. Er laeuft auf einem normalen Buero-PC mit 16 GB RAM. Mit 8 GB RAM ist Phi-3 mini eine gute Alternative.
Sind meine Daten bei Ollama sicher?
Ja - das ist der entscheidende Vorteil. Alle Daten bleiben auf Ihrem Rechner. Es gibt keine Verbindung zu externen Servern waehrend der Nutzung. Das macht Ollama zur DSGVO-konformen Alternative zu Cloud-KI-Diensten.
Laeuft Ollama auch ohne Internetverbindung?
Ja, nach dem einmaligen Download des Modells ist Ollama vollstaendig offline nutzbar. Kein Internet, kein VPN, keine Cloud-Verbindung erforderlich - ideal fuer mobile Arbeit oder sicherheitskritische Umgebungen.
Wie unterscheidet sich Ollama von ChatGPT?
ChatGPT laeuft auf OpenAI-Servern, erfordert ein Abonnement und uebertraegt Ihre Eingaben an externe Systeme. Ollama laeuft lokal auf Ihrem Rechner, ist kostenlos und uebertraegt keine Daten. Dafuer ist es langsamer und kennt keine aktuellen Informationen aus dem Internet.

War dieser Artikel hilfreich?

Haben Sie weitere Fragen?

Unser Team hilft Ihnen persönlich und direkt weiter.