Digitalisierung & KI

RAG – Retrieval Augmented Generation: KI mit eigenem Unternehmenswissen

10 Min. Lesezeit
Kurze Antwort

RAG verbindet ein Sprachmodell mit einer Dokumentensuche: Relevante Textabschnitte werden zur Laufzeit abgerufen und dem Modell als Kontext übergeben – so antwortet die KI präzise auf Basis Ihrer eigenen Daten.

RAG gibt Sprachmodellen Zugriff auf Ihr aktuelles Unternehmenswissen – und reduziert Halluzinationen dramatisch, weil die KI aus echten Quellen antwortet.

Das Halluzinationsproblem – und warum RAG es löst

Große Sprachmodelle (LLMs) sind auf riesigen Textmengen trainiert – aber dieses Training hat einen Stichtag. Was nach dem Training passiert ist, weiß das Modell nicht. Noch wichtiger: Was in Ihrem Unternehmen passiert, stand nie im Trainingsdatensatz. Fragen Sie ein LLM nach Ihrer aktuellen Preisliste oder dem Inhalt Ihres Arbeitsvertrags, erfindet es eine plausibel klingende Antwort – das nennt man Halluzination.

Retrieval Augmented Generation (RAG) löst dieses Problem, indem es das Sprachmodell mit einer dynamischen Wissensquelle kombiniert. Statt alle Antworten aus dem Trainingsgedächtnis zu ziehen, sucht das System bei jeder Anfrage in Ihren Dokumenten nach relevanten Textabschnitten und übergibt diese als Kontext an das LLM. Das Modell antwortet dann auf Basis dieser konkreten, aktuellen Textpassagen – und kann sogar auf die Quelle verweisen.

Das Ergebnis: deutlich weniger Halluzinationen, aktuelle Informationen ohne Modell-Neutraining und volle Kontrolle darüber, welches Wissen die KI nutzt.

Wie RAG technisch funktioniert: Die vier Phasen

Ein RAG-System arbeitet in zwei Hauptphasen: Indexierung (einmalig) und Retrieval + Generation (bei jeder Anfrage).

Phase 1 – Indexierung: Ihre Dokumente (PDFs, Word-Dateien, Webseiten, Datenbankinhalte) werden in kleinere Textabschnitte aufgeteilt – sogenannte Chunks. Jeder Chunk wird durch ein Embedding-Modell in einen hochdimensionalen Zahlenvektor umgewandelt, der die semantische Bedeutung des Textes repräsentiert. Diese Vektoren werden in einer Vektordatenbank gespeichert.

Phase 2 – Retrieval: Wenn ein Nutzer eine Frage stellt, wird auch die Frage in einen Vektor umgewandelt. Das System sucht in der Vektordatenbank nach den Chunks, deren Vektoren dem Frage-Vektor am ähnlichsten sind – semantische Ähnlichkeit statt simples Stichwort-Matching. Die relevantesten drei bis zehn Chunks werden ausgewählt.

Phase 3 – Generation: Die ausgewählten Chunks werden zusammen mit der ursprünglichen Frage als Kontext an das Sprachmodell übergeben. Das Prompt sieht in etwa so aus: »Beantworte folgende Frage nur auf Basis dieser Textabschnitte: [Chunks]. Frage: [Nutzerfrage]«.

Phase 4 – Antwort mit Quellenangabe: Das LLM formuliert eine Antwort, die sich auf die übergebenen Chunks stützt. Gute RAG-Systeme zeigen dem Nutzer auch, aus welchem Dokument und welcher Seite die Information stammt.

RAG-Komponenten: Was Sie brauchen

  1. Embedding-Modell

    Das Embedding-Modell wandelt Texte in Vektoren um. Bekannte Modelle: OpenAI text-embedding-3-small (günstig, hohe Qualität), Cohere Embed (mehrsprachig, sehr gut für Deutsch), lokale Alternativen wie nomic-embed-text für datenschutzkritische Anwendungen. Das Embedding-Modell muss für Indexierung und Retrieval identisch sein.

  2. Vektordatenbank

    Speichert die Vektoren und ermöglicht schnelle Ähnlichkeitssuche. Gehostete Optionen: Pinecone (einfach zu starten), Weaviate (Open Source, selbst hostbar), Qdrant (performant, datenschutzfreundlich). Wer bereits PostgreSQL nutzt, kann die Erweiterung pgvector einsetzen – kein zusätzlicher Dienst nötig.

  3. Chunking-Strategie

    Wie Sie Dokumente aufteilen, bestimmt die Retrieval-Qualität entscheidend. Zu kleine Chunks verlieren Kontext, zu große Chunks enthalten zu viel Irrelevantes. Typische Chunk-Größen: 256–512 Tokens mit 10–20 % Überlappung zum nächsten Chunk. Für strukturierte Dokumente (Handbücher, FAQs) empfiehlt sich hierarchisches Chunking nach Abschnitten.

  4. LLM für die Generierung

    Das Sprachmodell, das aus den Chunks die Antwort formuliert. Hier können Cloud-Modelle (GPT-4o, Claude 3.5 Sonnet) oder lokale Modelle (Llama 3, Mistral) eingesetzt werden. Lokale Modelle sind für datenschutzkritische Szenarien interessant, erfordern aber leistungsfähige Hardware.

Anwendungsfälle für RAG im Mittelstand

  • Interne Wissensdatenbank: Mitarbeiter stellen Fragen an eine KI, die aus internen Handbüchern, Prozessbeschreibungen und Richtlinien antwortet
  • Produkt- und Handbuch-Assistent: Techniker fragen direkt in natürlicher Sprache nach Montageanleitungen oder Fehlerdiagnosen
  • Vertragsprüfung: Verträge werden indexiert, Einkäufer fragen nach Laufzeiten, Haftungsklauseln oder Kündigungsfristen
  • Support-Bot mit Produktwissen: Kundenanfragen werden automatisch auf Basis aktueller Produktdokumentation beantwortet
  • Compliance-Assistent: Mitarbeiter fragen nach geltenden Vorschriften, die KI antwortet auf Basis der aktuellen Regelwerke

RAG vs. Fine-Tuning: Was ist der Unterschied?

Viele Unternehmen fragen sich, ob sie ein Modell lieber mit ihren Daten fine-tunen sollen, statt RAG einzusetzen. Die Antwort hängt vom Anwendungsfall ab – in den meisten Fällen ist RAG die bessere Wahl.

Fine-Tuning verändert die Gewichte des Modells dauerhaft. Es verbessert Ton, Stil und Domänenwissen – eignet sich aber schlecht für aktuelles Faktenwissen, das sich ändert. Ein feingetuntes Modell weiß nicht, was nach seinem Trainingsschnitt passiert ist, und es kann nicht zuverlässig auf Quellen verweisen. Fine-Tuning ist teuer, zeitaufwendig und muss bei Wissensänderungen wiederholt werden.

RAG ergänzt das Modell zur Laufzeit mit aktuellem Wissen. Neue Dokumente können jederzeit indexiert werden – ohne Modell-Neutraining. Das System kann Quellen nennen, was Vertrauen aufbaut und Fehler nachvollziehbar macht. RAG ist günstiger, flexibler und für die meisten Unternehmensanwendungen die richtige Wahl.

Kombination: Fine-Tuning für Ton und Fachvokabular, RAG für aktuelles Faktenwissen – das ist die leistungsfähigste, aber auch aufwendigste Option für Unternehmen mit hohem Volumen und spezifischen Anforderungen.

Qualität messen: Wie gut ist mein RAG-System?

RAG-Systeme können auf zwei Ebenen versagen: beim Retrieval (werden die richtigen Chunks gefunden?) und bei der Generation (antwortet das LLM korrekt auf Basis der Chunks?). Beide Ebenen müssen separat bewertet werden.

Für die Retrieval-Qualität sind die wichtigsten Metriken: Precision@k (wie viele der k abgerufenen Chunks sind tatsächlich relevant?) und Recall@k (wie viele der relevanten Chunks wurden in den Top-k gefunden?). Für die Generierungs-Qualität prüft man Faithfulness (beruht die Antwort wirklich auf den Chunks, ohne Hinzuerfindungen?) und Answer Relevance (beantwortet die Antwort die gestellte Frage?). Frameworks wie RAGAS oder LlamaIndex Evaluators automatisieren diese Bewertung.

Datenschutz bei RAG

Werden Dokumente mit personenbezogenen Daten indexiert und über Cloud-APIs abgefragt, müssen Sie prüfen, ob ein Auftragsverarbeitungsvertrag (AVV) mit dem API-Anbieter vorliegt. Für besonders sensible Daten (Personalakten, Gesundheitsdaten) empfiehlt sich ein vollständig lokaler RAG-Stack ohne Cloud-API-Aufrufe.

Einstieg ohne Data-Science-Team

LlamaIndex und LangChain bieten RAG-Pipelines mit wenigen Zeilen Code. Wer noch programmierscheuer ist: Anbieter wie Dify, Flowise oder n8n ermöglichen RAG-Setups per Drag-and-Drop. Für einen ersten Prototyp mit internen PDFs reichen oft zwei bis drei Stunden Einrichtungszeit.

Zusammenfassung: RAG für Unternehmen

Zusammenfassung
  • RAG kombiniert Vektordatenbank und Sprachmodell: Bei jeder Anfrage werden relevante Textabschnitte aus Ihren Dokumenten abgerufen und als Kontext an das LLM übergeben
  • Im Vergleich zu Fine-Tuning ist RAG günstiger, aktueller und nachvollziehbarer – für die meisten Unternehmensanwendungen die richtige Wahl
  • Datenschutz ist lösbar: Für sensible Daten gibt es vollständig lokale RAG-Stacks; für den Einstieg genügen Low-Code-Tools wie Dify oder Flowise

Jetzt beraten lassen

Sie möchten Ihre internen Dokumente mit KI durchsuchbar machen? INREMA begleitet Sie bei der Auswahl der richtigen Komponenten, der Datenschutzprüfung und der Implementierung eines RAG-Systems, das zu Ihrer Infrastruktur passt.

Beratung anfragen

Häufige Fragen

Was ist der Unterschied zwischen RAG und einem normalen Chatbot?
Ein normaler Chatbot antwortet aus seinem Trainingsgedächtnis. RAG sucht bei jeder Frage aktiv in Ihren Dokumenten und übergibt die relevanten Textabschnitte als Kontext – so antwortet die KI auf Basis Ihrer echten, aktuellen Unternehmensdaten statt allgemeinem Trainingswissen.
Welche Vektordatenbank eignet sich für den Einstieg?
Für schnellen Einstieg empfiehlt sich Pinecone (gehostet, kein Setup) oder pgvector (wenn PostgreSQL bereits im Einsatz ist). Wer selbst hosten und DSGVO-konform bleiben will, greift zu Qdrant oder Weaviate – beide haben gute Docker-Images.
Wie groß sollten die Chunks bei RAG sein?
Als Faustregel: 256 bis 512 Tokens pro Chunk, mit 10 bis 20 Prozent Überlappung zum nächsten Chunk. Zu kleine Chunks verlieren wichtigen Kontext, zu große enthalten zu viel Irrelevantes. Bei strukturierten Dokumenten (Handbücher, FAQs) empfiehlt sich Chunking nach Abschnitten.
Muss ich bei RAG ein Modell neu trainieren, wenn sich Dokumente ändern?
Nein – das ist einer der größten Vorteile von RAG gegenüber Fine-Tuning. Neue oder geänderte Dokumente werden einfach neu indexiert (Chunking + Embedding), die alten Chunks werden gelöscht oder aktualisiert. Das Sprachmodell selbst bleibt unverändert.

War dieser Artikel hilfreich?

Haben Sie weitere Fragen?

Unser Team hilft Ihnen persönlich und direkt weiter.