RAG verbindet ein Sprachmodell mit einer Dokumentensuche: Relevante Textabschnitte werden zur Laufzeit abgerufen und dem Modell als Kontext übergeben – so antwortet die KI präzise auf Basis Ihrer eigenen Daten.
RAG gibt Sprachmodellen Zugriff auf Ihr aktuelles Unternehmenswissen – und reduziert Halluzinationen dramatisch, weil die KI aus echten Quellen antwortet.
Das Halluzinationsproblem – und warum RAG es löst
Große Sprachmodelle (LLMs) sind auf riesigen Textmengen trainiert – aber dieses Training hat einen Stichtag. Was nach dem Training passiert ist, weiß das Modell nicht. Noch wichtiger: Was in Ihrem Unternehmen passiert, stand nie im Trainingsdatensatz. Fragen Sie ein LLM nach Ihrer aktuellen Preisliste oder dem Inhalt Ihres Arbeitsvertrags, erfindet es eine plausibel klingende Antwort – das nennt man Halluzination.
Retrieval Augmented Generation (RAG) löst dieses Problem, indem es das Sprachmodell mit einer dynamischen Wissensquelle kombiniert. Statt alle Antworten aus dem Trainingsgedächtnis zu ziehen, sucht das System bei jeder Anfrage in Ihren Dokumenten nach relevanten Textabschnitten und übergibt diese als Kontext an das LLM. Das Modell antwortet dann auf Basis dieser konkreten, aktuellen Textpassagen – und kann sogar auf die Quelle verweisen.
Das Ergebnis: deutlich weniger Halluzinationen, aktuelle Informationen ohne Modell-Neutraining und volle Kontrolle darüber, welches Wissen die KI nutzt.
Wie RAG technisch funktioniert: Die vier Phasen
Ein RAG-System arbeitet in zwei Hauptphasen: Indexierung (einmalig) und Retrieval + Generation (bei jeder Anfrage).
Phase 1 – Indexierung: Ihre Dokumente (PDFs, Word-Dateien, Webseiten, Datenbankinhalte) werden in kleinere Textabschnitte aufgeteilt – sogenannte Chunks. Jeder Chunk wird durch ein Embedding-Modell in einen hochdimensionalen Zahlenvektor umgewandelt, der die semantische Bedeutung des Textes repräsentiert. Diese Vektoren werden in einer Vektordatenbank gespeichert.
Phase 2 – Retrieval: Wenn ein Nutzer eine Frage stellt, wird auch die Frage in einen Vektor umgewandelt. Das System sucht in der Vektordatenbank nach den Chunks, deren Vektoren dem Frage-Vektor am ähnlichsten sind – semantische Ähnlichkeit statt simples Stichwort-Matching. Die relevantesten drei bis zehn Chunks werden ausgewählt.
Phase 3 – Generation: Die ausgewählten Chunks werden zusammen mit der ursprünglichen Frage als Kontext an das Sprachmodell übergeben. Das Prompt sieht in etwa so aus: »Beantworte folgende Frage nur auf Basis dieser Textabschnitte: [Chunks]. Frage: [Nutzerfrage]«.
Phase 4 – Antwort mit Quellenangabe: Das LLM formuliert eine Antwort, die sich auf die übergebenen Chunks stützt. Gute RAG-Systeme zeigen dem Nutzer auch, aus welchem Dokument und welcher Seite die Information stammt.
RAG-Komponenten: Was Sie brauchen
-
Embedding-Modell
Das Embedding-Modell wandelt Texte in Vektoren um. Bekannte Modelle: OpenAI text-embedding-3-small (günstig, hohe Qualität), Cohere Embed (mehrsprachig, sehr gut für Deutsch), lokale Alternativen wie nomic-embed-text für datenschutzkritische Anwendungen. Das Embedding-Modell muss für Indexierung und Retrieval identisch sein.
-
Vektordatenbank
Speichert die Vektoren und ermöglicht schnelle Ähnlichkeitssuche. Gehostete Optionen: Pinecone (einfach zu starten), Weaviate (Open Source, selbst hostbar), Qdrant (performant, datenschutzfreundlich). Wer bereits PostgreSQL nutzt, kann die Erweiterung pgvector einsetzen – kein zusätzlicher Dienst nötig.
-
Chunking-Strategie
Wie Sie Dokumente aufteilen, bestimmt die Retrieval-Qualität entscheidend. Zu kleine Chunks verlieren Kontext, zu große Chunks enthalten zu viel Irrelevantes. Typische Chunk-Größen: 256–512 Tokens mit 10–20 % Überlappung zum nächsten Chunk. Für strukturierte Dokumente (Handbücher, FAQs) empfiehlt sich hierarchisches Chunking nach Abschnitten.
-
LLM für die Generierung
Das Sprachmodell, das aus den Chunks die Antwort formuliert. Hier können Cloud-Modelle (GPT-4o, Claude 3.5 Sonnet) oder lokale Modelle (Llama 3, Mistral) eingesetzt werden. Lokale Modelle sind für datenschutzkritische Szenarien interessant, erfordern aber leistungsfähige Hardware.
Anwendungsfälle für RAG im Mittelstand
- Interne Wissensdatenbank: Mitarbeiter stellen Fragen an eine KI, die aus internen Handbüchern, Prozessbeschreibungen und Richtlinien antwortet
- Produkt- und Handbuch-Assistent: Techniker fragen direkt in natürlicher Sprache nach Montageanleitungen oder Fehlerdiagnosen
- Vertragsprüfung: Verträge werden indexiert, Einkäufer fragen nach Laufzeiten, Haftungsklauseln oder Kündigungsfristen
- Support-Bot mit Produktwissen: Kundenanfragen werden automatisch auf Basis aktueller Produktdokumentation beantwortet
- Compliance-Assistent: Mitarbeiter fragen nach geltenden Vorschriften, die KI antwortet auf Basis der aktuellen Regelwerke
RAG vs. Fine-Tuning: Was ist der Unterschied?
Viele Unternehmen fragen sich, ob sie ein Modell lieber mit ihren Daten fine-tunen sollen, statt RAG einzusetzen. Die Antwort hängt vom Anwendungsfall ab – in den meisten Fällen ist RAG die bessere Wahl.
Fine-Tuning verändert die Gewichte des Modells dauerhaft. Es verbessert Ton, Stil und Domänenwissen – eignet sich aber schlecht für aktuelles Faktenwissen, das sich ändert. Ein feingetuntes Modell weiß nicht, was nach seinem Trainingsschnitt passiert ist, und es kann nicht zuverlässig auf Quellen verweisen. Fine-Tuning ist teuer, zeitaufwendig und muss bei Wissensänderungen wiederholt werden.
RAG ergänzt das Modell zur Laufzeit mit aktuellem Wissen. Neue Dokumente können jederzeit indexiert werden – ohne Modell-Neutraining. Das System kann Quellen nennen, was Vertrauen aufbaut und Fehler nachvollziehbar macht. RAG ist günstiger, flexibler und für die meisten Unternehmensanwendungen die richtige Wahl.
Kombination: Fine-Tuning für Ton und Fachvokabular, RAG für aktuelles Faktenwissen – das ist die leistungsfähigste, aber auch aufwendigste Option für Unternehmen mit hohem Volumen und spezifischen Anforderungen.
Qualität messen: Wie gut ist mein RAG-System?
RAG-Systeme können auf zwei Ebenen versagen: beim Retrieval (werden die richtigen Chunks gefunden?) und bei der Generation (antwortet das LLM korrekt auf Basis der Chunks?). Beide Ebenen müssen separat bewertet werden.
Für die Retrieval-Qualität sind die wichtigsten Metriken: Precision@k (wie viele der k abgerufenen Chunks sind tatsächlich relevant?) und Recall@k (wie viele der relevanten Chunks wurden in den Top-k gefunden?). Für die Generierungs-Qualität prüft man Faithfulness (beruht die Antwort wirklich auf den Chunks, ohne Hinzuerfindungen?) und Answer Relevance (beantwortet die Antwort die gestellte Frage?). Frameworks wie RAGAS oder LlamaIndex Evaluators automatisieren diese Bewertung.
Datenschutz bei RAG
Einstieg ohne Data-Science-Team
Zusammenfassung: RAG für Unternehmen
- RAG kombiniert Vektordatenbank und Sprachmodell: Bei jeder Anfrage werden relevante Textabschnitte aus Ihren Dokumenten abgerufen und als Kontext an das LLM übergeben
- Im Vergleich zu Fine-Tuning ist RAG günstiger, aktueller und nachvollziehbarer – für die meisten Unternehmensanwendungen die richtige Wahl
- Datenschutz ist lösbar: Für sensible Daten gibt es vollständig lokale RAG-Stacks; für den Einstieg genügen Low-Code-Tools wie Dify oder Flowise
Jetzt beraten lassen
Sie möchten Ihre internen Dokumente mit KI durchsuchbar machen? INREMA begleitet Sie bei der Auswahl der richtigen Komponenten, der Datenschutzprüfung und der Implementierung eines RAG-Systems, das zu Ihrer Infrastruktur passt.
Beratung anfragenHäufige Fragen
Was ist der Unterschied zwischen RAG und einem normalen Chatbot?
Welche Vektordatenbank eignet sich für den Einstieg?
Wie groß sollten die Chunks bei RAG sein?
Muss ich bei RAG ein Modell neu trainieren, wenn sich Dokumente ändern?
War dieser Artikel hilfreich?