RAG kombiniert ein Sprachmodell mit einer Vektordatenbank Ihrer eigenen Dokumente. Bei jeder Anfrage werden relevante Textausschnitte abgerufen und dem Modell als Kontext übergeben – so antwortet die KI aus Ihren Inhalten, nicht aus dem allgemeinen Training.
Mit RAG antwortet KI nicht aus dem Training – sondern aus Ihren eigenen Dokumenten. Das macht Antworten unternehmensspezifisch, nachvollziehbar und erheblich zuverlässiger.
Was RAG ist und warum es das Halluzinationsproblem löst
Retrieval Augmented Generation – kurz RAG – ist eine Architektur, die ein Sprachmodell mit einer durchsuchbaren Wissensbasis verbindet. Anstatt dem Modell alle Informationen beim Training beizubringen (was für unternehmenseigene Daten schlicht unmöglich ist), wird bei jeder Anfrage dynamisch nach relevanten Inhalten gesucht – und diese werden dem Modell als Kontext mitgegeben.
Das Grundprinzip: Ihre Dokumente werden in kleine Abschnitte (Chunks) aufgeteilt und als mathematische Vektoren gespeichert. Wenn eine Frage gestellt wird, sucht das System nach den semantisch ähnlichsten Abschnitten und übergibt sie zusammen mit der Frage an das Sprachmodell. Das Modell antwortet dann ausschliesslich auf Basis dieser Abschnitte. Halluzinationen entstehen bei RAG immer noch – aber nur dann, wenn die eigenen Dokumente lückenhaft sind. Das ist kontrollierbar.
Voraussetzungen für eine RAG-Implementierung
- Strukturierte Dokumente: PDFs, Word-Dateien, Webseiteninhalte, Handbücher, Datenbankinhalte – je strukturierter, desto besser die Ergebnisse
- Ausreichende Dokumentqualität: Veraltete, widersprüchliche oder schlecht formatierte Dokumente erzeugen schlechte RAG-Antworten
- Embedding-Modell: Wandelt Text in Vektoren um – entweder über OpenAI (text-embedding-3-small), Cohere oder Open-Source-Modelle wie Sentence-Transformers
- Vektordatenbank: Speichert und durchsucht die Vektoren – Optionen sind pgvector, Chroma, Qdrant, Weaviate oder Pinecone
- Sprachmodell mit ausreichendem Kontextfenster: Je grösser das Kontextfenster, desto mehr Dokumentabschnitte können gleichzeitig übergeben werden
- Klare Zugriffsrechte: Nicht alle Mitarbeiter sollen alle Dokumente sehen – RAG-Systeme müssen Zugriffssteuerung unterstützen
RAG Schritt für Schritt aufbauen
-
Dokumente sammeln und bereinigen
Inventarisieren Sie alle relevanten Dokumente: Handbücher, FAQs, Prozessbeschreibungen, Produktdaten, Support-Tickets, interne Wikis. Bereinigen Sie Duplikate, entfernen Sie veraltete Inhalte und stellen Sie sicher, dass Formatierung und Struktur konsistent sind. Schlechte Dokumentqualität ist die häufigste Ursache für unbefriedigende RAG-Ergebnisse.
-
Chunking-Strategie wählen
Chunking bezeichnet die Aufteilung Ihrer Dokumente in Abschnitte. Empfehlung: 300–500 Tokens pro Chunk mit 50-Token-Überlappung. Für strukturierte Dokumente eignet sich semantisches Chunking entlang von Überschriften besser als feste Zeichenanzahl.
-
Embedding-Modell wählen
Für deutschsprachige Inhalte empfehlen sich: OpenAI text-embedding-3-small (gute Qualität, einfache API), multilingual-e5-large (Open Source, besonders gut für Deutsch), oder Cohere Embed v3. Ein Wechsel des Embedding-Modells erfordert später komplettes Re-Embedding aller Dokumente.
-
Vektordatenbank einrichten
Für Einsteiger empfiehlt sich Chroma (lokal, einfach zu installieren) oder pgvector (PostgreSQL-Extension). Für Produktivsysteme mit hohem Volumen sind Qdrant oder Weaviate besser geeignet. Pinecone ist die einfachste Cloud-Lösung ohne eigene Infrastruktur.
-
Retrieval testen und optimieren
Bevor das Sprachmodell eingebunden wird, testen Sie das Retrieval isoliert: Stellen Sie Testfragen und prüfen Sie, ob die richtigen Dokument-Chunks zurückgegeben werden. Optimieren Sie Chunk-Grösse, Überlappung und die Anzahl zurückgegebener Chunks (top-k).
-
Sprachmodell einbinden und Prompt formulieren
Der System-Prompt sollte explizit angeben, dass das Modell ausschliesslich auf Basis der bereitgestellten Quellen antworten soll – und bei fehlenden Informationen klar mitteilen soll, dass die Information nicht in den Dokumenten vorhanden ist.
-
Qualität kontinuierlich evaluieren
Erfassen Sie Nutzerfragen und Antworten, identifizieren Sie Lücken in der Wissensbasis und aktualisieren Sie Dokumente regelmässig. Metriken: Answer Relevance, Context Precision, Faithfulness. Frameworks wie RAGAS helfen bei der automatisierten Evaluation.
RAG vs. Fine-Tuning: Wann welche Lösung?
RAG ist die richtige Wahl, wenn: Ihre Wissensbasis sich regelmässig ändert, wenn Transparenz wichtig ist (das Modell kann Quellen angeben), wenn die Datenmenge gross und heterogen ist, und wenn Sie schnell starten wollen ohne aufwendiges Training.
Fine-Tuning macht Sinn, wenn: das Modell einen sehr spezifischen Stil oder Ton lernen soll, wenn bestimmte Aufgabentypen konsistent ausgeführt werden müssen, oder wenn das Modell intern anders auf bestimmte Begriffe reagieren soll. In der Praxis kombinieren viele Unternehmen beide Ansätze: Fine-Tuning für Stil und Verhalten, RAG für aktuelle Fachinhalte.
- RAG verbindet Sprachmodelle mit Ihren eigenen Dokumenten – Antworten kommen aus Ihren Quellen, nicht aus dem Training
- Die Schritte: Dokumente bereinigen, chunken, embedden, in Vektordatenbank speichern, Retrieval testen, Modell einbinden
- Dokumentqualität ist entscheidend – schlechte Dokumente erzeugen schlechte RAG-Antworten
- Dify oder LangChain als Framework nutzen – spart erheblich Entwicklungsaufwand
Sie wollen eigene Unternehmensdaten in ein KI-System einbinden? Wir begleiten Sie von der Dokumenten-Analyse über die RAG-Architektur bis zum ersten produktiven System.
RAG-Beratung anfragenHäufige Fragen
Wie viele Dokumente brauche ich mindestens für ein sinnvolles RAG-System?
Kann RAG auch mit deutschen Dokumenten und deutschen Fragen funktionieren?
Wie lange dauert die Einrichtung eines RAG-Systems?
Was kostet ein RAG-System im laufenden Betrieb?
War dieser Artikel hilfreich?