Digitalisierung & KI

RAG aufbauen: Wie Unternehmen eigene Daten in KI-Systeme einbinden

9 Min. Lesezeit
Kurze Antwort

RAG kombiniert ein Sprachmodell mit einer Vektordatenbank Ihrer eigenen Dokumente. Bei jeder Anfrage werden relevante Textausschnitte abgerufen und dem Modell als Kontext übergeben – so antwortet die KI aus Ihren Inhalten, nicht aus dem allgemeinen Training.

Mit RAG antwortet KI nicht aus dem Training – sondern aus Ihren eigenen Dokumenten. Das macht Antworten unternehmensspezifisch, nachvollziehbar und erheblich zuverlässiger.

Was RAG ist und warum es das Halluzinationsproblem löst

Retrieval Augmented Generation – kurz RAG – ist eine Architektur, die ein Sprachmodell mit einer durchsuchbaren Wissensbasis verbindet. Anstatt dem Modell alle Informationen beim Training beizubringen (was für unternehmenseigene Daten schlicht unmöglich ist), wird bei jeder Anfrage dynamisch nach relevanten Inhalten gesucht – und diese werden dem Modell als Kontext mitgegeben.

Das Grundprinzip: Ihre Dokumente werden in kleine Abschnitte (Chunks) aufgeteilt und als mathematische Vektoren gespeichert. Wenn eine Frage gestellt wird, sucht das System nach den semantisch ähnlichsten Abschnitten und übergibt sie zusammen mit der Frage an das Sprachmodell. Das Modell antwortet dann ausschliesslich auf Basis dieser Abschnitte. Halluzinationen entstehen bei RAG immer noch – aber nur dann, wenn die eigenen Dokumente lückenhaft sind. Das ist kontrollierbar.

Voraussetzungen für eine RAG-Implementierung

  • Strukturierte Dokumente: PDFs, Word-Dateien, Webseiteninhalte, Handbücher, Datenbankinhalte – je strukturierter, desto besser die Ergebnisse
  • Ausreichende Dokumentqualität: Veraltete, widersprüchliche oder schlecht formatierte Dokumente erzeugen schlechte RAG-Antworten
  • Embedding-Modell: Wandelt Text in Vektoren um – entweder über OpenAI (text-embedding-3-small), Cohere oder Open-Source-Modelle wie Sentence-Transformers
  • Vektordatenbank: Speichert und durchsucht die Vektoren – Optionen sind pgvector, Chroma, Qdrant, Weaviate oder Pinecone
  • Sprachmodell mit ausreichendem Kontextfenster: Je grösser das Kontextfenster, desto mehr Dokumentabschnitte können gleichzeitig übergeben werden
  • Klare Zugriffsrechte: Nicht alle Mitarbeiter sollen alle Dokumente sehen – RAG-Systeme müssen Zugriffssteuerung unterstützen

RAG Schritt für Schritt aufbauen

  1. Dokumente sammeln und bereinigen

    Inventarisieren Sie alle relevanten Dokumente: Handbücher, FAQs, Prozessbeschreibungen, Produktdaten, Support-Tickets, interne Wikis. Bereinigen Sie Duplikate, entfernen Sie veraltete Inhalte und stellen Sie sicher, dass Formatierung und Struktur konsistent sind. Schlechte Dokumentqualität ist die häufigste Ursache für unbefriedigende RAG-Ergebnisse.

  2. Chunking-Strategie wählen

    Chunking bezeichnet die Aufteilung Ihrer Dokumente in Abschnitte. Empfehlung: 300–500 Tokens pro Chunk mit 50-Token-Überlappung. Für strukturierte Dokumente eignet sich semantisches Chunking entlang von Überschriften besser als feste Zeichenanzahl.

  3. Embedding-Modell wählen

    Für deutschsprachige Inhalte empfehlen sich: OpenAI text-embedding-3-small (gute Qualität, einfache API), multilingual-e5-large (Open Source, besonders gut für Deutsch), oder Cohere Embed v3. Ein Wechsel des Embedding-Modells erfordert später komplettes Re-Embedding aller Dokumente.

  4. Vektordatenbank einrichten

    Für Einsteiger empfiehlt sich Chroma (lokal, einfach zu installieren) oder pgvector (PostgreSQL-Extension). Für Produktivsysteme mit hohem Volumen sind Qdrant oder Weaviate besser geeignet. Pinecone ist die einfachste Cloud-Lösung ohne eigene Infrastruktur.

  5. Retrieval testen und optimieren

    Bevor das Sprachmodell eingebunden wird, testen Sie das Retrieval isoliert: Stellen Sie Testfragen und prüfen Sie, ob die richtigen Dokument-Chunks zurückgegeben werden. Optimieren Sie Chunk-Grösse, Überlappung und die Anzahl zurückgegebener Chunks (top-k).

  6. Sprachmodell einbinden und Prompt formulieren

    Der System-Prompt sollte explizit angeben, dass das Modell ausschliesslich auf Basis der bereitgestellten Quellen antworten soll – und bei fehlenden Informationen klar mitteilen soll, dass die Information nicht in den Dokumenten vorhanden ist.

  7. Qualität kontinuierlich evaluieren

    Erfassen Sie Nutzerfragen und Antworten, identifizieren Sie Lücken in der Wissensbasis und aktualisieren Sie Dokumente regelmässig. Metriken: Answer Relevance, Context Precision, Faithfulness. Frameworks wie RAGAS helfen bei der automatisierten Evaluation.

RAG-Qualität hängt direkt von der Dokumentqualität ab – Garbage in, garbage out. Ein schlecht gepflegtes Dokumentenarchiv erzeugt unzuverlässige RAG-Antworten, egal wie gut das Sprachmodell ist. Dokumenten-Governance ist Voraussetzung, nicht Nachgedanke.
Mit Dify oder LangChain als Framework starten spart Wochen Eigenentwicklung. Dify bietet eine visuelle Oberfläche für RAG-Pipelines und ist auch für Nicht-Entwickler zugänglich. LangChain ist flexibler, aber entwicklerintensiver. Für einen schnellen ersten Prototyp mit eigenen PDFs ist Dify die empfehlenswertere Wahl.

RAG vs. Fine-Tuning: Wann welche Lösung?

RAG ist die richtige Wahl, wenn: Ihre Wissensbasis sich regelmässig ändert, wenn Transparenz wichtig ist (das Modell kann Quellen angeben), wenn die Datenmenge gross und heterogen ist, und wenn Sie schnell starten wollen ohne aufwendiges Training.

Fine-Tuning macht Sinn, wenn: das Modell einen sehr spezifischen Stil oder Ton lernen soll, wenn bestimmte Aufgabentypen konsistent ausgeführt werden müssen, oder wenn das Modell intern anders auf bestimmte Begriffe reagieren soll. In der Praxis kombinieren viele Unternehmen beide Ansätze: Fine-Tuning für Stil und Verhalten, RAG für aktuelle Fachinhalte.

Zusammenfassung
  • RAG verbindet Sprachmodelle mit Ihren eigenen Dokumenten – Antworten kommen aus Ihren Quellen, nicht aus dem Training
  • Die Schritte: Dokumente bereinigen, chunken, embedden, in Vektordatenbank speichern, Retrieval testen, Modell einbinden
  • Dokumentqualität ist entscheidend – schlechte Dokumente erzeugen schlechte RAG-Antworten
  • Dify oder LangChain als Framework nutzen – spart erheblich Entwicklungsaufwand

Sie wollen eigene Unternehmensdaten in ein KI-System einbinden? Wir begleiten Sie von der Dokumenten-Analyse über die RAG-Architektur bis zum ersten produktiven System.

RAG-Beratung anfragen

Häufige Fragen

Wie viele Dokumente brauche ich mindestens für ein sinnvolles RAG-System?
Es gibt keine Mindestzahl. Entscheidend ist die Qualität, nicht die Quantität. Ein RAG-System mit 20 sorgfältig gepflegten Dokumenten liefert oft bessere Ergebnisse als eines mit 2.000 unstrukturierten Altdateien.
Kann RAG auch mit deutschen Dokumenten und deutschen Fragen funktionieren?
Ja – mit dem richtigen Embedding-Modell. Für deutschsprachige Inhalte empfehlen sich multilingual-e5-large oder OpenAI text-embedding-3-small, die beide sehr gute Ergebnisse mit deutschen Texten liefern.
Wie lange dauert die Einrichtung eines RAG-Systems?
Ein erster Prototyp mit Dify und vorhandenen PDFs ist in einem Arbeitstag aufgebaut. Ein produktionsreifes System mit Zugriffsrechten, Evaluation und CI/CD-Pipeline dauert typischerweise 2–6 Wochen je nach Komplexität.
Was kostet ein RAG-System im laufenden Betrieb?
Mit OpenAI-Embedding und GPT-4o-mini als Modell liegen die Kosten für ein mittelständisches Unternehmen typischerweise im Bereich von 50–300 Euro pro Monat – abhängig vom Anfragevolumen.

War dieser Artikel hilfreich?

Haben Sie weitere Fragen?

Unser Team hilft Ihnen persönlich und direkt weiter.