Digitalisierung & KI

Datenqualität prüfen bevor KI eingeführt wird: Was wirklich zählt

8 Min. Lesezeit
Kurze Antwort

Vor der KI-Einführung die Datenbasis prüfen: Vollständigkeit, Aktualität, Konsistenz und Zugänglichkeit. Schlechte Daten führen zu falschen KI-Ergebnissen. Ein strukturierter Daten-Audit dauert 2-5 Tage und verhindert monatelange Fehlersuche später.

Garbage in, garbage out: KI-Modelle können keine Qualität erzeugen, die die zugrunde liegenden Daten nicht hergeben. Datenqualität ist keine technische Nebensache — sie entscheidet über Erfolg oder Scheitern des Projekts.

Die häufigste Ursache für gescheiterte KI-Projekte sind nicht schlechte Algorithmen, sondern schlechte Daten. In der Praxis zeigt sich das erst spät: Das Modell ist trainiert, die ersten Ergebnisse kommen rein — und sie ergeben keinen Sinn. Dann beginnt die mühsame Rückwärtssuche durch Datenhistorie und Systeme. Dieser Aufwand ist vermeidbar, wenn vor dem Start eine ehrliche Bestandsaufnahme steht.

Ein strukturierter Daten-Audit vor der KI-Einführung dauert je nach Unternehmensgröße 2 bis 5 Arbeitstage. Er verhindert Monate an Fehlersuche und gibt außerdem Aufschluss darüber, welche KI-Anwendungen überhaupt realistisch sind — und welche besser warten.

Datenqualität ist kein einzelnes Merkmal, sondern ein Bündel aus fünf Dimensionen. Jede davon kann ein KI-Projekt zum Scheitern bringen:

  • Vollständigkeit: Wie viele Datensätze haben fehlende Felder? Ein Kundendatensatz ohne Branche ist für ein Klassifikationsmodell wertlos.
  • Richtigkeit: Stimmen die Werte mit der Realität überein? Falsch eingetragene Umsatzzahlen, Tippfehler in Adressen, veraltete Statusfelder.
  • Aktualität: Wie alt sind die Daten? Ein Prognosemodell auf Basis von Daten aus 2019 liefert 2025 keine verlässlichen Ergebnisse.
  • Konsistenz: Sind gleiche Sachverhalte überall gleich erfasst? GmbH vs. Ges. m. b. H. vs. gmbh — für ein Modell drei verschiedene Dinge.
  • Zugänglichkeit: Können die Daten überhaupt genutzt werden? Papier, gesperrte Silos, fehlende API-Schnittstellen oder rechtliche Beschränkungen machen selbst gute Daten unbrauchbar.
  1. Quellen inventarisieren

    Liste aller Datenquellen erstellen: CRM, ERP, Datenbanken, Excel-Dateien, externe Dienste. Für jede Quelle: Format, Zugriffsweg, Update-Frequenz, Verantwortlicher.

  2. Null-Werte prüfen

    Pro relevanter Spalte den Anteil fehlender Werte ermitteln. Mehr als 20 Prozent fehlende Werte in einem Schlüsselfeld sind ein kritisches Signal.

  3. Alter der Daten prüfen

    Jüngsten und ältesten Datensatz bestimmen. Lücken im Zeitverlauf identifizieren — sie können Modellverzerrungen verursachen.

  4. Inkonsistenzen aufspüren

    Wertausprägungen pro Feld zählen. Schreibvarianten, uneinheitliche Codes, widersprüchliche Einträge aufdecken.

  5. Zugänglichkeit testen

    Kann ein Data Engineer die Daten in einer Testumgebung laden? Wenn nicht, ist das kein Datenproblem — es ist ein Infrastrukturproblem, das zuerst gelöst werden muss.

In der Praxis tauchen dieselben Probleme immer wieder auf:

  • Datensilos ohne API: Informationen liegen in Altsystemen, die keinen programmatischen Zugriff erlauben. Export nur manuell per Excel möglich — damit entfällt Automatisierung.
  • Veraltete Stammdaten: Kundendaten, die seit Jahren nicht gepflegt wurden. Adressen stimmen nicht, Ansprechpartner sind längst gewechselt.
  • Fehlende Labels: Für überwachtes Lernen braucht man gelabelte Beispiele. Oft existieren nur Rohdaten ohne Annotation.
  • Inkonsistente Formate: Datumsfelder mal als 2024-01-15, mal als 15.01.2024, mal als Jan 2024. Vor jedem Training muss normalisiert werden.
  • Rechtliche Einschränkungen: Personenbezogene Daten dürfen nicht ohne weiteres für KI-Training genutzt werden. DSGVO-Prüfung gehört zum Audit.

Was gute Daten bedeutet, hängt vom konkreten KI-Anwendungsfall ab:

  • Klassifikation (z. B. Kundenanfragen kategorisieren): Mindestens 500 Beispiele pro Kategorie, konsistente Labels, max. 5 Prozent fehlende Werte.
  • Prognose (z. B. Umsatz, Nachfrage): Vollständige Zeitreihen ohne Lücken, mindestens 2 Jahre Historie, keine Systemwechsel ohne Markierung.
  • Chatbot / RAG (z. B. interner Wissens-Assistent): Aktuelle Dokumente in maschinenlesbarem Format, klare Struktur, keine widersprüchlichen Aussagen.

Diese Anforderungen sollten vor dem Audit bekannt sein — so weiß das Team, wonach es konkret sucht.

Nach dem Audit folgt eine ehrliche Entscheidung:

KI starten wenn: Vollständigkeit über 85 Prozent in Schlüsselfeldern, Daten jünger als 3 Jahre, Zugriff technisch möglich, keine offenen Rechtsfragen.

Daten zuerst bereinigen wenn: Mehr als 30 Prozent fehlende Werte in zentralen Feldern, Daten aus inkompatiblen Systemen ohne Migrationspfad, fehlende Labels für Trainingsbeispiele, DSGVO-Prüfung noch ausstehend.

Diese Entscheidung ist keine Niederlage — sie verhindert, dass ein KI-Projekt mit falschen Erwartungen startet und nach drei Monaten ohne Ergebnis beendet wird.

Schnelltest für den Einstieg: Nehmen Sie eine repräsentative Stichprobe von 200 Datensätzen aus Ihrer Hauptdatenquelle. Prüfen Sie manuell: Wie viele sind vollständig? Wie viele enthalten offensichtliche Fehler? Wenn mehr als 15 Prozent Probleme haben, ist ein vollständiger Audit vor KI-Start Pflicht.
Zusammenfassung
  • Datenqualität bestimmt KI-Erfolg — schlechte Daten liefern schlechte Ergebnisse, egal wie gut das Modell ist
  • 5 Dimensionen prüfen: Vollständigkeit, Richtigkeit, Aktualität, Konsistenz, Zugänglichkeit
  • Daten-Audit dauert 2-5 Tage und verhindert Monate an Fehlersuche
  • Häufigste Probleme: Silos, veraltete Stammdaten, fehlende Labels, inkonsistente Formate
  • Entscheidung nach Audit: KI starten oder erst Datenbasis bereinigen

Häufige Fragen

Wie lange dauert ein Daten-Audit vor der KI-Einführung?
Bei einem mittelständischen Unternehmen mit 3-5 zentralen Datenquellen dauert ein strukturierter Audit 2-5 Arbeitstage. Das umfasst Quellen inventarisieren, Qualität messen und einen klaren Bericht mit Handlungsempfehlungen. Größere Unternehmen mit vielen Systemen können 2-3 Wochen einplanen.
Was ist der Mindestdatenbestand, den man für KI braucht?
Das hängt vom Anwendungsfall ab. Für einfache Klassifikation sind 500 Beispiele pro Kategorie ein guter Richtwert. Für Prognosemodelle braucht man mindestens 2 Jahre kontinuierliche Zeitreihendaten. Für RAG-Systeme reicht qualitativ hochwertiges Dokumentenmaterial ohne Mindestmenge — hier zählt Qualität mehr als Quantität.
Dürfen wir Kundendaten für KI-Training nutzen?
Grundsätzlich nur mit klarer Rechtsgrundlage nach DSGVO. Für internes Training auf anonymisierten oder aggregierten Daten ist das meist unproblematisch. Sobald personenbezogene Daten ins Training fließen, braucht es eine Datenschutz-Folgenabschätzung und ggf. Einwilligungen. Im Zweifel vor dem Projekt den Datenschutzbeauftragten einbinden.

War dieser Artikel hilfreich?

Haben Sie weitere Fragen?

Unser Team hilft Ihnen persönlich und direkt weiter.