Vor der KI-Einführung die Datenbasis prüfen: Vollständigkeit, Aktualität, Konsistenz und Zugänglichkeit. Schlechte Daten führen zu falschen KI-Ergebnissen. Ein strukturierter Daten-Audit dauert 2-5 Tage und verhindert monatelange Fehlersuche später.
Garbage in, garbage out: KI-Modelle können keine Qualität erzeugen, die die zugrunde liegenden Daten nicht hergeben. Datenqualität ist keine technische Nebensache — sie entscheidet über Erfolg oder Scheitern des Projekts.
Die häufigste Ursache für gescheiterte KI-Projekte sind nicht schlechte Algorithmen, sondern schlechte Daten. In der Praxis zeigt sich das erst spät: Das Modell ist trainiert, die ersten Ergebnisse kommen rein — und sie ergeben keinen Sinn. Dann beginnt die mühsame Rückwärtssuche durch Datenhistorie und Systeme. Dieser Aufwand ist vermeidbar, wenn vor dem Start eine ehrliche Bestandsaufnahme steht.
Ein strukturierter Daten-Audit vor der KI-Einführung dauert je nach Unternehmensgröße 2 bis 5 Arbeitstage. Er verhindert Monate an Fehlersuche und gibt außerdem Aufschluss darüber, welche KI-Anwendungen überhaupt realistisch sind — und welche besser warten.
Datenqualität ist kein einzelnes Merkmal, sondern ein Bündel aus fünf Dimensionen. Jede davon kann ein KI-Projekt zum Scheitern bringen:
- Vollständigkeit: Wie viele Datensätze haben fehlende Felder? Ein Kundendatensatz ohne Branche ist für ein Klassifikationsmodell wertlos.
- Richtigkeit: Stimmen die Werte mit der Realität überein? Falsch eingetragene Umsatzzahlen, Tippfehler in Adressen, veraltete Statusfelder.
- Aktualität: Wie alt sind die Daten? Ein Prognosemodell auf Basis von Daten aus 2019 liefert 2025 keine verlässlichen Ergebnisse.
- Konsistenz: Sind gleiche Sachverhalte überall gleich erfasst? GmbH vs. Ges. m. b. H. vs. gmbh — für ein Modell drei verschiedene Dinge.
- Zugänglichkeit: Können die Daten überhaupt genutzt werden? Papier, gesperrte Silos, fehlende API-Schnittstellen oder rechtliche Beschränkungen machen selbst gute Daten unbrauchbar.
-
Quellen inventarisieren
Liste aller Datenquellen erstellen: CRM, ERP, Datenbanken, Excel-Dateien, externe Dienste. Für jede Quelle: Format, Zugriffsweg, Update-Frequenz, Verantwortlicher.
-
Null-Werte prüfen
Pro relevanter Spalte den Anteil fehlender Werte ermitteln. Mehr als 20 Prozent fehlende Werte in einem Schlüsselfeld sind ein kritisches Signal.
-
Alter der Daten prüfen
Jüngsten und ältesten Datensatz bestimmen. Lücken im Zeitverlauf identifizieren — sie können Modellverzerrungen verursachen.
-
Inkonsistenzen aufspüren
Wertausprägungen pro Feld zählen. Schreibvarianten, uneinheitliche Codes, widersprüchliche Einträge aufdecken.
-
Zugänglichkeit testen
Kann ein Data Engineer die Daten in einer Testumgebung laden? Wenn nicht, ist das kein Datenproblem — es ist ein Infrastrukturproblem, das zuerst gelöst werden muss.
In der Praxis tauchen dieselben Probleme immer wieder auf:
- Datensilos ohne API: Informationen liegen in Altsystemen, die keinen programmatischen Zugriff erlauben. Export nur manuell per Excel möglich — damit entfällt Automatisierung.
- Veraltete Stammdaten: Kundendaten, die seit Jahren nicht gepflegt wurden. Adressen stimmen nicht, Ansprechpartner sind längst gewechselt.
- Fehlende Labels: Für überwachtes Lernen braucht man gelabelte Beispiele. Oft existieren nur Rohdaten ohne Annotation.
- Inkonsistente Formate: Datumsfelder mal als 2024-01-15, mal als 15.01.2024, mal als Jan 2024. Vor jedem Training muss normalisiert werden.
- Rechtliche Einschränkungen: Personenbezogene Daten dürfen nicht ohne weiteres für KI-Training genutzt werden. DSGVO-Prüfung gehört zum Audit.
Was gute Daten bedeutet, hängt vom konkreten KI-Anwendungsfall ab:
- Klassifikation (z. B. Kundenanfragen kategorisieren): Mindestens 500 Beispiele pro Kategorie, konsistente Labels, max. 5 Prozent fehlende Werte.
- Prognose (z. B. Umsatz, Nachfrage): Vollständige Zeitreihen ohne Lücken, mindestens 2 Jahre Historie, keine Systemwechsel ohne Markierung.
- Chatbot / RAG (z. B. interner Wissens-Assistent): Aktuelle Dokumente in maschinenlesbarem Format, klare Struktur, keine widersprüchlichen Aussagen.
Diese Anforderungen sollten vor dem Audit bekannt sein — so weiß das Team, wonach es konkret sucht.
Nach dem Audit folgt eine ehrliche Entscheidung:
KI starten wenn: Vollständigkeit über 85 Prozent in Schlüsselfeldern, Daten jünger als 3 Jahre, Zugriff technisch möglich, keine offenen Rechtsfragen.
Daten zuerst bereinigen wenn: Mehr als 30 Prozent fehlende Werte in zentralen Feldern, Daten aus inkompatiblen Systemen ohne Migrationspfad, fehlende Labels für Trainingsbeispiele, DSGVO-Prüfung noch ausstehend.
Diese Entscheidung ist keine Niederlage — sie verhindert, dass ein KI-Projekt mit falschen Erwartungen startet und nach drei Monaten ohne Ergebnis beendet wird.
- Datenqualität bestimmt KI-Erfolg — schlechte Daten liefern schlechte Ergebnisse, egal wie gut das Modell ist
- 5 Dimensionen prüfen: Vollständigkeit, Richtigkeit, Aktualität, Konsistenz, Zugänglichkeit
- Daten-Audit dauert 2-5 Tage und verhindert Monate an Fehlersuche
- Häufigste Probleme: Silos, veraltete Stammdaten, fehlende Labels, inkonsistente Formate
- Entscheidung nach Audit: KI starten oder erst Datenbasis bereinigen
Häufige Fragen
Wie lange dauert ein Daten-Audit vor der KI-Einführung?
Was ist der Mindestdatenbestand, den man für KI braucht?
Dürfen wir Kundendaten für KI-Training nutzen?
War dieser Artikel hilfreich?