DatenqualitÃ¤t prÃ¼fen bevor KI eingefÃ¼hrt wird: Was wirklich zÃ¤hlt

Garbage in, garbage out: KI-Modelle kÃ¶nnen keine QualitÃ¤t erzeugen, die die zugrunde liegenden Daten nicht hergeben. DatenqualitÃ¤t ist keine technische Nebensache â€” sie entscheidet Ã¼ber Erfolg oder Scheitern des Projekts.

Die hÃ¤ufigste Ursache fÃ¼r gescheiterte KI-Projekte sind nicht schlechte Algorithmen, sondern schlechte Daten. In der Praxis zeigt sich das erst spÃ¤t: Das Modell ist trainiert, die ersten Ergebnisse kommen rein â€” und sie ergeben keinen Sinn. Dann beginnt die mÃ¼hsame RÃ¼ckwÃ¤rtssuche durch Datenhistorie und Systeme. Dieser Aufwand ist vermeidbar, wenn vor dem Start eine ehrliche Bestandsaufnahme steht.

Ein strukturierter Daten-Audit vor der KI-EinfÃ¼hrung dauert je nach UnternehmensgrÃ¶ÃŸe 2 bis 5 Arbeitstage. Er verhindert Monate an Fehlersuche und gibt auÃŸerdem Aufschluss darÃ¼ber, welche KI-Anwendungen Ã¼berhaupt realistisch sind â€” und welche besser warten.

DatenqualitÃ¤t ist kein einzelnes Merkmal, sondern ein BÃ¼ndel aus fÃ¼nf Dimensionen. Jede davon kann ein KI-Projekt zum Scheitern bringen:

VollstÃ¤ndigkeit: Wie viele DatensÃ¤tze haben fehlende Felder? Ein Kundendatensatz ohne Branche ist fÃ¼r ein Klassifikationsmodell wertlos.
Richtigkeit: Stimmen die Werte mit der RealitÃ¤t Ã¼berein? Falsch eingetragene Umsatzzahlen, Tippfehler in Adressen, veraltete Statusfelder.
AktualitÃ¤t: Wie alt sind die Daten? Ein Prognosemodell auf Basis von Daten aus 2019 liefert 2025 keine verlÃ¤sslichen Ergebnisse.
Konsistenz: Sind gleiche Sachverhalte Ã¼berall gleich erfasst? GmbH vs. Ges. m. b. H. vs. gmbh â€” fÃ¼r ein Modell drei verschiedene Dinge.
ZugÃ¤nglichkeit: KÃ¶nnen die Daten Ã¼berhaupt genutzt werden? Papier, gesperrte Silos, fehlende API-Schnittstellen oder rechtliche BeschrÃ¤nkungen machen selbst gute Daten unbrauchbar.

Quellen inventarisieren
Liste aller Datenquellen erstellen: CRM, ERP, Datenbanken, Excel-Dateien, externe Dienste. FÃ¼r jede Quelle: Format, Zugriffsweg, Update-Frequenz, Verantwortlicher.
Null-Werte prÃ¼fen
Pro relevanter Spalte den Anteil fehlender Werte ermitteln. Mehr als 20 Prozent fehlende Werte in einem SchlÃ¼sselfeld sind ein kritisches Signal.
Alter der Daten prÃ¼fen
JÃ¼ngsten und Ã¤ltesten Datensatz bestimmen. LÃ¼cken im Zeitverlauf identifizieren â€” sie kÃ¶nnen Modellverzerrungen verursachen.
Inkonsistenzen aufspÃ¼ren
WertausprÃ¤gungen pro Feld zÃ¤hlen. Schreibvarianten, uneinheitliche Codes, widersprÃ¼chliche EintrÃ¤ge aufdecken.
ZugÃ¤nglichkeit testen
Kann ein Data Engineer die Daten in einer Testumgebung laden? Wenn nicht, ist das kein Datenproblem â€” es ist ein Infrastrukturproblem, das zuerst gelÃ¶st werden muss.

In der Praxis tauchen dieselben Probleme immer wieder auf:

Datensilos ohne API: Informationen liegen in Altsystemen, die keinen programmatischen Zugriff erlauben. Export nur manuell per Excel mÃ¶glich â€” damit entfÃ¤llt Automatisierung.
Veraltete Stammdaten: Kundendaten, die seit Jahren nicht gepflegt wurden. Adressen stimmen nicht, Ansprechpartner sind lÃ¤ngst gewechselt.
Fehlende Labels: FÃ¼r Ã¼berwachtes Lernen braucht man gelabelte Beispiele. Oft existieren nur Rohdaten ohne Annotation.
Inkonsistente Formate: Datumsfelder mal als 2024-01-15, mal als 15.01.2024, mal als Jan 2024. Vor jedem Training muss normalisiert werden.
Rechtliche EinschrÃ¤nkungen: Personenbezogene Daten dÃ¼rfen nicht ohne weiteres fÃ¼r KI-Training genutzt werden. DSGVO-PrÃ¼fung gehÃ¶rt zum Audit.

Was gute Daten bedeutet, hÃ¤ngt vom konkreten KI-Anwendungsfall ab:

Klassifikation (z. B. Kundenanfragen kategorisieren): Mindestens 500 Beispiele pro Kategorie, konsistente Labels, max. 5 Prozent fehlende Werte.
Prognose (z. B. Umsatz, Nachfrage): VollstÃ¤ndige Zeitreihen ohne LÃ¼cken, mindestens 2 Jahre Historie, keine Systemwechsel ohne Markierung.
Chatbot / RAG (z. B. interner Wissens-Assistent): Aktuelle Dokumente in maschinenlesbarem Format, klare Struktur, keine widersprÃ¼chlichen Aussagen.

Diese Anforderungen sollten vor dem Audit bekannt sein â€” so weiÃŸ das Team, wonach es konkret sucht.

Nach dem Audit folgt eine ehrliche Entscheidung:

KI starten wenn: VollstÃ¤ndigkeit Ã¼ber 85 Prozent in SchlÃ¼sselfeldern, Daten jÃ¼nger als 3 Jahre, Zugriff technisch mÃ¶glich, keine offenen Rechtsfragen.

Daten zuerst bereinigen wenn: Mehr als 30 Prozent fehlende Werte in zentralen Feldern, Daten aus inkompatiblen Systemen ohne Migrationspfad, fehlende Labels fÃ¼r Trainingsbeispiele, DSGVO-PrÃ¼fung noch ausstehend.

Diese Entscheidung ist keine Niederlage â€” sie verhindert, dass ein KI-Projekt mit falschen Erwartungen startet und nach drei Monaten ohne Ergebnis beendet wird.

Schnelltest fÃ¼r den Einstieg: Nehmen Sie eine reprÃ¤sentative Stichprobe von 200 DatensÃ¤tzen aus Ihrer Hauptdatenquelle. PrÃ¼fen Sie manuell: Wie viele sind vollstÃ¤ndig? Wie viele enthalten offensichtliche Fehler? Wenn mehr als 15 Prozent Probleme haben, ist ein vollstÃ¤ndiger Audit vor KI-Start Pflicht.

Zusammenfassung

DatenqualitÃ¤t bestimmt KI-Erfolg â€” schlechte Daten liefern schlechte Ergebnisse, egal wie gut das Modell ist
5 Dimensionen prÃ¼fen: VollstÃ¤ndigkeit, Richtigkeit, AktualitÃ¤t, Konsistenz, ZugÃ¤nglichkeit
Daten-Audit dauert 2-5 Tage und verhindert Monate an Fehlersuche
HÃ¤ufigste Probleme: Silos, veraltete Stammdaten, fehlende Labels, inkonsistente Formate
Entscheidung nach Audit: KI starten oder erst Datenbasis bereinigen

DatenqualitÃ¤t prÃ¼fen bevor KI eingefÃ¼hrt wird: Was wirklich zÃ¤hlt

Häufige Fragen

Haben Sie weitere Fragen?