Datenbereinigung als erster Schritt für saubere Analysen

Datenbereinigung
Inhalt
Bild von Swen Göllner
Swen Göllner

Autor

Wenn Du auf dem Smartphone bereits einmal einen doppelten Kontakt zusammengeführt hast, dann hast Du Dich erfolgreich in der Datenbereinigung betätigt. Auf die Größe von Unternehmen gedacht, wird schnell klar, dass darin sehr viel Aufwand schlummert – auch, weil hier die Datenqualität stärkere Auswirkungen hat als eine doppelte Telefonnummer im privaten Handy.

Was Datenbereinigung auf Unternehmens-Ebene ist, wie sie abläuft und was dabei helfen kann, zeigen wir Dir in diesem Artikel.

Was ist Datenbereinigung?

Datenbereinigung wird auch Data Cleaning, Data Scrubbing oder Datenhygiene bezeichnet, wobei jeweils feine Unterschiede bestehen, auf die wir noch eingehen werden. Insgesamt ist die Datenbereinigung der Prozess, Datenfehler zu finden und zu tilgen. Das Ergebnis sollen einwandfrei saubere Daten sein, die bereit für die Weiterverarbeitung sind.

Daten sind typischerweise fehlerhaft, wenn sie:

  • unvollständig
  • redundant
  • inkonsistent sind.

Das Ziel ist, Daten in hoher Qualität und Konsistenz zu erhalten, sodass sie bereit für die nachgelagerten Prozesse (z. B. Analysen, Berichte oder Machine-Learning-Modelle) sind.

Abgrenzung: Data Cleansing vs. Data Cleaning vs. Data Scrubbing

In der Praxis werden die Begriffe oft synonym verwendet und bedeuten im Kern „Daten bereinigen“. Im Detail bestehen aber leichte Unterschiede:

  • Data Cleansing: Wird häufig als Überbegriff verwendet. Umfasst alle Prozesse und Strategien, um die Datenqualität zu verbessern. Hier geht es mehr um das Gesamtkonzept der Datenqualitätsoptimierung.
  • Data Cleaning: Wird oft auf den konkreten, operativen Bereinigungsprozess bezogen. Man spricht etwa von Data Cleaning Scripts, wenn Code geschrieben wird, um Daten zu säubern.
  • Data Scrubbing: Unter Data Scrubbing wird häufig der technische Prozess verstanden, bei dem Algorithmen Datenfehler (z. B. Tippfehler, falsche Datentypen) automatisch korrigieren oder Datensätze abgleichen.
  • Data Wrangling: Ist der Datenbereinigung übergeordnet und beinhaltet auch die Neuorganisierung der Daten.

Warum eine konsequente Datenbereinigung wichtig ist

Die Vorteile der Datenbereinigung lassen sich am besten erkennen, wenn man sich anschaut, was passiert, wenn man Rohdaten ohne jede Korrektur weitergibt:

  • Ungenaue Kennzahlen: Fehlerhafte oder doppelte Datensätze verzerren Auswertungen und führen zu falschen KPIs
  • In Machine-Learning-Modellen oder statistischen Analysen wirken sich inkorrekte Daten direkt negativ auf Vorhersagen und Geschäftsentscheidungen aus.
  • Doppelte oder falsche Kundenadressen: Sendungen oder E-Mails kommen nicht oder doppelt an
  • Wenn Daten inkonsistent sind, ist eine sinnvolle Zielgruppeneinteilung kaum möglich.
  • Mitarbeiter in Kundenservice, Vertrieb oder Buchhaltung müssen manuell korrigieren oder telefonische Rückfragen klären.
  • Unvollständige Stücklisten oder falsche Lieferadressen können Engpässe in der Fertigung verursachen oder Produkte an falsche Standorte liefern.
  • Rücksendungen und Strafgebühren: Fehlerhafte Liefer- oder Rechnungsadressen kosten immer auch Zeit und Geld (Rücktransportkosten, Mahnverfahren etc.).
  • Bei der Zusammenführung von Daten aus mehreren Abteilungen oder Software (z. B. CRM und ERP) können Inkonsistenzen entstehen, die nur mühsam rückwirkend zu beseitigen sind.
  • Kompatibilitätsprobleme: Unterschiedliche Felder und Formate führen zu Fehlermeldungen oder unvollständigen Datenimports in andere Systeme.

Diese Liste kann man weit fortführen. Der Grundgedanke lautet: Jedwede Nutzung der Daten kann nur so gut sein, wie es die Qualität der Daten erlaubt. Wenn diese Basis jedoch nicht stimmt, werden die Fehler unvermeidlich mitgeschleppt und führen zu weiteren Fehlern. Mit bereinigten Daten hingegen lassen sich auch Analysen, Marketing und Prognosen auf einen stabilen Untergrund stellen.

Die Datenbereinigung Schritt für Schritt

Eine typische Schrittfolge der Datenbereinigung zeigen wir an einem Beispiel. Dazu steht folgender Datensatz bereit:

Kunden Nr. Name E-Mail Telefon Stadt Land
1 Max Müller max_mueller@mail.com +49-172-12345 Muenchen Germany
2 Max Mueller max_mueller(at)mail.com 0172-1234 Munich GERMANY
3 Claudia Schmitt c.schmitt@mail.com +49 (0)40 5555 Hambur Germany
4 Claudia Schmitt c.schmitt@mail.com N/A Hamburg DE
5 Michael Schulz schulz.michael@mail.com 017212345 Berlin Germany

Auf den ersten Blick fallen Mehrfachnennungen („Max Muller“/„Max Mueller“ sowie zweimal „Claudia Schmitt“), unterschiedliche Schreibweisen (Stadt „Muenchen“ vs. „Munich“) und unstimmige Werte (Telefonnummern-Formate, E-Mail mit „(at)“ statt „@“) auf.

Bereinigungsschritt Beispiel
Datenprofiling

Zuerst werden die vorhandenen Daten analysiert:

  • Welche Felder oder Attribute gibt es?
  • Welche Typenfehler, Inkonsistenzen und Ausreißer können auftreten?

Ziel ist es, einen klaren Überblick zu erhalten und häufige Fehlerquellen zu identifizieren (z. B. fehlende Werte, nicht standardisierte Adressangaben, Duplikate)

Schreibvarianten:

„Max Muller“ vs. „Max Mueller“ könnte dieselbe Person sein (lediglich unterschiedliche Schreibweise).

„Muenchen“ vs. „Munich“ vs. „München“.

Telefonnummern:

+49-172-12345, 0172-1234, +49 (0)40 5555, 017212345.

Teilweise unvollständig oder unbekannt (N/A).

E-Mail-Adressen:

Einmal korrektes Muster, einmal mit „(at)“ statt „@“.

Redundante Datensätze:

Zweimal Claudia Schmitt, möglicherweise mit unterschiedlichen Kontaktdaten.

Sprach- bzw.

Länderkonventionen:

Stadtangaben „Muenchen“ und „Munich“ beziehen sich beide auf München.

Landangaben: „Germany“, „GERMANY“ und „DE“.

Datenvalidierung

Auf Basis definierter Regeln (Business-Regeln, Feldtypen, Referenztabellen etc.) wird geprüft, ob Datensätze den Anforderungen entsprechen.

Bei Abweichungen werden die problematischen Einträge markiert.

Basierend auf vordefinierten Regeln oder Erwartungen (z. B. E-Mail-Format, Länderkürzel, standardisierte Städteschreibweise) prüfen wir jetzt die Datensätze:

Ungültige E-Mails:

max_mueller(at)mail.com entspricht nicht dem Standardmuster „name@mail.com“.

N/A bei Claudia Schmitt II ist kein gültiger Telefonwert.

Unvollständige oder unscharfe Angaben:

Telefon: 0172-1234 ist evtl. zu kurz?

Stadt: Hambur statt „Hamburg“.

Landangaben:

„GERMANY“, „Germany“ und „DE“ sollten vereinheitlicht werden.

Fehlerbehebung und Standardisierung (Normalisieren)

  • Korrektur: Fehlerhafte Einträge korrigieren (z. B. Rechtschreibung, falsche Formate).
  • Vervollständigung: Fehlende Werte soweit möglich auffüllen oder aus verlässlichen Quellen ergänzen.
  • Normalisierung: Einheitliche Formate, Schreibweisen und Standards definieren (z. B. Ländercodes, Datumsschreibweise, Währungsangaben).
E-Mails:

max_mueller(at)mail.com könnte man nach Rücksprache oder Plausibilitäts-Check in max_mueller@mail.com korrigieren.

Für Claudia Schmitt (Datensatz 4) ist die E-Mail gültig, aber die Telefonnummer fehlt (N/A).

Städte:

Muenchen und Munich -> „München“ (welche Schreibweise ist Firmenstandard?).

Hambur -> „Hamburg“.

Telefonnummern:

Wir definieren z. B. ein einheitliches Format wie +49 172 12345 (bzw. +49 40 5555 für Hamburg).

0172-1234 könnte eine fehlende Ziffer sein. Haben wir die korrekten Daten? Hier wäre eine Rücksprache oder Datenrecherche nötig. Wenn wir davon ausgehen, dass es +49 172 1234 sein sollte, dann korrigieren wir entsprechend.

Landangaben:

Wir einigen uns z. B. auf den Ländercode „DE“ als Standard. Dann wird aus „Germany“, „GERMANY“ und „DE“ -> einheitlich „DE“.

Zeichensatz:

Für den Namen „Müller“ könnte man Umlaute vereinheitlichen, sofern die ursprünglichen Daten Umlaute enthalten sollen.

Beim Schritt Profiling hatten wir aber nur „Muller/Mueller“. Eventuell behalten wir das Original oder wandeln es in „Müller“ um, falls wir sichergehen können, dass das der korrekte Name ist.

Duplikate entfernen (Deduplication)

Algorithmen können ähnliche Datensätze finden, indem sie z. B. Namen oder Adressen vergleichen.

Oft entstehen hier sehr detailreiche Probleme: Wann gelten zwei Einträge als identisch? Wie geht man mit leicht variierenden Schreibweisen um?

Das Ergebnis wird meist manuell geprüft oder durch heuristische Matching-Methoden weiter verbessert.

Max Muller vs. Max Mueller

  • Gleiche Telefonnummern (oder sehr ähnliche) könnten ein Indikator sein. In unserem Beispiel: +49-172-12345 vs. 0172-1234 (fast dieselbe Nummer).
  • Datensatz 1 und 2 könnten Duplikate sein. Wir entscheiden uns z. B. für einen zusammengeführten Datensatz: Max Müller (mit Umlaut?), E-Mail: max_mueller@mail.com, Telefon: +49 172 12345.

Claudia Schmitt

Datensatz 3 und 4 unterscheiden sich nur bei E-Mail und Telefon. Wir führen sie zusammen, indem wir die aktuellen Daten zusammenführen. Wenn der Datensatz 3 die korrekte Telefonnummer hat und der Datensatz 4 die korrekte E-Mail, behalten wir beide Informationen in einem einzigen Datensatz.

Datenanreicherung

Um Daten noch wertvoller zu machen, können sie durch externe Quellen oder zusätzliche Datentabellen angereichert werden.

Beispiel: Geo-Informationen zu Adressen hinzufügen, Unternehmensdaten mit Brancheninformationen ergänzen etc.

Ergänzung von Kontaktdaten:

Für Claudia Schmitt (Datensatz 4 mit Telefon=N/A) könnten wir nach interner oder externer Quelle fragen (z. B. Kundensupport, LinkedIn-Informationen, Branchenverzeichnisse), um die Telefonnummer zu vervollständigen.

Geo-Koordinaten:

Falls wir Marketing-Kampagnen basierend auf Standorten durchführen, könnten wir z. B. die Geo-Informationen für „München“ und „Hamburg“ hinzufügen.

Dokumentation und Monitoring

Sämtliche Regeln und Schritte sollten dokumentiert werden. Nur so können Nachvollziehbarkeit und Reproduzierbarkeit sichergestellt werden.

Kontinuierliches Monitoring (regelmäßige Datenqualitäts-Checks, automatisierte Validierungen) verhindert das erneute Verschmutzen des Datenbestands.

Dokumentation

Wir halten fest, welche Regeln wir zur Korrektur von E-Mail-Adressen angewendet haben, wie Telefonnummern formatiert werden, welche Schreibweisen für Städte erlaubt sind und wie wir mit Duplikaten umgehen.

Monitoring

Wir implementieren z. B. automatisierte Skripte oder Tools, die neu hinzukommende Kundendaten auf Typfehler, fehlende Werte oder Dubletten anhand der Dokumentation prüfen.

Welche Software und Tools kommen für die Datenbereinigung infrage?

Bei der Wahl des richtigen Werkzeugs kommt es auf die Größe und Struktur des Unternehmens, auf das Datenvolumen sowie auf die genauen Anforderungen (z. B. Echtzeit-Anwendungen, regulatorische Anforderungen) an.

ETL-Tools (Extract, Transform, Load)

  • Beispiele: Informatica PowerCenter, IBM InfoSphere DataStage.

Diese Tools unterstützen bei der Extraktion von Daten aus verschiedenen Quellen, der Transformation (einschließlich Bereinigungsregeln) und dem Laden in Zielsysteme.

Data-Quality-Tools:

  • Beispiele: Trifacta, Talend Data Quality, OpenRefine.

Speziell entwickelt, um fehlerhafte Datensätze aufzuspüren, Duplikate zu erkennen und Daten automatisch zu bereinigen oder zu standardisieren.

Selbstentwickelte Skripte:

  • Python (mit Bibliotheken wie Pandas), R oder SQL-Abfragen zur Datenaufbereitung.

Hier ist die Flexibilität sehr hoch, die Prozesse müssen allerdings häufig manuell gewartet werden.

CRM- und Marketing-Tools:

Einige Customer-Relationship-Management-Systeme (z. B. Salesforce) oder Marketing-Automation-Tools (z. B. HubSpot) haben eigene Module zur Datenqualitätspflege (z. B. Adresskorrektur, Dublettenprüfung).

Master Data Management (MDM):

Größere Unternehmen nutzen MDM-Systeme (z. B. Informatica MDM, Stibo Systems), die sich vor allem auf Stammdaten konzentrieren und Datenqualität dort absichern.

Tipp:

Die bimanu Cloud bietet eine automatisierte Datenaufbereitung direkt innerhalb der Business Intelligence Plattform. Inkonsistente und fehlerhafte Daten, Dubletten oder fehlerhafte Formatierung können dank dieser Automatisierungen mühelos und schnell korrigiert werden.

Kostenloses Erstgespräch

Abschluss: Datenbereinigung im Überblick

Trotz der unterschiedlichen Begriffe Data Cleansing, Data Cleaning oder Data Scrubbing zielt der Vorgang der Datenbereinigung immer auf dasselbe Ziel ab: saubere, konsistente und vertrauenswürdige Daten bereitzustellen.

  • Datenprofiling und Fehleridentifikation sind der erste Schritt, um zu verstehen, welche Daten Du wirklich hast und wo Fehler liegen.
  • Die Standardisierung, Duplikaterkennung und -entfernung sowie Korrektur fehlerhafter Einträge sind der Kern der Datenbereinigung.
  • Die richtige Software übernimmt diese Aufgaben, bestenfalls mit einem hohen Grad an Automatisierung. Der menschliche Kontrollblick bleibt jedoch immer nötig.

Mit sauberen Daten sowie Monitoring und Dokumentation kannst Du sicheren Schrittes ins Business Intelligence übergehen.

Jetzt unverbindlich Kontakt aufnehmen

Kontaktiere uns jetzt und vereinbare Dein kostenloses Erstgespräch mit einem unserer Experten. 

bimanu ueber uns swen michael

Datenbereinigung – Häufige Fragen und Antworten

Warum ist Datenbereinigung so wichtig?

Unsaubere Daten führen unweigerlich zu Fehlern in Analysen und Prozessen, was wiederum zu höheren Kosten durch nötige Nacharbeiten oder Wiederholungen führt.

Wie erkennt man Dubletten in einer Datenbank?

  • Eindeutige Felder vergleichen: Gleiche E-Mail-Adresse oder Telefonnummer sind starke Indikatoren.
  • Fuzzy Matching: Leichte Abweichungen (z. B. „Müller“ vs. „Mueller“) mit Algorithmen wie Levenshtein-Distanz erkennen.
  • Regeln zur Kombination von Feldern: Wenn Name, Stadt und Telefonnummer fast übereinstimmen, liegt vermutlich ein Duplikat vor.

Wie lange dauert eine Datenbereinigung typischerweise?

Das hängt von der Datenmenge und den Fehlerquellen ab. Eine kleine Bereinigung (z. B. Dubletten-Entfernung in einer CRM-Datenbank mit 10.000 Einträgen) kann wenige Minuten bis Stunden dauern, während komplexe Projekte mit Millionen Datensätzen und vielen Systemen Tage in Anspruch nehmen. Automatisierte Prozesse helfen selbstverständlich, diese Zeiten massiv zu verkürzen.

Gibt es bestimmte Branchen, in denen Datenbereinigung besonders wichtig ist?

Ja, vor allem in datenintensiven Branchen wie Banken, Versicherungen, E-Commerce, Gesundheitswesen und Logistik ist eine hohe Datenqualität wichtig.

Wer ist im Unternehmen für die Datenbereinigung verantwortlich?

Oft fällt die Verantwortung auf die IT-Abteilung oder Data-Management-Teams, aber auch Fachabteilungen wie Marketing, Vertrieb oder Controlling müssen mitarbeiten, da sie die Daten nutzen. Viele Unternehmen setzen mittlerweile Data Stewards oder Datenqualitäts-Manager ein, die sich speziell um die Pflege und Überwachung der Datenqualität kümmern.

Jetzt kostenlose Beratung vereinbaren
Teile diesen Artikel
33 Impulse! Unser kostenfreies Buch
Über den Autor

Swen Göllner ist Gründer und Geschäftsführer von bimanu GmbH und bimanu Cloud Solutions GmbH, zwei Unternehmen, die sich auf Business Intelligence, Data Warehouse und Cloud-Anwendungen spezialisieren.Er hat einen Abschluss in Wirtschaftsinformatik von der F.O.M Fachhochschule für Ökonomie und Management Neuss und einen MBA General Management von der Düsseldorf Business School an der Heinrich-Heine-Universität Düsseldorf.Außerdem ist er Host des Podcasts „Wertgeschätzt – der Business Intelligence Podcast“ – der Nummer 1 Business Intelligence Podcast und Autor des Buches „33 Impulse für einfache Datenstrategien im Mittelstand ZEIT SPAREN, KOSTEN SENKEN, UMSATZ STEIGERN“.

Swen Göllner

Gründer & Geschäftsführer

Weitere Beiträge, die dir gefallen können