90 / 100

6 Fakten zum Thema Datenquellen- und formen

Das sollten Sie wissen

Daten datenquellen datenform

Swen Goellner Bimanu Autorenbox

Goellner_33-Impulse-fuer-einfache-Datenstrategien-im-Mittelstand

„Ein unverzichtbarer Leitfaden für alle Mittelständler, die die Digitalisierung erfolgreich vorantreiben wollen.“

Philipp Noack, vieljähriger leitender Manager mit Erfahrung von Digitalisierungsprojekten weltweit.

„Jedes Unternehmen hat Daten und nutzt sie. Dieses Buch zeigt, wie man es ohne Riesen-Investments effizienter und mit Gewinn machen kann.“

Thomas Balgheim, Aufsichtsratsvorsitzender Syngenio AG, Co-Founder DataValueThinking, Managementberater und Coach.

Im Alltag der Unternehmen spielt die Arbeit mit Daten eine zunehmend dominierende Rolle. Die Herausforderung besteht darin, mit den unterschiedlichen Datenquellen- und formen souverän umgehen zu können. Hier erhalten Sie wertvolles Hintergrundwissen zu diesem spannenden und wichtigen Thema.

Was ist eine Datenquelle?

Im Unternehmen verwenden Sie verschiedene Daten. Den Ort, aus dem diese stammen, bezeichnen wir als Datenquelle. Das kann der Ort sein, an dem diese Daten entstanden sind. Oder sie wurden dort aus physischen Informationen aufbereitet bzw. digitalisiert. Aus dieser Definition heraus ist bereits ersichtlich, dass Daten aus vielfältigen Quellen stammen können. Das sind einige Beispiele:

  • Datenbanken
  • Streaming
  • Messungen von Geräten

Die in der Praxis gebräuchlichste Form der Datenquelle ist die Datenbank. Das liegt an der weiten Verbreitung der relationalen Datenbankmanagementsysteme mit ihrer Sammlung von Tabellen, in denen die Datensätze gespeichert sind. Und diese Systeme greifen auf Datenbanken als primären Datenspeicher zurück.

Welche Datenquelltypen lassen sich unterscheiden?

Mit dem Aufkommen neuer Technologien wie IoT und der Datenverarbeitung im Rahmen von Big Data haben wir es mit einer größeren Vielfalt an Formaten, Speicherorten und natürlich auch Inhalten zu tun, die für Daten verfügbar und gebräuchlich sind. Trotz dieser Differenziertheit ist es weiterhin möglich, eine grobe Einteilung der Datenquelltypen in Computer- und Dateidatenquellen vorzunehmen.

Daten: big data

Daten: big data

Grundsätzlich sind Computerdatenquellen nur auf dem Computer verwendbar, auf dem sie ihre Definition erhalten. Hier ist eine weitere Unterteilung in Benutzer- und Systemdatenquellen möglich. Bei Dateidatenquellen (DSN-Dateien) hingegen ist die Quelle nicht für einzelne Benutzer, Systeme oder Anwendungen registriert. Bei Computerdatenquellen weist der Benutzer den Namen zu, bei Dateidatenquellen sind die Verbindungsinformationen stattdessen in einer gemeinsam nutzbaren Datei enthalten.

Von Datenintegration sprechen wir dann, wenn Sie Daten aus unterschiedlichen Quellen in einer einzigen Ansicht zusammenführen. Dafür sind verschiedene Teilschritte erforderlich wie zum Beispiel die Datenbereinigung und das Mapping. Möglich ist es, per jeweiliger API direkt auf die Schnittstelle der Datenquellen zuzugreifen und die Datenintegration manuell durchzuführen. Der Prozess lässt sich aber auch automatisieren.

Welche Datenformen gibt es?

Daten treten in drei unterschiedlichen Formen auf. Dazu gehören die strukturierten, die unstrukturierten und die halbstrukturierten Daten. Die Unterscheidungsformen beziehen sich also auf die Struktur, welche die Daten aufweisen. Alle drei Datenformen haben ihre Relevanz für Geschäftsanwendungen.

Strukturierte Daten spielen in der Datenverarbeitung und Datenanalyse bereits seit Langem eine wichtige Rolle. Mittlerweile nimmt jedoch die Generierung von halb- und unstrukturierten Daten immer mehr zu. Unternehmen stehen daher vor der Herausforderung, ihre Business Intelligence fit zu machen für diese anspruchsvolleren Datenformen. Wenn Sie eine erfolgreiche Datenanalyse betreiben möchten, sollten Sie in der Lage sein, alle drei Datenformen verarbeiten zu können. Diese sehen wir uns jetzt näher an.

Star-Schema vs. Snowflake-Schema

Strukturierte Daten

Bei strukturierten Daten ist die verwendete Struktur offensichtlich, die Daten liegen in einem vorgegebenen Format vor. Anders formuliert sind diese Daten bereits formatiert. Das beste Beispiel für strukturierte Daten sind die so häufig vorkommenden relationalen SQL-Datenbanken. Diese setzen sich aus Tabellen mit Zeilen und Spalten zusammen, die Rohdaten sind in vordefinierten Feldern abgebildet. SQL ist eine Sprache, mit der sich Abfragen dieser Datenbestände vornehmen lassen. Es ist sehr einfach, strukturierte Daten zu lesen und weiterzuverarbeiten, weil der Anwender sie in ein wohldefiniertes Modell umgewandelt hat.

Da die strukturierten Daten in der relationalen Datenbank in einer eindeutigen Beziehung zueinander stehen, fällt das Auffinden der gesuchten Daten umso leichter. Das ist einer der entscheidenden Vorteile dieser Datenform. Es ist zwar nicht zwingend erforderlich, dass strukturierte Daten in Tabellenform vorliegen, es handelt sich jedoch um den häufigsten Anwendungsfall in der Praxis der Unternehmen.

Ein typisches Beispiel für die Verwendung dieser Datenform ist die Strukturierung von Webseiteninhalten. Wenn Sie Ihre Inhalte auf der Seite mit entsprechenden Markern versehen, können Suchmaschinen wie Google sie viel leichter auffinden. Neben dieser Verwendung für die Auszeichnung von Inhalten kommt strukturierten Daten eine wichtige Aufgabe für den Austausch von Informationen zu. Das ist zum Beispiel dann erforderlich, wenn Sie Daten zwischen verschiedenen Programmen oder System übertragen möchten. Aufgrund der wohldefinierten Datenstruktur fällt es leicht, die Daten aus unterschiedlichen Anwendungen heraus zu lesen und auszugeben.

Das sind einige Beispiele für häufig verwendete strukturierte Dateiformate für den Datenaustausch:

  • CSV (Comma-separated values): Bei diesem Format sind die einzelnen Datenfelder durch ein Komma getrennt. Nützlich ist CSV für die Darstellung von Listen oder Tabellen.
  • Datev: Rechtsanwälte, Steuerberater und Wirtschaftsprüfer verwenden dieses Datenformat für den Informationsaustausch.
  • DIF (Data Interchange Format): Hierbei handelt es sich um einen Industriestandard für den Datenaustausch zwischen Tabellenkalkulationsprogrammen.
  • Excel: Microsoft verwendet dieses Datenformat für sein weit verbreitetes Tabellenkalkulationsprogramm.
  • SQL (Structured Query Language): Dateien in diesem Format enthalten Anweisungen für die Datenbankinteraktion.

Halbstrukturierte Daten

Der Unterschied zwischen halbstrukturierten und strukturierten Daten besteht darin, dass bei halbstrukturierten Daten keine offensichtliche Struktur vorliegt. Eine andere Bezeichnung für diese Datenform lautet semistrukturierte Daten oder auch partiell-, implizit- oder irregulär-strukturierte Daten. Anhand dieser Bezeichnungen erkennen Sie bereits, dass bei dieser Datenform eine gewisse Strukturiertheit vorhanden sein muss.

Die halbstrukturierten Daten liegen also immer dann vor, wenn die Datenform weder völlig strukturiert noch unstrukturiert ist. Eindeutige und konsistente Merkmale sind vorhanden, es ist jedoch keine wie für relationale Datenbanken wichtige starre Struktur ersichtlich. Sie können mit halbstrukturierten Daten Semantik-Tags und Metadaten verwenden, um Vorteile für deren Verwaltung zu erhalten. Dennoch weist die Struktur Inkonsistenzen und eine höhere Variabilität auf, die Dateninhalte sind im Wesentlichen unbekannt.

Sie können aus unstrukturierten Daten auf einfache Weise halbstrukturierte erzeugen, indem Sie strukturelle Attribute hinzufügen. Ein digitales Foto etwa weist mit seinem aufgenommenen Motiv erst einmal keine vordefinierte Struktur auf. Wenn Sie nun ein Tag zum Beispiel mit der Bezeichnung „Schuhe“ hinzufügen, haben Sie mit diesem Attribut bereits eine Struktur geschaffen.

Das sind Beispiele für halbstrukturierte Daten:

  • JSON (JavaScript Object Notation): Dieses Datenformat ist Programmiersprachen-unabhängig. Häufige Verwendung findet es für Webanwendungen und Mobile-Apps.
  • XML (Extensible Markup Language): XML stellt als Auszeichnungssprache Inhalte in Form einer Textdatei dar und ist maschinenlesbar.

Unstrukturierte Daten

Unstrukturierte Daten zeichnen sich dadurch aus, dass keinerlei Struktur mehr vorhanden ist. Das bedeutet automatisch, dass Sie keine Speicherung in einer SQL-Datenbank vornehmen können. Es ist nicht möglich, für das jeweilige Feld einen Datentyp auszuwählen wie zum Beispiel einen Zahlendatentyp. Wenn Sie aus diesen Daten einen Wert extrahieren und Informationen gewinnen möchten, müssen Sie die Daten zuerst aufbereiten.

Das sind einige Beispiele für unstrukturierte Daten, mit denen auch Unternehmen häufig zu tun haben:

  • Audio
  • Bilder
  • Text
  • Video

Aus Ihrer Sicht als Mitarbeiter in einem Unternehmen ist interessant, dass in diesem Umfeld tatsächlich die meisten Daten unstrukturiert vorliegen. Denken Sie zum Beispiel an E-Mail-Korrespondenzen oder Beiträge auf Social Media oder in Foren. Hierbei handelt es sich um Text und damit um unstrukturierte Daten. Das gilt auch, wenn Sie Bilder von Produkten aufnehmen, um diese einem Katalog hinzuzufügen. Die Bilddaten gehören erst einmal in die Kategorie der unstrukturierten Daten, solange Sie keine zusätzlichen Informationen ergänzen.

Im Bereich der Datenanalyse besteht eine wichtige Aufgabe für Unternehmen darin, solche unstrukturierten Daten nutzbar zu machen. Dafür sind verschiedene Technologien erforderlich, die die darin enthaltenen Informationen extrahieren können. Der Aufwand hierfür ist häufig sehr hoch und nur noch unter Hinzuziehung von KI-Lösungen zu bewältigen. Eine wichtige Rolle spielt hier das maschinelle Lernen, um zum Beispiel Strukturen in unstrukturierten Daten maschinengestützt und automatisiert zu erkennen.

Fazit

Unternehmen sind heute mit einer Vielzahl von Datenformen und Daten aus unterschiedlichen Quellen konfrontiert. Der Geschäftserfolg hängt zunehmen davon ab, mit diesen Daten umgehen zu können.

Dazu gehören Aufgaben wie die Extraktion aus unstrukturierten Datenformen und die Verarbeitung auf einer Big Data Analyseplattform, wie sie zum Beispiel Anbieter wie SAP zur Verfügung stellen.

Hier erfahren Sie, wie unsere Cloud-Plattform funktioniert.

Nehmen Sie jetzt Kontakt auf und erfahren Sie mehr zu Daten und deren erfolgreichem Einsatz im Unternehmen!

Über den Autor

Swen Goellner Bimanu Autorenbox

Swen Göllner

Swen Göllner ist Gründer und Geschäftsführer von bimanu GmbH und bimanu Cloud Solutions GmbH, zwei Unternehmen, die sich auf Business Intelligence, Data Warehouse und Cloud-Anwendungen spezialisieren.

Er hat einen Abschluss in Wirtschaftsinformatik von der F.O.M Fachhochschule für Ökonomie und Management Neuss und einen MBA General Management von der Düsseldorf Business School an der Heinrich-Heine-Universität Düsseldorf.

Außerdem ist er Host des Podcasts „Wertgeschätzt – der Business Intelligence Podcast“ – der Nummer 1 Business Intelligence Podcast und Autor des Buches „33 Impulse für einfache Datenstrategien im Mittelstand ZEIT SPAREN, KOSTEN SENKEN, UMSATZ STEIGERN“.

Jetzt mehr in unserer Fallstudie erfahren

Wie Du es als Business Intelligence-, IT-Leiter oder Chief Digital Officer schaffst, mit Deinem Team unverzichtbar zu werden und der führende Innovationstraeiber in Deinem Unternehmen wirst

Michael Jungschläger & Swen Göllner beweisen in Ihrer neuen Fallstudie „3×3 Regeln“, wie Du erste Analytics-Anwendungen innerhalb von 14 Tagen erfolgreich einführst ohne größeren Implementierungsaufwand

Du lernst diese 3×3 Regeln für die Umsetzung Deiner erfolgreichen Projekte in unserer neuen Fallstudie und wirst von den Resultaten verblüfft sein.

Nichts mehr verpassen bei bimanu