83 / 100

Snowflake Datenbank – Data Warehouse in der Cloud

Snowflake ist ein Data Warehouse und basiert vollständig auf der Cloud.

Im Zeitalter von Big Data nutzen immer mehr Unternehmen Data Warehouses. Sie ermöglichen das Importieren und Analysieren von Daten aus verschiedenen Quellen. Snowflake bietet ein solches Warehouse direkt in der Cloud an.

Erfahre hier alles, was Du über die immer beliebter werdende Plattform wissen solltest.

Snowflake Datenbank – Data Warehouse in der Cloud

Snowflake Data Warehouse

Swen Goellner Bimanu Autorenbox

Goellner_33-Impulse-fuer-einfache-Datenstrategien-im-Mittelstand

„Ein unverzichtbarer Leitfaden für alle Mittelständler, die die Digitalisierung erfolgreich vorantreiben wollen.“

Philipp Noack, vieljähriger leitender Manager mit Erfahrung von Digitalisierungsprojekten weltweit.

„Jedes Unternehmen hat Daten und nutzt sie. Dieses Buch zeigt, wie man es ohne Riesen-Investments effizienter und mit Gewinn machen kann.“

Thomas Balgheim, Aufsichtsratsvorsitzender Syngenio AG, Co-Founder DataValueThinking, Managementberater und Coach.

Was ist die Snowflake Datenbank?

Snowflake ist ein Data Warehouse und wurde vollständig für die Cloud entwickelt und bietet Datenlagerung, Verarbeitung und Analysefunktionen. Es ist unter anderem auf Amazon Web Services verfügbar.

Wie unterscheidet sie sich von anderen Datenbanken?

Snowflake kann selbst die herausforderndsten Aufgaben in der Datenanalyse bewältigen. Da bei Snowflake die Berechnung und Speicherung voneinander getrennt sind, ist eine Skalierung jederzeit möglich. Selbst, wenn gerade Abfragen ausgeführt werden.

Durch die anpassungsfähige Optimierungstechnologie erzielt Snowflake immer die bestmögliche Leistung für jede Abfrage. Es ist nicht notwendig, die Parameter für die Konfiguration manuell zu verwalten.

Snowflake verfügt über eine gemeinsame Datenarchitektur mit mehreren Clustern. Das bedeutet, dass mehrere Rechencluster gleichzeitig auf dieselben Daten zugreifen können. Sie können mit diesen Daten arbeiten, ohne dabei die Leistung zu beeinträchtigen. Das virtuelle Data Warehouse ermöglicht es, die Leistung automatisch an die Wettbewerbsanforderungen anzupassen.

Die Entstehung von Snowflake Inc.

Snowflake Inc. wurde 2012 in Kalifornien von drei Data-Warehousing-Experten gegründet. Zwei der Gründer waren davor bei dem US-amerikanischen Soft- und Hardwarehersteller Oracle tätig. Der Dritte war Mitbegründer des niederländischen Start-ups Vectorwise.

Im September 2020 ging Snowflake an die Börse und wurde mit 33 Milliarden US-Dollar bewertet.

Architektur und Funktionsweise der Snowflake Datenbank

Mit Snowflake wurde eine komplett neue SQL-basierte Cloud Datenbank für Big Data oder Data Warehouse-Anwendungen entwickelt. Der Betrieb von Infrastruktur, Optimierung, Datenschutz und Verfügbarkeit wird automatisch übernommen.

Kommen wir nun dazu, wie Snowflake funktioniert und was die wichtigsten Funktionen der Snowflake Data Cloud sind.

Wie funktioniert die Snowflake Datenbank?

Du kannst von allen Rechenknoten des Data Warehouse auf das zentrale Datenverzeichnis zugreifen. Die Datenverarbeitung wird hierbei von massiv-parallelen Rechenclustern übernommen. Die Teile der Datensätze werden dabei von jedem Knoten im Cluster lokal gespeichert.

Auf Deine Daten kannst Du mithilfe von SQL-Abfragen zugreifen. Werden Daten auf die Snowflake Datenbank geladen, werden diese in einem komprimierten Spaltenformat reorganisiert.

Da es sich bei Snowflake zu 100 % um eine Cloud-Plattform handelt, ist keine Installation oder Konfiguration erforderlich. Die Wartung und die Einstellungen werden direkt von Snowflake oder uns übernommen.

Verbindungen zu Snowflake kannst Du beispielsweise über die Webschnittstelle, SnowSQL CLI herstellen. Ebenfalls kannst Du die Snowflake Datenbank über ODBC– und JDBC-Treiber und native Konnektoren für Programmiersprachen verbinden.

Eine weitere Möglichkeit, eine Verbindung herzustellen, sind Konnektoren von BI– und ETL-Tools.

Die wichtigsten Funktionen von Snowflake

Die Snowflake Cloud ist mit den meisten der in SQL:1999 definierten Datendefinitionssprachen (DDLs) und Datenbearbeitungssprachen (DMLs) sowie den analytischen Erweiterungen von SQL:2003 kompatibel.

In Bezug auf die Konnektivität gibt es Konnektoren und Treiber für verschiedenste Programmiersprachen (z.B. Python) und die Open-Source-Erweiterung dplyr-snowflakedb.

Steuern kannst Du alles über die grafische Benutzeroberfläche (GUI) oder über Befehlszeilen. Die virtuellen Warehouses kannst Du

  • erstellen
  • in der Größe verändern
  • anhalten oder
  • löschen

Selbst während der Ausführung einer Abfrage kannst Du eine Größenänderung durchführen und das ohne Verzögerungen oder Downtime.

Die Snowflake Datenbank ist mit einer Vielzahl von Daten- und Dateiformaten kompatibel. So ist es beispielsweise möglich, komprimierte Dateien oder Formate wie JSON, Avro oder XML hochzuladen. S3-Datenquellen und lokale Dateien werden ebenfalls unterstützt.

Star-Schema vs. Snowflake-Schema

Die 3 Schichten der Snowflake Data Cloud

Die Architektur von Snowflake ermöglicht eine hohe Flexibilität. Snowflake trennt die Speicher- und Rechenfunktion. Die Cloud besteht aus drei Schichten, von denen Du jede unabhängig voneinander nach Deinen Wünschen skalieren kannst.

1. Schicht: Datenspeicher

Die Speicherschicht der Snowflake Datenbank enthält alle in Snowflake geladenen Daten. Das schließt strukturierte und halbstrukturierte Daten mit ein. Snowflake bietet eine automatische Verwaltung der Speicheraufgaben. Diese reichen von der Organisation der Daten über die Strukturierung bis hin zur Komprimierung. Der Bereich der Datenspeicherung ist völlig unabhängig von der Berechnung.

2. Schicht: Berechnung

Die Rechenschicht besteht aus virtuellen Warehouses. Sie führen die notwendigen Datenverarbeitungsaufgaben aus, die für die Abfragen notwendig sind. Jedes der Warehouses kann auf die Daten in der Speicherschicht zugreifen und unabhängig von dieser arbeiten. So werden die Rechenressourcen nicht geteilt und das wiederum ermöglicht eine automatische Skalierung ohne Unterbrechung.

3. Schicht: Dienste

Die Cloud-Dienste verwenden ANSI SQL und koordinieren das gesamte System. Durch sie wird eine manuelle Verwaltung und Anpassung des Data Warehouses überflüssig. Zu den Diensten dieser Schicht gehören:

  • Authentifizierung
  • Infrastruktur- und Metadatenverwaltung
  • Analyse und Optimierung von Abfragen
  • Zugriffskontrollen

Die Zero-Copy-Datenfreigabe

Die Zero-Copy-Datenfreigabe ist eine innovative Funktion der Snowflake Datenbank. Sie ermöglicht es Dir, Daten zwischen verschiedenen Snowflake-Konten zu teilen, ohne dass dabei physische Kopien Deiner Daten erstellt werden. Dieses Konzept unterscheidet sich grundlegend von herkömmlichen Methoden der Datenfreigabe, bei denen Daten oft kopiert und dann an andere Nutzer übergeben werden.

Mit der Zero-Copy-Datenfreigabe können Unternehmen, die über separate Snowflake-Konten verfügen, sicher und effizient Daten miteinander teilen. Statt eine physische Kopie der Daten zu erstellen und diese zu übertragen, wird lediglich ein sogenanntes „Virtual Data Share“ erstellt. Dabei handelt es sich um eine Art virtuelle Sicht auf die Originaldaten, die sicher zwischen den Konten geteilt werden kann, ohne dass die Daten selbst dupliziert werden.

Snowflake Datenbank – Häufige Fragen & Antworten

Was ist die Snowflake Datenbank und wofür wird sie verwendet?

Die Snowflake Datenbank ist eine cloud-basierte Datenbanklösung, die Unternehmen hilft, große Datenmengen zu speichern, zu verwalten und zu analysieren.

Welche Vorteile bietet die Snowflake Datenbank im Vergleich zu herkömmlichen Datenbanken?

Die Snowflake Datenbank bietet elastische Skalierbarkeit, einfache Datenfreigabe, Zero-Copy-Klonen und eine optimierte Cloud-Integration.

Wie funktioniert die Architektur der Snowflake Datenbank?

Die Architektur der Snowflake Datenbank basiert auf der Trennung von Speicher- und Verarbeitungsebenen, was eine flexible Skalierung und Leistung ermöglicht.

Wie kann Snowflake große Datenmengen bewältigen?

Snowflake verwendet eine Kombination aus vertikaler und horizontaler Skalierung, um mit großen Datenmengen umzugehen.

Was ist Zero-Copy-Datenfreigabe bei Snowflake?

Zero-Copy-Datenfreigabe ermöglicht das Teilen von Daten zwischen verschiedenen Snowflake-Konten, ohne dass Daten kopiert werden müssen.

Über den Autor

Swen Goellner Bimanu Autorenbox

Swen Göllner

Swen Göllner ist Gründer und Geschäftsführer von bimanu GmbH und bimanu Cloud Solutions GmbH, zwei Unternehmen, die sich auf Business Intelligence, Data Warehouse und Cloud-Anwendungen spezialisieren.

Er hat einen Abschluss in Wirtschaftsinformatik von der F.O.M Fachhochschule für Ökonomie und Management Neuss und einen MBA General Management von der Düsseldorf Business School an der Heinrich-Heine-Universität Düsseldorf.

Außerdem ist er Host des Podcasts „Wertgeschätzt – der Business Intelligence Podcast“ – der Nummer 1 Business Intelligence Podcast und Autor des Buches „33 Impulse für einfache Datenstrategien im Mittelstand ZEIT SPAREN, KOSTEN SENKEN, UMSATZ STEIGERN“.

Jetzt mehr in unserer Fallstudie erfahren

Wie Du es als Business Intelligence-, IT-Leiter oder Chief Digital Officer schaffst, mit Deinem Team unverzichtbar zu werden und der führende Innovationstreiber in Deinem Unternehmen wirst

Michael Jungschläger & Swen Göllner beweisen in Ihrer neuen Fallstudie „3×3 Regeln“, wie Du erste Analytics-Anwendungen innerhalb von 14 Tagen erfolgreich einführst ohne größeren Implementierungsaufwand

Du lernst diese 3×3 Regeln für die Umsetzung Deiner erfolgreichen Projekte in unserer neuen Fallstudie und wirst von den Resultaten verblüfft sein.

Fallstudie_Thumbnail