Databricks Lakehouse entschlüsselt: Ein umfassender Einblick in Architektur, Sicherheit & Performance

Umfassender Einblick in die Databricks Lakehouse Architektur

Einleitung: Die Evolution der Datenplattformen

In der heutigen datengetriebenen Welt stehen Unternehmen vor einer fundamentalen Herausforderung: Wie können sie die schiere Menge und Vielfalt an Daten – von strukturierten Geschäftszahlen bis hin zu unstrukturierten Logs, Bildern und Videos – effizient speichern, verarbeiten und analysieren? Traditionell gab es hierfür zwei getrennte Welten: Data Warehouses, optimiert für strukturierte Daten, Business Intelligence (BI) und hohe Abfrageperformance, und Data Lakes, die flexibel riesige Mengen an Rohdaten aller Formate aufnehmen können, aber oft an Zuverlässigkeit, Performance und Governance kranken.

Diese Dichotomie führte zu komplexen, teuren und oft ineffizienten Architekturen mit Datensilos und Duplizierung. Das Lakehouse-Paradigma entstand als Antwort auf diese Probleme, mit dem Ziel, das Beste aus beiden Welten zu vereinen: die Skalierbarkeit und Flexibilität von Data Lakes mit der Struktur, Zuverlässigkeit und Performance von Data Warehouses auf einer einzigen Plattform. Die Databricks Lakehouse Platform ist ein Pionier und führender Vertreter dieses Ansatzes.

Aber was bedeutet das in der Praxis? Wie löst Databricks die inhärenten Probleme traditioneller Systeme? Dieser Artikel bietet einen umfassenden Einblick in die Kernarchitektur, die zugrundeliegenden Technologien, Sicherheitskonzepte und Compute-Optionen der Databricks Lakehouse Platform. Wir beleuchten detailliert:

  1. Das Fundament: Datenzuverlässigkeit und Performance – Wie die Achillesfersen von Data Lakes adressiert werden.
  2. Kontrolle und Kollaboration: Einheitliche Governance und Sicherheit – Wie Daten zentral verwaltet und sicher geteilt werden können.
  3. Rechenleistung nach Bedarf: Flexible Compute-Optionen – Wie die Datenverarbeitung organisiert wird.
  4. Die Sprache des Lakehouse: Wichtige Terminologie – Ein tieferes Verständnis der Datenorganisation.

Begleiten Sie uns auf diesem Deep Dive, um zu verstehen, wie das Databricks Lakehouse funktioniert und wie es Ihre Datenstrategie transformieren kann.

1. Das Fundament: Datenzuverlässigkeit und Performance – Mehr als nur ein großer Speicher

Ein Data Lake allein ist oft nur ein großer, kostengünstiger Speicher. Seine wahre Stärke entfaltet sich erst, wenn die darin enthaltenen Daten zuverlässig für Analysen und KI genutzt werden können. Hier lagen die großen Schwachstellen traditioneller Data Lakes:

  • Die Zuverlässigkeitslücke:
    • Fehlende ACID-Transaktionen: Ohne Atomarität, Konsistenz, Isolation und Durabilität (ACID) können gleichzeitige Lese- und Schreibvorgänge zu inkonsistenten Zuständen führen („Dirty Reads“), Änderungen verloren gehen („Lost Updates“) oder Analysen auf unvollständigen Daten basieren. Dies untergräbt das Vertrauen in die Daten fundamental.
    • „Schema Drift“ und Qualitätsverlust: Data Lakes erzwingen oft kein festes Schema. Während dies Flexibilität bringt, führt es ohne Kontrolle schnell zu inkonsistenten Datentypen, fehlenden Werten oder falschen Formaten („Schema Drift“). Dies verursacht Fehler in nachgelagerten Prozessen, erfordert aufwändige Bereinigungen und macht Daten oft unbrauchbar – der berüchtigte „Data Swamp“.
  • Die Performance-Falle:
    • Das „Small File Problem“: Viele Big-Data-Prozesse, insbesondere Streaming, erzeugen eine große Anzahl kleiner Dateien. Das Auslesen von Metadaten und das Öffnen/Schließen vieler Dateien erzeugt einen enormen Overhead und bremst Abfragen massiv aus.
    • Ineffiziente Partitionierung: Partitionierung wird oft als Ersatz für Indizes verwendet, ist aber schwer zu optimieren. Falsch gewählte Partitionierungsspalten oder Spalten mit hoher Kardinalität (vielen eindeutigen Werten) machen diese Strategie unwirksam und führen zu langsamen Scans. Das ständige Tuning von Partitionsgrößen verschlingt wertvolle Entwicklerzeit.

Um diese fundamentalen Probleme zu lösen und den Data Lake zu einer verlässlichen Grundlage für alle Daten-Workloads zu machen, integriert Databricks zwei Schlüsseltechnologien tief in seine Plattform:

Delta Lake: Zuverlässigkeit und Struktur für den Data Lake

Delta Lake ist weit mehr als nur ein Dateiformat; es ist eine Open-Source-Transaktionsschicht (https://delta.io/), die über Ihren bestehenden Cloud-Speicher (wie AWS S3, Azure Data Lake Storage, Google Cloud Storage) gelegt wird. Es transformiert Ihren Data Lake, indem es kritische Funktionen hinzufügt, die bisher Data Warehouses vorbehalten waren:

  • Garantierte ACID-Transaktionen: Das Herzstück von Delta Lake ist ein geordnetes Transaktionsprotokoll (Transaction Log), das jede Änderung an den Daten atomar aufzeichnet. Dies stellt sicher, dass Operationen entweder vollständig erfolgreich sind oder gar nicht durchgeführt werden. Selbst bei Fehlern oder gleichzeitigen Zugriffen bleibt die Datentabelle immer in einem konsistenten Zustand.
  • Zeitreisen (Time Travel) und Auditierbarkeit: Das Transaktionsprotokoll ermöglicht es, jede frühere Version einer Tabelle abzufragen – entweder über einen Zeitstempel oder eine Versionsnummer. Dies ist unglaublich mächtig für:
    • Audits: Nachvollziehen, wie sich Daten über die Zeit verändert haben.
    • Debugging: Fehler in Datenpipelines analysieren, indem man den Zustand vor und nach einer problematischen Transformation vergleicht.
    • Rollbacks: Einfaches Zurücksetzen auf eine frühere, fehlerfreie Version.
    • Reproduzierbarkeit: Sicherstellen, dass Berichte oder Machine-Learning-Modelle auf exakt demselben Datenstand reproduziert werden können.
  • Schema Enforcement und Schema Evolution: Delta Lake erzwingt standardmäßig das definierte Schema beim Schreiben von Daten (Schema Enforcement), was Datenqualität sicherstellt und fehlerhafte Daten abweist. Gleichzeitig erlaubt es eine kontrollierte Schema-Weiterentwicklung (Schema Evolution). Sie können explizit Spalten hinzufügen oder Datentypen ändern, ohne die gesamte Tabelle neu schreiben zu müssen, um sich an verändernde Datenquellen anzupassen.
  • Volle DML-Unterstützung (Updates, Deletes, Merges): Im Gegensatz zu vielen reinen Data-Lake-Formaten unterstützt Delta Lake Standard-SQL-Befehle wie UPDATE, DELETE und MERGE INTO. Dies vereinfacht Anwendungsfälle drastisch, die bisher komplexe Workarounds erforderten, z. B.:
    • Change Data Capture (CDC): Effizientes Anwenden von Änderungen aus Quelldatenbanken.
    • Slowly Changing Dimensions (SCD Typ 2): Historisierung von Dimensionsdaten in Data Warehouses.
    • Streaming Upserts: Kontinuierliches Einfügen oder Aktualisieren von Daten aus Streaming-Quellen.
  • Vereinheitlichtes Batch- und Streaming-Handling: Dieselbe Delta-Tabelle dient als Quelle und Ziel für sowohl Batch- als auch Streaming-Prozesse. Dies vereinfacht die Architektur erheblich („Lambda-Architektur“ wird oft überflüssig) und sorgt für konsistente Daten über verschiedene Latenzanforderungen hinweg.
  • Optimierungen unter der Haube: Delta Lake implementiert Techniken wie Data Skipping (nutzt Metadaten, um nur relevante Dateien zu lesen), Z-Ordering (optimiert die Datenanordnung für häufig gefilterte Spalten) und Compaction (führt kleine Dateien automatisch zu größeren zusammen), um die Abfrageperformance weiter zu verbessern.
  • Open Source und Ökosystem: Delta Lake ist ein offenes Format, was Vendor Lock-in vermeidet. Es ist tief in Spark integriert, hat aber auch Konnektoren für andere Engines wie Presto, Trino, Flink und Hive und wird von einer wachsenden Community unterstützt. Da es auf dem effizienten Apache Parquet-Format aufbaut, können bestehende Parquet-Daten oft einfach in Delta Lake konvertiert werden.

Photon: Raketentreibstoff für Lakehouse-Abfragen

Während Delta Lake die Zuverlässigkeit sicherstellt, adressiert Photon die Performance-Herausforderung. Photon ist Databricks‘ native, in C++ geschriebene vektorisierte Query Engine, die entwickelt wurde, um die Hardware-Effizienz moderner CPUs maximal auszunutzen und die Leistung von SQL- und DataFrame-Operationen drastisch zu beschleunigen.

  • Vektorisierte Verarbeitung: Im Gegensatz zu traditionellen Engines, die Daten oft Zeile für Zeile verarbeiten, operiert Photon auf Vektoren (Batches) von Daten. Dies reduziert den Overhead von Funktionsaufrufen und ermöglicht die Nutzung moderner CPU-Instruktionen (SIMD), die mehrere Datenpunkte gleichzeitig verarbeiten können.
  • Erhebliche Geschwindigkeitssteigerungen: Photon liefert durchweg bessere Performance als der Standard-Spark-Interpreter, oft um den Faktor 2x oder mehr, bei bestimmten Workloads sogar deutlich darüber hinaus. Dies beschleunigt:
    • Business Intelligence: Schnellere Dashboards und interaktive Analysen direkt auf dem Lakehouse.
    • ETL/ELT-Pipelines: Kürzere Verarbeitungszeiten für Datenaufbereitung und -transformation.
    • Data Science & Machine Learning: Schnellere Feature-Generierung und Datenexploration.
    • Streaming-Analysen: Verarbeitung von Datenströmen mit geringerer Latenz.
  • Kosteneffizienz: Schnellere Abfragen bedeuten, dass Compute-Cluster für kürzere Zeit benötigt werden. Dies führt direkt zu geringeren Infrastrukturkosten, da weniger Cluster-Stunden verbraucht werden. Photon kann somit helfen, die Gesamtkosten (TCO) der Datenplattform signifikant zu senken.
  • Nahtlose Integration und Kompatibilität: Das Beste an Photon ist seine Transparenz. Es ist vollständig kompatibel mit den Apache Spark APIs. Sie müssen Ihren bestehenden SQL-, Python-, Scala- oder R-Code nicht ändern. Wenn Sie einen Photon-fähigen Cluster verwenden, wird Photon automatisch Teile Ihrer Abfragen übernehmen und beschleunigen, wo immer es möglich ist.

Zusammen bilden Delta Lake und Photon das leistungsstarke Fundament des Databricks Lakehouse, das sowohl die Zuverlässigkeits- als auch die Performance-Anforderungen moderner Daten-Workloads erfüllt.

2. Kontrolle und Kollaboration: Einheitliche Governance und Sicherheit im Lakehouse

Ein leistungsfähiges Fundament ist nur die halbe Miete. In Unternehmensumgebungen sind robuste Governance- und Sicherheitsfunktionen unerlässlich, um Compliance zu gewährleisten, Risiken zu minimieren und die Zusammenarbeit zu ermöglichen. Die Komplexität moderner Datenlandschaften stellt hier hohe Anforderungen:

  • Vielfalt der Assets: Governance muss über einfache Tabellen hinausgehen und auch ML-Modelle, Notebooks, Dashboards und Dateien umfassen.
  • Fragmentierte Systeme: Traditionell getrennte Data Warehouse- und Data Lake-Systeme führten zu inkonsistenten Berechtigungsmodellen und Audit-Logs.
  • Multi-Cloud-Realität: Unterschiedliche Cloud-Anbieter haben eigene Sicherheits- und Governance-Tools, was zu fragmentierten und schwer zu verwaltenden Setups führt.
  • Werkzeug-Wildwuchs: Der Einsatz vieler verschiedener Tools für Governance, Katalogisierung und Sicherheit erhöht die Komplexität und Fehleranfälligkeit.

Databricks begegnet diesen Herausforderungen mit einem integrierten Ansatz, der auf mehreren Säulen ruht:

Unity Catalog: Das zentrale Nervensystem für Governance

Unity Catalog ist die zentrale, vereinheitlichte Governance-Lösung für alle Daten- und KI-Assets auf der Databricks Lakehouse Platform. Es agiert als übergeordneter Katalog, der über alle Workspaces und Clouds hinweg funktioniert und eine konsistente Sicht bietet.

  • Einheitliches Berechtigungsmodell: Definiert Zugriffsrechte einmal an zentraler Stelle mithilfe von Standard-ANSI-SQL-Befehlen (GRANT/REVOKE). Diese Berechtigungen gelten dann konsistent für alle Zugriffsarten, sei es über SQL-Abfragen, Notebooks oder BI-Tools.
  • Feingranulare Zugriffskontrolle: Ermöglicht die Steuerung des Zugriffs bis auf die Ebene von Katalogen, Schemas, Tabellen, Views, Funktionen, Zeilen und Spalten. Sie können beispielsweise bestimmten Benutzergruppen nur Zugriff auf ausgewählte Spalten gewähren oder sensible Spalten dynamisch maskieren. Zeilenbasierte Filter ermöglichen es, den Datenzugriff basierend auf Benutzerattributen (z. B. Region, Abteilung) einzuschränken.
  • Attributbasierte Zugriffskontrolle (ABAC): Geht noch einen Schritt weiter und erlaubt die Definition von Zugriffsrichtlinien basierend auf Tags oder Attributen, die Datenassets oder Benutzern zugewiesen sind. Sie können beispielsweise alle Spalten mit dem Tag „PII“ (Personally Identifiable Information) markieren und eine einzige Richtlinie definieren, die den Zugriff darauf einschränkt. Dies vereinfacht die Verwaltung bei großen Datenmengen erheblich.
  • Zentralisierte Auditierung: Alle Aktionen und Zugriffe, die über Unity Catalog verwaltet werden, werden detailliert protokolliert. Dies schafft eine lückenlose Nachvollziehbarkeit für Compliance-Anforderungen (z. B. DSGVO, HIPAA) und Sicherheitsuntersuchungen.
  • Automatisierte Data Lineage: Unity Catalog erfasst automatisch die Abstammung von Daten (Lineage) über verschiedene Sprachen (SQL, Python, Scala, R) und Workloads hinweg, bis hinunter auf Spaltenebene. Dies visualisiert, woher Daten kommen, wie sie transformiert wurden und wo sie verwendet werden. Unverzichtbar für:
    • Auswirkungsanalysen: Verstehen, welche nachgelagerten Prozesse von einer Änderung betroffen sind.
    • Fehlersuche: Schnelles Identifizieren der Ursache von Datenqualitätsproblemen in komplexen Pipelines.
    • Compliance: Nachweisen des Datenflusses für regulatorische Zwecke.
  • Integrierte Datenermittlung (Data Discovery): Eine benutzerfreundliche Suchoberfläche ermöglicht es Anwendern, relevante Datenassets (Tabellen, Dateien, Notebooks, Dashboards) im gesamten Unternehmen leicht zu finden und deren Metadaten (Beschreibungen, Tags, Eigentümer) zu verstehen. Dies fördert die Wiederverwendung von Daten und bricht Informationssilos auf.

Delta Sharing: Offener und sicherer Datenaustausch

Wie teilt man Daten sicher und effizient mit externen Partnern, Kunden oder sogar internen Abteilungen, die möglicherweise andere Tools oder Clouds verwenden? Delta Sharing ist Databricks‘ Antwort darauf – ein offener Protokollstandard (https://delta.io/sharing/) für den sicheren Austausch von Live-Daten.

  • Offenheit und Interoperabilität: Delta Sharing ist nicht auf Databricks beschränkt. Es gibt Konnektoren für viele gängige Tools und Plattformen, darunter Pandas, Spark, Power BI, Tableau und Java. Empfänger benötigen kein Databricks-Konto, um auf die geteilten Daten zuzugreifen.
  • Teilen von Live-Daten (Kein Kopieren): Der entscheidende Unterschied zu traditionellen Methoden (wie FTP oder API-Exporte) ist, dass Delta Sharing direkten Lesezugriff auf die Original-Delta-Tabellen ermöglicht, ohne die Daten zu kopieren oder zu verschieben. Die Daten bleiben beim Anbieter. Das bedeutet:
    • Aktualität: Empfänger greifen immer auf die aktuellsten Daten zu.
    • Effizienz: Keine Kosten und Komplexität für das Kopieren und Synchronisieren von Daten.
    • Skalierbarkeit: Teilt problemlos auch sehr große Datensätze.
  • Zentralisierte Governance durch den Anbieter: Der Datenanbieter definiert über Unity Catalog genau, welche Tabellen oder Partitionen mit wem geteilt werden. Der Zugriff kann jederzeit zentral verwaltet und widerrufen werden. Die Nutzung der geteilten Daten kann ebenfalls auditiert werden.
  • Sicherheit: Die Übertragung erfolgt über sichere, kurzlebige URLs. Delta Sharing unterstützt auch „Data Clean Rooms“ – sichere Umgebungen, in denen mehrere Parteien gemeinsam auf Daten analysieren können, ohne die Rohdaten der anderen Seite sehen zu müssen.

Architektur: Control Plane vs. Data Plane – Sicherheit durch Trennung

Die grundlegende Sicherheitsarchitektur von Databricks basiert auf der Trennung in zwei Ebenen:

  • Control Plane (Kontrollebene): Diese Ebene wird vollständig von Databricks verwaltet und läuft in deren eigener sicherer Cloud-Umgebung. Sie beherbergt die zentralen Dienste:
    • Webanwendung (UI)
    • Notebook- und Job-Management
    • Cluster-Management und -Orchestrierung
    • Metadaten-Verwaltung (über Unity Catalog)
    • Benutzer- und Zugriffsverwaltung Alle Metadaten und Konfigurationen in der Control Plane sind im Ruhezustand (at rest) verschlüsselt.
  • Data Plane (Datenebene): Hier findet die tatsächliche Datenverarbeitung statt. Im klassischen Modell (siehe nächster Abschnitt) laufen die Compute-Cluster (die virtuellen Maschinen, die Spark ausführen) innerhalb des Cloud-Kontos des Kunden. Das bedeutet:
    • Datenhoheit: Die Kundendaten verlassen niemals die Kontrolle und die Netzwerkgrenzen des Kunden.
    • Nutzung vorhandener Sicherheitsmechanismen: Kunden können ihre eigenen Cloud-Sicherheitsrichtlinien (z. B. Netzwerksicherheitsgruppen, Firewalls, VPC Endpoints) anwenden. Die Kommunikation zwischen der Control Plane und der Data Plane ist immer verschlüsselt (in transit). Databricks implementiert zahlreiche Sicherheitsmaßnahmen für die in der Data Plane laufenden Cluster, wie gehärtete Betriebssystem-Images, regelmäßige Sicherheitsupdates, Netzwerkisolierung und Ausführung von Code mit minimalen Rechten. Der Zugriff durch Databricks-Supportmitarbeiter ist streng reglementiert und protokolliert.

Diese Kombination aus Unity Catalog, Delta Sharing und der getrennten Architektur bietet einen umfassenden, integrierten Ansatz für Governance und Sicherheit im Lakehouse.

3. Rechenleistung nach Bedarf: Flexible Compute-Optionen

Die Verarbeitung der Daten im Lakehouse erfordert Rechenleistung, die in Form von Compute-Clustern bereitgestellt wird. Databricks bietet hier Flexibilität durch verschiedene Modelle:

Classic Data Plane: Volle Kontrolle, voller Managementaufwand

Im traditionellen Modell betreibt der Kunde die Compute-Cluster in seinem eigenen Cloud-Konto (AWS, Azure, GCP). Dies bietet maximale Kontrolle über die Konfiguration:

  • Auswahl spezifischer VM-Instanztypen (CPU-optimiert, Speicher-optimiert etc.).
  • Detaillierte Konfiguration von Autoskalierung, Spot-Instanz-Nutzung, Netzwerk-Einstellungen.
  • Anwendung eigener Sicherheits- und Compliance-Richtlinien auf die Cluster-VMs.

Diese Kontrolle bringt jedoch auch erheblichen Managementaufwand mit sich:

  • Komplexe Konfiguration: Die optimale Einstellung eines Clusters für einen bestimmten Workload erfordert Expertise und Experimentieren.
  • Lange Startzeiten: Das Hochfahren neuer Cluster kann mehrere Minuten dauern, was interaktive Analysen verlangsamt und Benutzer frustriert.
  • Kostenmanagement: Ständige Überwachung und Optimierung sind nötig, um unnötige Kosten durch idle laufende Cluster oder Überprovisionierung zu vermeiden. Oft laufen Cluster länger als nötig, nur um die Startzeiten zu umgehen.

Serverless Compute: Einfachheit, Effizienz und Elastizität

Um den Managementaufwand zu reduzieren und die Effizienz zu steigern, bietet Databricks Serverless Compute an. Der Begriff „serverless“ bedeutet hier nicht, dass keine Server beteiligt sind, sondern dass die Verwaltung der zugrundeliegenden Compute-Infrastruktur vollständig von Databricks abstrahiert wird.

  • Databricks-verwaltete Ressourcen: Die Compute-Ressourcen laufen in einem sicheren Pool innerhalb des Databricks-Cloud-Kontos, nicht mehr im Kundenkonto.
  • Sofortige Verfügbarkeit: Databricks hält einen „warmen Pool“ von Rechenressourcen bereit, sodass Cluster nahezu verzögerungsfrei starten können.
  • Automatische, schnelle Skalierung: Die Cluster passen ihre Größe innerhalb von Sekunden dynamisch an die Anforderungen des Workloads an – sowohl hoch als auch herunter. Dies ist ideal für unvorhersehbare oder stark schwankende Lasten.
  • Reduzierter Managementaufwand: Kunden müssen sich nicht mehr um VM-Auswahl, Konfiguration, Patches oder Kapazitätsplanung kümmern.
  • Optimierte Kosten (TCO): Durch die effiziente Pool-Nutzung, die schnelle Skalierung und die Vermeidung von Leerlaufzeiten können die Gesamtkosten oft signifikant gesenkt werden. Die Abrechnung erfolgt granularer nach tatsächlicher Nutzung.
  • Erhöhte Produktivität: Benutzer können sich auf ihre Analysen konzentrieren, statt auf die Infrastrukturverwaltung.

Aktuell ist Serverless Compute primär für Databricks SQL (die Data-Warehouse-Umgebung von Databricks) verfügbar, wird aber voraussichtlich auf weitere Bereiche ausgeweitet. Trotz der Ausführung im Databricks-Konto bleiben hohe Sicherheitsstandards durch strenge Mandantenisolierung auf Netzwerk-, VM- und Container-Ebene gewahrt.

Die Wahl zwischen Classic und Serverless hängt von den spezifischen Anforderungen an Kontrolle, Managementaufwand und Kosten ab. Serverless bietet jedoch einen klaren Trend zu mehr Einfachheit und Effizienz.

4. Die Sprache des Lakehouse: Wichtige Terminologie verstehen

Um sich effektiv im Databricks Lakehouse, insbesondere mit Unity Catalog, zu bewegen, ist ein klares Verständnis der zentralen Organisationsbegriffe entscheidend:

  • Metastore: Dies ist die absolute Top-Level-Einheit in Unity Catalog. Pro Region gibt es typischerweise nur einen Metastore pro Databricks-Account. Er fungiert als Container für alle Metadaten (Informationen über die Datenobjekte) und die dazugehörigen Zugriffssteuerungslisten (ACLs). Physisch speichert der Metastore die Metadaten in einer von Databricks verwalteten Datenbank in der Control Plane, während die eigentlichen Daten in Cloud-Speichern (Data Plane) liegen.
  • Catalog (Katalog): Die erste Organisationsebene für Datenobjekte innerhalb eines Metastores. Kataloge dienen der logischen Gruppierung von Daten auf höchster Ebene, z. B. nach:
    • Umgebungen (Entwicklung, Test, Produktion)
    • Geschäftsbereichen (Vertrieb, Marketing, Finanzen)
    • Datenquellen oder Projekten Sie bilden die erste Stufe im dreistufigen Namensraum (Catalog.Schema.Table), den Unity Catalog einführt, um eine klarere Trennung und Verwaltung als der traditionelle zweistufige Namespace (Schema.Table) zu ermöglichen.
  • Schema (oft synonym zu Datenbank): Die zweite Organisationsebene innerhalb eines Katalogs. Ein Schema gruppiert zusammengehörige Datenobjekte wie Tabellen und Views. Beispielsweise könnte ein sales-Katalog Schemas wie customers, orders und products enthalten.
  • Table (Tabelle): Die grundlegende Einheit zur Speicherung strukturierter Daten in Zeilen und Spalten. Unity Catalog unterscheidet zwei Haupttypen:
    • Managed Table: Sowohl die Metadaten als auch die zugrundeliegenden Datendateien werden von Unity Catalog an einem zentralen, verwalteten Speicherort (pro Metastore oder Katalog definierbar) abgelegt und deren Lebenszyklus gesteuert. Wenn eine Managed Table gelöscht wird, werden auch die Daten gelöscht. Dies ist oft die einfachere Option.
    • External Table: Die Metadaten werden von Unity Catalog verwaltet, aber die Datendateien liegen an einem externen Cloud-Speicherort, den der Kunde explizit angibt (z. B. s3://my-bucket/path/to/data). Der Kunde behält die volle Kontrolle über den Lebenszyklus der Daten. Beim Löschen einer External Table in Unity Catalog werden nur die Metadaten entfernt, die Daten im Cloud-Speicher bleiben erhalten. Dies bietet mehr Flexibilität, erfordert aber separates Management der Datenpfade und Zugriffsrechte auf Speicherebene.
  • View (Sicht): Eine gespeicherte Abfrage, die wie eine Tabelle verwendet werden kann. Views enthalten keine eigenen Daten, sondern führen ihre definierte Logik (z. B. Filter, Joins, Aggregationen) auf Basis von Tabellen oder anderen Views aus, wenn sie abgefragt werden. Sie sind nützlich zur:
    • Vereinfachung komplexer Abfragen.
    • Abstraktion der zugrundeliegenden Tabellenstruktur.
    • Implementierung von Zugriffslogik (z. B. nur bestimmte Spalten oder gefilterte Zeilen anzeigen).
  • Function (UDF – User-Defined Function): Ermöglicht das Kapseln und Wiederverwenden von benutzerdefinierter Logik (SQL, Python etc.) direkt innerhalb von SQL-Abfragen.
  • Storage Credential: Ein sicheres Objekt in Unity Catalog, das die notwendigen Berechtigungsnachweise (z. B. Cloud IAM Roles, Service Principals) für den Zugriff auf Cloud-Speicher kapselt.
  • External Location: Ein Objekt in Unity Catalog, das einen spezifischen Pfad im Cloud-Speicher (z. B. s3://my-bucket/landing-zone) mit einem Storage Credential verknüpft. Es dient als definierter „Mount Point“ oder Zugriffspunkt, auf den Berechtigungen innerhalb von Unity Catalog vergeben werden können, um den Zugriff auf Dateien an diesem externen Ort zu steuern (z. B. für External Tables oder direkten Dateizugriff).

Dieses Vokabular bildet die Grundlage für die Organisation, Verwaltung und Sicherung von Daten im Databricks Lakehouse mit Unity Catalog.

Fazit: Ein integriertes Ökosystem für moderne Datenanforderungen

Das Databricks Lakehouse ist mehr als nur die Summe seiner Teile. Es ist ein integriertes Ökosystem, das die traditionellen Grenzen zwischen Data Lakes und Data Warehouses überwindet. Durch die Kombination von:

  • Delta Lake für robuste, zuverlässige Datenspeicherung mit ACID-Garantien und Zeitreisen,
  • Photon für blitzschnelle Abfrageperformance direkt auf den Rohdaten,
  • Unity Catalog für eine zentrale, feingranulare Governance über alle Daten- und KI-Assets hinweg,
  • Delta Sharing für offenen und sicheren Datenaustausch ohne Datenreplikation,
  • einer sicheren Architektur mit klarer Trennung von Verwaltung und Verarbeitung,
  • und flexiblen Compute-Optionen wie Serverless,

bietet Databricks eine kohärente Plattform, die den gesamten Datenlebenszyklus von der Rohdatenerfassung über ETL/ELT und BI bis hin zu Data Science und Machine Learning unterstützt.

Es adressiert die Kernprobleme der Vergangenheit – Dateninkonsistenz, mangelnde Performance, fragmentierte Governance und Sicherheitsrisiken – und schafft eine Grundlage für Unternehmen, das volle Potenzial ihrer Daten zu erschließen, Innovationen voranzutreiben und fundierte Entscheidungen zu treffen. Das Verständnis dieser Kernkomponenten ist der Schlüssel zur erfolgreichen Implementierung und Nutzung des Lakehouse-Paradigmas mit Databricks.

Beratung & Umsetzung aus einer Hand