Wie Bayer Consumer Health mit Databricks und Unity Catalog die Transformation zur Data-Driven Company gemeistert hat
Die Digitalisierung und globale Vernetzung stellen Unternehmen vor die Herausforderung, Daten effizient, sicher und skalierbar zu verwalten. Bayer Consumer Health, Teil eines der weltweit führenden Life Sciences Unternehmen, stand vor genau dieser Aufgabe: Mit mehr als 92.000 Mitarbeitenden in über 80 Ländern sollte jede:r weltweit schnell, sicher und flexibel auf relevante Daten zugreifen können – ohne Datensilos, ohne Kopierorgien, ohne Verwirrung.
Die Ausgangslage: Datensilos und „Data Tourism”
Vor der Modernisierung war die Datenlandschaft bei Bayer Consumer Health stark fragmentiert. Unterschiedliche Märkte arbeiteten mit eigenen Technologiestacks, verschiedene Zwecke führten zu mehrfachen Datenkopien und damit erheblichen Mehrkosten – ein Zustand, den Bayer als „Data Tourism” bezeichnete. Diese Situation erschwerte nicht nur das Datenmanagement und verlangsamte die Entwicklung neuer Analyselösungen, sondern brachte auch Sicherheits- und Governance-Herausforderungen mit sich:
- Wer nutzte welche Daten, und wie konnte man sichere Zugriffe gewährleisten?
- Wie war es möglich, Vertrauenswürdigkeit und Wiederverwendbarkeit von Daten assets zu garantieren?
- Wie sollten innovative Ansätze wie Machine Learning robust und skalierbar integriert werden?
Auch die Einführung von Machine-Learning-Tools war erschwert, da hierfür bislang separate, dedizierte Systeme mit eigenen Technologie-Stacks notwendig waren. Durch diese Komplexität konnten Innovationen nur langsam und unter hohen Kosten eingeführt werden.
Die Lösung: Eine einheitliche, Cloud-basierte Datenplattform auf Basis von Databricks
Mit dem Ziel, eine zentrale, skalierbare und kosteneffiziente Datenplattform zu etablieren, fiel die Wahl auf Databricks als Herzstück der neuen Datenarchitektur. Unterstützt werden sollte dies durch verschiedene Azure Services für Ingestion, Storage und Integration weiterer Azure-basierter Machine-Learning-Tools und KI-Dienste.
Der Ansatz: Sämtliche Daten werden zunächst konsolidiert, transformiert und qualitätsgesichert in Databricks bereitgestellt. Damit stehen den über 2.000 Business Usern und über 250 Data & ML Engineers qualitativ hochwertige, governierte Daten zur Verfügung – ganz gleich ob für klassische Business-Intelligence-Berichte, analytische Anwendungen oder den Aufbau von ML-Modellen.
Die Plattform musste dabei nicht nur skaliert, sondern auch flexible Nutzung gewährleisten. Dies bedeutet, dass lokale Teams in den Märkten eigene Anforderungen adressieren können, während globale Daten zentral zur Verfügung stehen. Die Lösung: Dedizierte, template-basierte Umgebungen, die durch Service-Isolation und Lifecycle-Management auf Basis von Databricks bereitgestellt wurden.
Unity Catalog: Zentrale Governance und effizientes Daten-Sharing
Ein zentraler Baustein dieser Transformation war die Einführung von Unity Catalog als Governance- und Metadatenschicht – und als Ersatz für das klassische Hive Metastore.
- Mit Unity Catalog wird Datennutzung über Projekte und Regionen hinweg zentral gesteuert.
- Teams können granular steuern, welche Daten sie wem bereitstellen und für welche Zwecke.
- Aufwändiges Kopieren von Daten entfällt, der Zugriff läuft nach dem Pull-Prinzip über klar definierte Freigaben.
- Der Austausch und die gemeinsame Nutzung von Core Data Assets über verschiedene Projekte und Regionen sind sicher und compliance-gerecht geregelt.
Ein wesentlicher Produktivitätsgewinn entsteht durch die Nutzung produktionsnaher Daten bereits im Entwicklungsumfeld. Über Unity Catalog konnten dedizierten Entwicklerumgebungen abgesicherter, performanter Zugriff auf produktive Datenbestände erhalten, wodurch neue Lösungen schneller aufgebaut und validiert werden können. Gleichzeitig bleibt die Compliance durch konsequente Durchsetzung von Datenabflussschutz und Zugriffsberechtigungen gewährleistet.
Zentrale Reporting-Endpunkte und unternehmensweite Self-Service-Analytics
Bayer Consumer Health hat zudem einen zentralen Reporting-Endpunkt etabliert, der alle relevanten Kataloge verbindet. Globale Core Data Assets werden nun in einer Region gemanagt, sodass Mitarbeitende weltweit Daten aus verschiedenen Domänen einfach auffinden, kombinieren und so Self-Service-Analytics betreiben können – ohne neue Silos oder uneinheitliche Datenmodelle zu riskieren.
Die Vorteile auf einen Blick: Effizienz, Transparenz, Flexibilität
- Entschlackung der Datenlandschaft: Keine redundanten Datenkopien mehr, weniger Komplexität, geringere Kosten.
- Zentrale Governance: Rechte- und Metadatenmanagement über alle Teams, Projekte und Regionen hinweg.
- Schnellere Time-to-Market: Entwicklungsumgebungen mit Zugriff auf aktuelle, qualitätsgesicherte Produktionsdaten unterstützen Innovationen und analytische Exzellenz.
- Skalierbarkeit durch Cloud und Serverless: Die Datenplattform wächst flexibel mit den Anforderungen – und bleibt dabei effizient.
- Unterstützung für Data Science und ML: Zugriff auf Azure ML und andere KI-Dienste erleichtert den Weg zur datengetriebenen Organisation.
- Self-Service-Enablement: Mitarbeiter können eigenständig, sicher und schnell datenbasierte Entscheidungen treffen.
Fazit: Bayer Consumer Health als Vorreiter moderner Datenarchitekturen
Mit der konsequenten Nutzung von Databricks und Unity Catalog hat Bayer Consumer Health gezeigt, wie sich eine komplexe, verteilte Organisation in eine agile, datengetriebene Company transformieren lässt – und das unter Wahrung höchster Governance- und Sicherheitsstandards. Die integrierte Cloud-Plattform macht nicht nur die unternehmensweite Nutzung und Wiederverwendung von Vertrauenswürdigen Datenassets möglich, sondern schafft auch eine skalierbare Basis für Analytics, Machine Learning und Industrial AI von morgen.
Für Unternehmen, die vor ähnlichen Herausforderungen stehen, ist der „Data Platform Ansatz“ ein Vorbild: Zentralisierte Steuerung, flexible Nutzung und konsequente Self-Service-Orientierung ebnen den Weg für nachhaltige Datennutzung und unternehmerische Innovationskraft.
Die Ailio GmbH unterstützt als spezialisierter Data Science und KI-Dienstleister Unternehmen dabei, moderne Cloud Data Platforms auf Basis von Databricks und Azure umzusetzen – für mehr Effizienz, Sicherheit und datengetriebene Wettbewerbsfähigkeit.