Databricks bei Freshworks: So gelingt Echtzeit-Datenverarbeitung im großen Maßstab

Databricks als Schlüssel zur Echtzeit-Datenverarbeitung bei Freshworks: Ein Praxisbericht

Die Anforderungen an Datenplattformen steigen in der Ära von Künstlicher Intelligenz und datenbasierter Wertschöpfung rasant. Unternehmen wie Freshworks, die ihre Produkte als Software-as-a-Service (SaaS) anbieten und auf die Optimierung von Kunden- und Mitarbeitererlebnissen setzen, sehen sich täglich mit Millionen von Datensätzen aus unterschiedlichsten Quellen konfrontiert. Dieser Erfahrungsschatz ist für Ailio besonders relevant, da viele unserer Kunden ähnliche Herausforderungen in puncto Skalierbarkeit, Flexibilität, Datenisolation und Kostenoptimierung an uns herantragen. Deshalb lohnt ein Blick auf die Modernisierung der Daten-Pipeline bei Freshworks – eine Blaupause moderner Data Engineering-Projekte mit Fokus auf Databricks, Spark Structured Streaming und Delta Lake.

Herausforderungen der bisherigen Architektur

Freshworks basierte zu Beginn auf einer klassischen Pipeline: Python-Consumer erhielten Events von Kafka, wandelten sie um und leiteten sie weiter. Diese wurden gesammelt, zu CSV-Dateien verarbeitet und anschließend mittels Apache Airflow ins Data Warehouse geladen. Die Lösung funktionierte anfangs gut, doch spätestens mit exponentiellem Wachstum kamen die Grenzen zum Vorschein: Es fehlte an Echtzeitverarbeitung, die Systemlandschaft war fragmentiert und wartungsintensiv, und bei Multi-Tenant-Anforderungen stieß man an Limitierungen der Datenisolation und Performance.

Der Paradigmenwechsel: Moderne Architektur mit Databricks

Um diesen Herausforderungen gerecht zu werden, entschied sich Freshworks für eine tiefgreifende Neuausrichtung. Der Kern des neuen Konzepts: Spark Structured Streaming verarbeitet Events in Echtzeit direkt aus Kafka und schreibt sie nach der Transformation in Delta Lake – alles orchestriert innerhalb von Databricks.
Das Ergebnis ist eine nahtlose, hochskalierbare und autonome Pipeline, bei der Datenbewegungen minimiert, Wartung vereinfacht und Ausfallsicherheit maximiert wird.

1. Streaming mit Spark Structured Streaming

Der gesamte Datenfluss – von der Aufnahme über die Transformation bis zum Laden – erfolgt mit Spark Structured Streaming. Durch Batch-Optimierungen und individuell anpassbare Transformationen wird höchste Datengenauigkeit, Performance und Kostenkontrolle erreicht.

2. Speicherung im Lakehouse-Prinzip mit Delta Lake

Nach der Transformation landen sämtliche Events in Delta-Tables, die ACID-Konformität, Skalierbarkeit sowie effiziente Upserts und Queries ermöglichen. Delta Lake wird zum Herzstück einer modernen Data-Architektur für Echtzeit- und Historienanalysen.

3. Autoscaling und Echtzeitanpassung

Ein zentrales Feature: Die Pipeline unterstützt Autoscaling, basierend auf aktuellen Batch-Latenzen und Ausführungszeiten, und reagiert vollautomatisch auf wechselnde Datenströme. Das System bleibt damit hochperformant und ressourcenschonend, ganz ohne Eingriffe.

4. Resilienz und Fehlertoleranz

Durch umfangreiche Mechanismen zur Fehlerbehandlung wird sichergestellt, dass Datenintegrität und Verfügbarkeit auch bei Zwischenfällen erhalten bleiben – unverzichtbar in Multi-Tenant- und Echtzeitumgebungen.

5. Monitoring & Observability

Mit Lösungen wie Prometheus, Grafana und Elasticsearch integriert Freshworks eine umfassende Überwachung aller Prozessschritte. So werden Probleme schnell erkannt und Wartungszeiten minimiert.

Vorteile der neuen Architektur auf einen Blick

  • Zentralisierung: Ein einziger, integrierter Datenfluss ersetzt mehrere teils fragile Systeme. Das vermindert Komplexität und erleichtert die Wartung erheblich.
  • Echtzeit-Fähigkeit: Millisekundenaktuelle Einblicke in die Daten ermöglichen schnellere und besser informierte Geschäftsentscheidungen.
  • Skalierbarkeit: Die Architektur wächst organisch mit – ohne Flaschenhälse oder aufwendige Re-Designs.
  • Ressourcenschonung: Durch dynamisches Scaling und effiziente Verarbeitung kann Freshworks Kosten minimieren.
  • Transparenz & Kontrolle: Vom Monitoring bis zur Prozessautomatisierung: Die Teams arbeiten effizienter, autonomer und sicherer.

Lernkurven & Best Practices

Auch Freshworks ist auf dem Weg zur optimalen Architektur verschiedene Herausforderungen begegnet:

  • State Store Overhead: Ursprünglich sorgte die Nutzung von dropDuplicatesWithinWatermark für hohen Speicherbedarf. Die Lösung: Wechsel zu Delta Lake-Caching.
  • Clustering: Die Aufteilung auf zu viele Spalten führte zu Performanceproblemen. Die Reduktion auf ein Primärattribut verbesserte die Dateiorganisation messbar.
  • Garbage Collection: Lang laufende Jobs verlangsamten sich. Regelmäßige Neustarts beheben das Problem.
  • Data Skew: Unterschiedliche Event-Volumina pro Kafka-Topic ließen die Lastverteilung kippen. Eine intelligente Repartitionierung bringt Abhilfe.
  • Conditional Merges: Merge-Operationen wurden beschleunigt, indem irrelevante Daten schon vorab ausgeschlossen wurden.

Fazit: Zukunftssichere Datenarchitekturen mit Databricks

Die Modernisierung der Freshworks-Datenpipeline zeigt eindrucksvoll, worauf es bei Enterprise Data Engineering ankommt: Vereinfachung, Automatisierung, Performance und absolute Kontrolle über Datenströme. Databricks erweist sich in diesem Kontext als herausragende Plattform, um von Datenfragmentierung zu einheitlichen, hochperformanten Lösungen zu wechseln. Unternehmen, die wie Freshworks in Echtzeit und im großen Maßstab Daten verarbeiten müssen, profitieren enorm von diesem Ansatz.
Ailio unterstützt Sie gerne dabei, Ihre Pipeline auf ein neues Level zu bringen – von der Initialberatung bis zum skalierbaren Betrieb, auf Databricks und Azure.

Beratung & Umsetzung aus einer Hand