Aleksander Fegel
09/06/2025

Effiziente PySpark-Entwicklung mit Databricks Runtime 17.0: Unified Profiling für UDFs jetzt verfügbar

Effiziente PySpark-Entwicklung mit Databricks Runtime 17.0 – Einheitliches Profiling für UDFs ab sofort verfügbar

Mit der Veröffentlichung der Databricks Runtime 17.0 bringt Databricks ein leistungsfähiges Feature auf den Markt, um die Qualität und Effizienz Ihrer Prozesse in PySpark weiter zu verbessern: das Unified Profiling für PySpark User-Defined Functions (UDFs). Als spezialisierter Data-Science- und KI-Dienstleister unterstützt die Ailio GmbH Unternehmen regelmäßig bei der Optimierung ihrer datenbasierten Prozesse und Applikationen auf Basis von Databricks und Azure. In diesem Artikel werfen wir einen detaillierten Blick auf das neue Profiling-Feature und zeigen, wie Ihr Unternehmen von den Neuerungen profitieren kann.

Was ist „Unified Profiling“ für PySpark UDFs?

Unified Profiling ist eine neue, integrierte Methode, um User-Defined Functions in PySpark umfassend zu analysieren. Mit diesem Werkzeug lässt sich unkompliziert ein Überblick zu Performance- und Speicherverbrauch beim Ausführen von PySpark-UDFs erzeugen. Dabei erlaubt das Werkzeug die präzise Messung von Kennzahlen wie Funktionsaufrufen, Laufzeiten und Speicherverbrauch auf einfache und übersichtliche Weise.

Dank dieser Neuerungen können Entwickler schnell Engpässe finden und diese gezielt beheben. Das Resultat sind höher performante, skalierbare und ressourcenschonendere PySpark-Anwendungen – insbesondere wichtig für Industrie und Großunternehmen, in deren Data-Engineering-Prozessen eine hohe Rechenlast entsteht und Ressourcenoptimierung entscheidend ist.

Die Vorteile des Unified Profiling gegenüber bisherigen Lösungen

Databricks hatte bereits in älteren Versionen Möglichkeiten zum Profiling bereitgestellt, allerdings waren diese vor allem auf Ebene des SparkContext angesiedelt. Mit Databricks Runtime 17.0 erhalten Entwickler nun ein deutlich flexibleres, SparkSession-basiertes Tool, das zusätzliche Vorteile gegenüber dem Legacy-Profiling bietet:

Unterstützung von Spark Connect: Anders als frühere Versionen ist das neue Profiling-Tool vollständig kompatibel mit Spark Connect und ermöglicht somit eine flexiblere Architekturgestaltung Ihrer Projekte.
Laufzeitkonfiguration: Das Feature kann bei Bedarf einfach zur Laufzeit aktiviert oder deaktiviert werden, indem entsprechende Runtime SQL-Parameter gesetzt werden.
Verbesserte Kompatibilität und API-Parität: Sowohl „show“- als auch „dump“-Kommandos stehen wie gewohnt zur Verfügung, ergänzt um neue Komfort-APIs, welche das Management der Profile deutlich vereinfachen.
Unterstützung registrierter UDFs: Das neue Unified Profiling-System erlaubt auch die Profilierung registrierter UDFs, was bisher mit älteren Methoden nicht möglich war.

Performantes Profiling mit Python-eigenen Features

Der Performance-Profiler des neuen Systems nutzt die bereits in Python eingebauten Profiling-Werkzeuge zur genauen Untersuchung der gesamten Performance auf Driver- und Executor-Ebene. Anwender können direkt erkennen, welche Funktionen wie häufig aufgerufen werden, welche Laufzeiten entstehen und an welchen internen Code-Stellen kritische Engstellen auftreten.

Anwendung und Interpretation der Performance-Messungen

Über einfache Kommandos lassen sich Profiling-Ergebnisse bequem visualisieren und ausgeben. Diese liefern zahlreiche Kennzahlen, darunter:

Anzahl ausgeführter Funktionsaufrufe
Gesamtlaufzeit spezifischer Methoden
Exakte Dateipfade und Zeilennummern, um kritische Stellen im eigenen Code schneller zu lokalisieren

Zudem kann über das „dump“-Feature das Ergebnis-Profil bequem gespeichert und weiter ausgewertet werden. Somit unterstützt das Unified Profiling eine effiziente iterative Entwicklung, welche Fehlerquellen schnell aufdeckt, behebt und dauerhaft optimiert.

Neues Speicherprofiling – Überblick und Nutzen

Neben der performance-basierten Analyse erweitert Databricks Runtime 17.0 auch die Möglichkeiten des Speichermanagements. Das neuartige Speicherprofiling basiert auf bewährten Python-Grundlagen („memory-profiler“ Paket) und liefert detaillierte Einblicke in den Ressourcenverbrauch Ihrer PySpark-Anwendungen.

Durchführung und Interpretation der Speicheranalysen

Beim Speicherprofiling werden die folgenden nützlichen Kennzahlen übersichtlich aufgeführt und ausgewertet:

„Mem usage“: Zeigt die Speichernutzung nach der Ausführung jeder einzelnen Zeile.
„Increment“: Liefert umfassende Angaben zu Änderungen im Speicherverbrauch von Zeile zu Zeile, sodass plötzliche Spitzen leicht identifizierbar sind.
„Occurrences“: Diese Angabe informiert über die Häufigkeit jedem Codesegmentes, welches ausgeführt wurde und könnte mögliche ineffiziente wiederholte Operationen sichtbar machen.

Für Unternehmen, die auf effiziente, performante und nachhaltige KI und Data-Prozesse setzen – wie wir es häufig bei unseren Kunden im Automotive- und Manufacturing-Bereich erleben – sind diese Informationen immens wertvoll, um Ressourcenverbrauch und Skalierbarkeit zu optimieren.

Praktische Einrichtung des Unified Profiling in Ihrem Cluster

Um diese Funktionalitäten zu nutzen, bedarf es einer einfachen Konfiguration auf dem eigenen Databricks Cluster. Dazu gehört unter anderem die Installation des Memory-Profiler-Pakets auf den Executor Nodes und das setzen entsprechender Konfigurationsparameter in der Runtime SQL-Konfiguration von Spark. Die Vorgehensweise ist benutzerfreundlich gestaltet und gut dokumentiert.

Fazit: Unified Profiling – ein wichtiger Schritt für performantere PySpark-Prozesse

Mit Unified Profiling in Databricks Runtime 17.0 steht Data Science- und Data Engineering-Experten ein hilfreiches Werkzeug zur Verfügung, um PySpark-Applikationen tiefgehend und souverän zu optimieren. Davon profitieren einerseits Entwickler, die Performance- und Speicherengpässe schnell erkennen und beheben können, und andererseits Unternehmen, die von verbessertem Ressourcenmanagement profitieren – mit messbaren Erfolgen in puncto Kostenreduktion und ökologischer Nachhaltigkeit.

Als renommiertes Beratungsunternehmen und Databricks-Spezialist unterstützt Ailio GmbH Ihre Organisation gerne dabei, Ihre datengetriebenen Prozesse mithilfe neuester Technologien kontinuierlich zu optimieren.

Wenn Sie mehr über Databricks Runtime 17.0, PySpark oder Industrial AI erfahren möchten oder Unterstützung bei der Implementierung dieser Technologien benötigen – lassen Sie uns gemeinsam den nächsten Schritt gehen.

Beratung & Umsetzung aus einer Hand

Im unverbindlichen Erstgespräch analysieren wir gemeinsam, ob der Lakehouse Ansatz Ihnen hilft und welches Potential für Data-Science & Künstliche Intelligenz in Ihrem Unternehmen steckt.
Als kleiner spezialisierter Dienstleister steht die Geschäftsführung bei jedem Projekt zu 100% dahinter.
Lernen Sie im Erstgespräch direkt unsere Geschäftsführung kennen. Keine Vorqualifizierung und Zeitverschwendung.
Bei Bedarf können wir gerne von Anfang an einen Architektur / Technologie-Experten hinzuziehen. Einfach bei der Terminbuchung anfragen.

Azure Files Premium LRS mit Zonal Placement: Neue Maßstäbe für Ausfallsicherheit und Performance in der Cloud

Azure Files Premium LRS mit Zonal Placement jetzt allgemein verfügbar – Was bedeutet das für Ihr Unternehmen? Die Digitalisierung und der Umstieg auf Cloud-Lösungen bringen

Aleksander Fegel Dezember 5, 2025

Optimierte Cloud-Speichernutzung für Databricks Delta Lakehouse: Best Practices zur Kostensenkung und Performancesteigerung

Optimierte Cloud-Speichernutzung für Databricks Delta-Lakehouse – Best Practices und Kostensenkung Die steigenden Anforderungen im Bereich Data Science und Künstlicher Intelligenz führen dazu, dass Unternehmen immer

Aleksander Fegel Dezember 5, 2025

Databricks setzt neuen Rekord: Sieben AWS Partner of the Year Awards 2025 für innovative Data- und KI-Lösungen

Databricks erreicht Rekord: Sieben Auszeichnungen bei den AWS Partner of the Year Awards 2025 Die jüngsten Entwicklungen im Data- und KI-Umfeld sind rasant – insbesondere,

Aleksander Fegel Dezember 5, 2025

Effiziente PySpark-Entwicklung mit Databricks Runtime 17.0: Unified Profiling für UDFs jetzt verfügbar

Effiziente PySpark-Entwicklung mit Databricks Runtime 17.0 – Einheitliches Profiling für UDFs ab sofort verfügbar

Was ist „Unified Profiling“ für PySpark UDFs?

Die Vorteile des Unified Profiling gegenüber bisherigen Lösungen

Performantes Profiling mit Python-eigenen Features

Anwendung und Interpretation der Performance-Messungen

Neues Speicherprofiling – Überblick und Nutzen

Durchführung und Interpretation der Speicheranalysen

Praktische Einrichtung des Unified Profiling in Ihrem Cluster

Fazit: Unified Profiling – ein wichtiger Schritt für performantere PySpark-Prozesse

Beratung & Umsetzung aus einer Hand

Azure Files Premium LRS mit Zonal Placement: Neue Maßstäbe für Ausfallsicherheit und Performance in der Cloud

Optimierte Cloud-Speichernutzung für Databricks Delta Lakehouse: Best Practices zur Kostensenkung und Performancesteigerung

Databricks setzt neuen Rekord: Sieben AWS Partner of the Year Awards 2025 für innovative Data- und KI-Lösungen

© 2022 Ailio GmbH

© 2022 Ailio GmbH