Microsoft Fabric Native Execution Engine: Neue Möglichkeiten für schnellere Spark Workloads
Microsoft hat kürzlich die finale Version (General Availability, GA) der Fabric Spark Native Execution Engine (NEE) veröffentlicht. Damit eröffnet der Technologiekonzern für Nutzer von Microsoft Fabric neue Wege, um bestehende Spark Workloads effizienter und leistungsfähiger zu gestalten. Im Folgenden werfen wir einen detaillierten Blick auf diese wichtige Neuerung und ordnen sie fachlich, technisch und strategisch ein – speziell aus Sicht innovativer Consultants und Anwender im B2B-Umfeld.
Was genau ist die Native Execution Engine (NEE)?
Bei der Native Execution Engine handelt es sich um eine spezialisierte Ausführungsumgebung auf Basis von C++, die für optimale Effizienz bei der Verarbeitung von Apache-Spark-Abfragen entwickelt wurde. Der Vorteil: Diese Engine nutzt vektorisierte Ausführungen auf Basis von Apache Gluten und Velox, und ermöglicht somit eine direkte und besonders performante Ausführung von Spark-Workloads.
Welche Performance-Vorteile ergeben sich durch den Einsatz der NEE?
Laut internen Tests und Microsoft-eigenen Benchmarks ergeben sich beeindruckende Leistungssteigerungen im Vergleich zu der üblichen Spark-Ausführung in der JVM. Microsoft berichtet beispielsweise bis zu einer vierfachen Geschwindigkeit auf Basis des TPC-DS-Benchmarks mit einer Datenmenge von 1 TB. Eigene interne Tests in Praxisanwendungen zeigten sogar Geschwindigkeitssteigerungen in End-to-End-Szenarien von bis zu 6x.
Diese Verbesserungen sind nicht nur theoretischer Natur, sondern wirken sich direkt positiv auf reale Projekte aus. Gerade für Unternehmen, die komplexe analytische Workloads, umfangreiche Data-Engineering-Pipelines oder interaktive Data-Science- und KI-Aufgaben nutzen, bedeutet dies eine drastisch erhöhte Produktivität durch reduzierte Laufzeiten und verbesserte Reaktionsfähigkeit ihrer Datenplattform.
Müssen bestehende Spark-Anwendungen verändert werden?
Einer der wesentlichen Vorteile der neuen NEE liegt in ihrer vollumfänglichen Kompatibilität: Es sind keinerlei Anpassungen oder Neukompilierungen Ihres bestehenden Spark-Codes notwendig. Denn Fabric NEE unterstützt Spark-3.5-APIs und gängige Formate wie Parquet und Delta Lake vollständig und integriert sich damit reibungslos in existierende Workflows und Lakehouse-Architekturen.
Wie lässt sich die neue Native Execution Engine aktivieren?
Je nach Szenario haben Nutzer gleich mehrere Möglichkeiten, um die NEE für ihre Fabric Spark-Umgebung zu aktivieren:
- In der Benutzeroberfläche (Fabric Portal): Sie legen über „New item“ ein neues Environment an und aktivieren unter der Registerkarte „Acceleration“ die Option „Enable native execution engine“. Diese Einstellung greift automatisch für alle Notebooks und Jobdefinitionen, die auf dieses Environment referenzieren.
- Ad-hoc-Konfiguration via Notebook: Die folgende Spark-Session-Einstellung aktiviert NEE für ein bestimmtes Notebook direkt:
%%configure { "conf": { "spark.native.enabled": "true" } }
Dieser Befehl wirkt sofort, ohne ein manuelles Neustarten erforderlich zu machen.
- Workspace-Globaleinstellung: Alternativ kann das gewünschte Environment als Default-Einstellung im Workspace eingerichtet werden. Dadurch profitieren sämtliche neue Spark-Instanzen automatisch von der verbesserten Performance.
Welche spezifischen Neuerungen wurden in der GA-Version eingeführt?
Die finale Version bietet zahlreiche Verbesserungen und Optimierungen – insbesondere im Zusammenspiel mit Delta Lake:
- Native Delta Write Acceleration: Deutlich schnelleres Schreiben von Delta-Lake-Dateien.
- Optimierte Delta Snapshot-Erstellung: Verbesserte Effizienz bei der Erzeugung von Snapshots.
- Unterstützung von Deletion Vectors: Effizientes Verarbeiten von Löschoperationen und Minimierung von Datenredundanz.
- Erweitertes Spektrum von Delta Operationen: Erhöhte Flexibilität und verbesserte Unterstützung häufig genutzter Operationen innerhalb der Spark-Umgebung.
Diese Neuerungen ergänzen den Umfang der verfügbaren Operationen fundamental und gewährleisten somit höchste Flexibilität bei gleichzeitig maximaler Performance.
Welche Wettbewerbsvorteile bringt die Nutzung der neuen Engine für Ihr Unternehmen?
Neben der offensichtlichen Steigerung der technischen Performance bietet die Fabric Native Execution Engine eine Reihe strategischer Vorteile im Wettbewerb:
- Kostenreduktion: Da die Nutzung der NEE in den bestehenden Preisen und Spark-Credits enthalten ist, entstehen keine zusätzlichen Ausgaben. Im Gegenteil: Durch kürzere Laufzeiten sinken effektiv die Betriebskosten bei identischer Leistung.
- Zeitersparnis: Raschere Ergebnisse ermöglichen schnellere Entwicklung und kürzere Zyklen von der Entwicklung bis zur Produktion, was entscheidend sein kann, um Projekttimelines einzuhalten und Wettbewerbsvorteile durch Schnelligkeit auszubauen.
- Bessere User Experience: Gerade für datenintensive Anwendungen wie interaktive Analysen oder Echtzeit-Abfragen führt eine schnellere Query-Ausführung zu höherer Zufriedenheit und effizienter Nutzung der Analysten und Data Scientists im Unternehmen.
- Skalierbarkeit: Optimierte Workload-Ausführung erweitert das Potenzial zur Nutzung größerer Datenmengen und komplexerer Analysemodelle, was Unternehmen ermöglicht, umfassendere und hochwertigere Erkenntnisse aus ihren Daten zu gewinnen.
Fazit: Beschleunigen Sie Ihre Spark Workloads mit minimalem Aufwand
Die General Availability der Fabric Spark Native Execution Engine von Microsoft ist mehr als nur ein technisches Update. Es handelt sich um einen bedeutenden Meilenstein, der echte, messbare Vorteile bei minimalem Implementierungsaufwand verspricht. Unternehmen, die bereits Azure und Databricks sowie Microsoft Fabric intensiv einsetzen, profitieren unmittelbar von gesteigerter Leistung, niedrigeren betrieblichen Kosten und schnelleren Abläufen.
Als langjähriger Expertendienstleister im Bereich Data Science und Industrial AI sehen wir von Ailio GmbH in der neuen Native Execution Engine klare Chancen für unsere Kunden: Schnellere Tests, zügigere Iterationen und verbesserte Time-to-Value sind nur die offensichtlichsten Effekte, die aus diesem Update entstehen.
Nutzen Sie das ganze Potenzial Ihrer Datenplattform – und machen Sie Ihre Spark Workflows jetzt schneller, effizienter und noch leistungsfähiger.