Azure Data Factory Tutorial: Ihre ersten Schritte zur einfachen Datenintegration in der Cloud

In der modernen Cloud-Welt ist das Verschieben und Transformieren von Daten eine alltägliche Notwendigkeit. Ob Sie Daten aus verschiedenen Quellen in ein zentrales Data Warehouse laden, Datenbanken synchronisieren oder Daten für Analyse-Workloads vorbereiten müssen – ein zuverlässiges Datenintegrationswerkzeug ist unerlässlich. Hier kommt Azure Data Factory (ADF) ins Spiel, Microsofts leistungsstarker und skalierbarer Cloud-ETL- und Datenintegrationsdienst.

Sie sind neu bei ADF und fragen sich, wie Sie anfangen sollen? Keine Sorge! Dieses Azure Data Factory Tutorial bietet Ihnen eine praktische ADF Einführung und führt Sie Schritt für Schritt durch die Erstellung Ihrer allerersten Datenpipeline. Am Ende werden Sie verstehen, wie Sie einfache Datenkopieraufgaben in Azure automatisieren können.

Voraussetzung: Sie benötigen ein aktives Azure-Abonnement. Falls Sie noch keines haben, können Sie oft mit einem kostenlosen Testkonto starten.

Was ist Azure Data Factory (Kurzüberblick)?

Azure Data Factory ist ein vollständig verwalteter, serverloser Dienst zur Datenintegration. Stellen Sie es sich als eine Orchestrierungsplattform vor, mit der Sie Datenflüsse (sogenannte Pipelines) erstellen, planen und überwachen können. Diese Pipelines können Daten aus einer Vielzahl von Quellen (lokal oder in der Cloud) abrufen, transformieren und in verschiedene Ziele laden.

Die Kernkomponenten von ADF sind:

  • Pipelines: Ein logischer Verbund von Aktivitäten, die zusammen eine Aufgabe ausführen.
  • Aktivitäten: Einzelne Verarbeitungsschritte in einer Pipeline (z.B. Daten kopieren, Stored Procedure ausführen, Data Flow ausführen).
  • Linked Services (Verknüpfte Dienste): Definieren die Verbindungsinformationen zu externen Ressourcen (z.B. Datenbanken, Dateispeicher, Cloud-Dienste). Wie ein Verbindungsstring.
  • Datasets (Datensätze): Repräsentieren die Struktur der Daten innerhalb der Datenspeicher (z.B. eine bestimmte Tabelle, eine Datei, ein Ordner).
  • Triggers (Auslöser): Definieren, wann eine Pipeline ausgeführt werden soll (manuell, nach Zeitplan, ereignisbasiert).

Szenario für unser Tutorial

Um die Grundlagen zu verstehen, erstellen wir eine sehr einfache, aber häufige Aufgabe: Wir kopieren eine Datei von einem Speicherort in Azure Blob Storage zu einem anderen Ordner im selben oder einem anderen Blob Storage Konto.

Schritt-für-Schritt Anleitung: Ihre erste ADF-Pipeline

Folgen Sie diesen Schritten, um Ihre erste Pipeline zu erstellen:

Schritt 1: Azure Data Factory erstellen

  1. Melden Sie sich im Azure Portal an.
  2. Klicken Sie auf „+ Ressource erstellen“.
  3. Suchen Sie nach „Data Factory“ und wählen Sie den Dienst aus.
  4. Klicken Sie auf „Erstellen“.
  5. Füllen Sie die erforderlichen Felder aus:
    • Abonnement: Wählen Sie Ihr Azure-Abonnement.
    • Ressourcengruppe: Wählen Sie eine vorhandene oder erstellen Sie eine neue (z.B. rg-adf-tutorial).
    • Region: Wählen Sie eine Region in Ihrer Nähe (z.B. „West Europe“).
    • Name: Geben Sie einen eindeutigen Namen für Ihre Data Factory an (z.B. adf-ailio-tutorial).
    • Version: Stellen Sie sicher, dass V2 ausgewählt ist.
    • (Optional) Konfigurieren Sie Git-Integration, Netzwerk und Tags nach Bedarf (für dieses Tutorial können Sie die Standardeinstellungen belassen).
  6. Klicken Sie auf „Überprüfen + erstellen“ und dann auf „Erstellen“. Die Bereitstellung dauert einige Minuten.

Schritt 2: ADF Studio starten

  1. Sobald die Bereitstellung abgeschlossen ist, navigieren Sie zu Ihrer neu erstellten Data Factory Ressource.
  2. Klicken Sie auf der Übersichtsseite auf die Kachel „Öffnen“ unter „Azure Data Factory Studio öffnen“. Dies öffnet die visuelle Entwicklungsumgebung in einem neuen Tab.

Schritt 3: Linked Services erstellen

Wir benötigen Verbindungen zu unserem Quell- und Zielspeicher.

  1. Klicken Sie im ADF Studio links auf das Schraubenschlüssel-Symbol („Verwalten“).
  2. Gehen Sie zu „Verknüpfte Dienste“ und klicken Sie auf „+ Neu“.
  3. Suchen Sie nach „Azure Blob Storage“ und wählen Sie es aus. Klicken Sie auf „Weiter“.
  4. Konfigurieren Sie den Quell-Linked Service:
    • Name: Geben Sie einen Namen ein (z.B. ls_blob_source).
    • Integration Runtime: Belassen Sie es bei AutoResolveIntegrationRuntime.
    • Authentifizierungsmethode: Wählen Sie eine geeignete Methode (z.B. „Kontoschlüssel“, „Systemseitig zugewiesene verwaltete Identität“ wenn ADF Zugriff auf den Speicher hat).
    • Azure-Abonnement & Speicherkontoname: Wählen Sie Ihr Abonnement und das Speicherkonto aus, in dem sich Ihre Quelldatei befindet.
    • Klicken Sie auf „Verbindung testen“, um sicherzustellen, dass alles funktioniert.
    • Klicken Sie auf „Erstellen“.
  5. Wiederholen Sie die Schritte 3 und 4, um einen Ziel-Linked Service zu erstellen (z.B. ls_blob_sink), der auf das Ziel-Speicherkonto (kann dasselbe Konto sein) verweist.

Schritt 4: Datasets erstellen

Jetzt definieren wir, auf welche Daten (Ordner/Dateien) wir zugreifen wollen.

  1. Klicken Sie im ADF Studio links auf das Stift-Symbol („Erstellen“).
  2. Bewegen Sie den Mauszeiger über „Datasets“ und klicken Sie auf die drei Punkte (…), dann auf „+ Neues Dataset“.
  3. Wählen Sie „Azure Blob Storage“ als Datenspeicher und klicken Sie auf „Weiter“.
  4. Wählen Sie das Format Ihrer Datei (z.B. „Binary“ für eine 1:1 Kopie oder „DelimitedText“ für CSV). Für dieses Beispiel nehmen wir „Binary“. Klicken Sie auf „Weiter“.
  5. Konfigurieren Sie das Quell-Dataset:
    • Name: Geben Sie einen Namen ein (z.B. ds_blob_source_file).
    • Verknüpfter Dienst: Wählen Sie den zuvor erstellten ls_blob_source.
    • Dateipfad: Navigieren Sie zum Container und ggf. Ordner/Datei, die Sie kopieren möchten. Lassen Sie den Dateinamen leer, wenn Sie einen ganzen Ordner kopieren möchten, oder geben Sie den spezifischen Dateinamen an.
    • Klicken Sie auf „OK“.
  6. Wiederholen Sie die Schritte 2-5, um ein Ziel-Dataset zu erstellen (z.B. ds_blob_sink_folder). Wählen Sie hier den ls_blob_sink als verknüpften Dienst und geben Sie den Ziel-Container und ggf. Ziel-Ordner an. Lassen Sie den Dateinamen leer, da die Kopieraktivität diesen aus der Quelle übernimmt.

Schritt 5: Pipeline erstellen

  1. Bewegen Sie den Mauszeiger über „Pipelines“ und klicken Sie auf die drei Punkte (…), dann auf „+ Neue Pipeline“.
  2. Geben Sie Ihrer Pipeline einen Namen im Eigenschaftenbereich rechts (z.B. pl_copy_blob_to_blob).
  3. Erweitern Sie im Bereich „Aktivitäten“ den Abschnitt „Verschieben und transformieren“.
  4. Ziehen Sie die Aktivität „Daten kopieren“ per Drag & Drop auf die leere Pipeline-Canvas.

Schritt 6: Copy Data Aktivität konfigurieren

  1. Klicken Sie auf die „Daten kopieren“-Aktivität auf der Canvas.
  2. Gehen Sie im unteren Bereich zum Tab „Quelle“.
  3. Wählen Sie Ihr Quell-Dataset (ds_blob_source_file) aus der Dropdown-Liste aus.
  4. Gehen Sie zum Tab „Senke“.
  5. Wählen Sie Ihr Ziel-Dataset (ds_blob_sink_folder) aus.
  6. (Optional) Erkunden Sie die Tabs „Zuordnung“ (um Spalten zuzuordnen, bei strukturierten Daten relevant) und „Einstellungen“ (für Timeouts, Wiederholungsversuche etc.). Für unser einfaches Beispiel sind die Standardeinstellungen ausreichend.

Schritt 7: Pipeline debuggen/ausführen

  1. Klicken Sie oberhalb der Pipeline-Canvas auf „Debuggen“. Dies führt die Pipeline sofort aus, ohne sie zu veröffentlichen (ideal zum Testen).
  2. Wechseln Sie im unteren Bereich zum Tab „Ausgabe“. Hier sehen Sie den Fortschritt und das Ergebnis des Debug-Laufs (Status: „In Bearbeitung“, „Erfolgreich“, „Fehler“).
  3. (Optional) Um Ihre Pipeline dauerhaft zu speichern, klicken Sie oben auf „Alle veröffentlichen“. Um sie z.B. täglich auszuführen, könnten Sie einen „Trigger“ hinzufügen („+ Neu/Bearbeiten“ bei Triggern).

Schritt 8: Ergebnis überprüfen

Navigieren Sie im Azure Portal oder mit dem Azure Storage Explorer zu Ihrem Ziel-Blob-Storage-Container. Sie sollten dort nun die kopierte Datei vorfinden!

Zusammenfassung & Nächste Schritte

Herzlichen Glückwunsch! Sie haben soeben Ihre erste Azure Data Factory Pipeline erstellt und erfolgreich ausgeführt. Sie haben gelernt, wie Sie:

  • Eine Data Factory Instanz erstellen.
  • Verbindungen zu Datenspeichern (Linked Services) herstellen.
  • Datenstrukturen (Datasets) definieren.
  • Eine Pipeline mit einer Kopieraktivität erstellen und konfigurieren.
  • Ihre Pipeline testen (Debuggen).

Dies ist natürlich nur der Anfang. Azure Data Factory bietet eine riesige Bandbreite an Konnektoren und Aktivitäten, einschließlich komplexer Datentransformationen mit Mapping Data Flows, Ausführung von Code (Azure Functions, Databricks Notebooks), Control-Flow-Logik und vielem mehr.

Möchten Sie tiefer eintauchen oder benötigen Sie Unterstützung bei komplexeren Datenintegrationsszenarien in Azure?

Ailio ist Ihr erfahrener Partner für Azure Data Engineering und Data Science. Kontaktieren Sie uns, um zu erfahren, wie wir Ihre Datenintegration optimieren können!

Beratung & Umsetzung aus einer Hand