Ein Datenfluss-POC mit Airflow

Blog

Was ist Luftstrom?

Airflow ist eine Workflow-Management-Plattform, die 2014 von Airbnb entwickelt wurde. Sie begann als Lösung aufgrund zunehmend komplexer Workflows in Airbnb. Airflow ist in **_Python _** geschrieben und Workflows werden über Python-Skripte erstellt. Airflow folgt dem Prinzip der Konfiguration als Code und verwendet Directed Acyclic Graphs (DAGS), um die Workflow-Orchestrierung zu verwalten.



Aufgrund der guten Tutorial-Anleitung in Airflow werde ich den Installationsprozess hier nicht veranschaulichen.

Wenn Sie Airflow erfolgreich installiert haben, führen Sie einfach den folgenden Befehl aus, um Airflow zu starten.



$ airflow initdb $ airflow webserver $ airflow scheduler

Zweck

Mein Ziel ist es, den Aktienkurs eines Unternehmens (mit Asus als Ziel) von Yahoo Finance zu crawlen und das Ergebnis alle 10 Minuten in MongoDB einzufügen.

Wir können den Job in der Diagrammansicht oder Baumansicht über die Airflow-Webschnittstelle sehen, wie das Bild unten zeigt.



Bild für Beitrag

Diagrammansicht

#mongodb #data #airflow #python #dataflow

medium.com

Ein Datenfluss-POC mit Airflow

Airflow ist eine Workflow-Management-Plattform, die 2014 von Airbnb entwickelt wurde. Sie begann als Lösung aufgrund zunehmend komplexer Workflows in Airbnb. Airflow ist in Python geschrieben und Workflows werden über Python-Skripte erstellt. Airflow folgt dem Prinzip der Konfiguration als Code und verwendet Directed Acyclic Graphs (DAGS), um die Workflow-Orchestrierung zu verwalten.