PySpark-Spickzettel: Spark-DataFrames in Python

Blog

PySpark-Spickzettel: Spark-DataFrames in Python

PySpark-Spickzettel: Spark-DataFrames in Python

Dieser PySpark SQL-Spickzettel ist Ihr praktischer Begleiter zu Apache Spark DataFrames in Python und enthält Codebeispiele.



Sie kennen wahrscheinlich bereits Apache Spark, die schnelle, allgemeine und Open-Source-Engine für die Verarbeitung von Big Data. Es verfügt über integrierte Module für Streaming, SQL, maschinelles Lernen und Graphverarbeitung. Mit Spark können Sie analytische Anwendungen im Vergleich zu anderen heute auf dem Markt erhältlichen Technologien bis zu 100-mal schneller beschleunigen. Die Verbindung von Spark mit Python ist mit PySpark einfach: Diese Spark Python-API stellt das Spark-Programmiermodell für Python bereit.

Jetzt ist es an der Zeit, sich mit dem Spark SQL-Modul, das für die strukturierte Datenverarbeitung gedacht ist, und der DataFrame-API, die nicht nur in Python, sondern auch in Scala, Java und R verfügbar ist, zu nähern. Wenn Sie mehr darüber erfahren möchten Unterschiede zwischen RDDs, DataFrames und DataSets,



Hier ist ohne weiteres der Spickzettel:

PySpark SQL-Spickzettel



Dieser PySpark SQL-Spickzettel behandelt die Grundlagen der Arbeit mit den Apache Spark DataFrames in Python: von der Initialisierung der SparkSession über das Erstellen von DataFrames, das Inspizieren der Daten, den Umgang mit doppelten Werten, das Abfragen, Hinzufügen, Aktualisieren oder Entfernen von Spalten, Gruppieren, Filtern oder Sortieren von Daten. Sie werden in diesem Spickzettel auch sehen, wie Sie SQL-Abfragen programmgesteuert ausführen, Ihre Daten in Parkett- und JSON-Dateien speichern und Ihre SparkSession beenden.

#python #spark #pyspark #data-science