Dieses Modul erstellt ein Spark-Cluster zur Analyse von Daten.
Lokal ausführen:
docker-compose up
docker inspect daw-spark-spark-1 | grep "IPAddress"
from pyspark.sql import SparkSession
spark = SparkSession.Builder().master('spark://172.18.0.3:7077').appName("SparkByExamples.com").getOrCreate()
data_list = ["a", "b", "c", "d", "e", "f", "g", "h"]
list_rdd = spark.sparkContext.parallelize(data_list)
list_rdd.first()
Apache Spark ist ein Big Data Datenanalyse Framework. Im unterschied zu Bibliotheken wie Pandas ermöglicht Spark die Analyse von Daten in einem Cluster. Die Benutzung unterscheidet sich jedoch kaum von Pandas.
Die GitPod-URL muss in der README.md angepasst werden.