Involvierte Definitionen:Veranstaltung: DEDSReferenz:
⠀
Proposition: Einlesen von Daten in Spark
In Spark können wir ein
.csvauf zwei Arten einlesen:
df = spark.read.csv(path=data_path),
- wobei
data_patheinen Pfad im HDFS erwartet.df = sc.textFile(path=data_path),
- wobei
scder aktuelleSparkContextist unddata_patheinen Pfad im HDFS oder im Filesystem des Clients erwartet.- ist
lazy