Involvierte Definitionen
:Veranstaltung
: DEDSReferenz
:
⠀
Proposition: Einlesen von Daten in Spark
In Spark können wir ein
.csv
auf zwei Arten einlesen:
df = spark.read.csv(path=data_path)
,
- wobei
data_path
einen Pfad im HDFS erwartet.df = sc.textFile(path=data_path)
,
- wobei
sc
der aktuelleSparkContext
ist unddata_path
einen Pfad im HDFS oder im Filesystem des Clients erwartet.- ist
lazy