Proposition: Einlesen von Daten in Spark

In Spark können wir ein .csv auf zwei Arten einlesen:

  • df = spark.read.csv(path=data_path),
    • wobei data_path einen Pfad im HDFS erwartet.
  • df = sc.textFile(path=data_path),
    • wobei sc der aktuelle SparkContextist und data_path einen Pfad im HDFS oder im Filesystem des Clients erwartet.
    • ist lazy