Generalisierungen
:Involvierte Definitionen
:Veranstaltung
: DEDSReferenz
: @storl2024 (KE5, Analyse von Big Data; Teil 4)
⠀
Definition: Spark DataFrame
Spark DataFrames stellen eine Erweiterung der RDD-Datenstruktur dar.
Im Gegensatz zu RDDs ermöglichen DataFrames eine schematische Darstellung der Daten, ähnlich zu relationalen Datenbanken, die sich:
- in einer vereinfachten high-level API sowie
- der Unterstützung von SQL-Abfragen
äußert. Das Schema kann entweder durch die Nutzer definiert oder direkt durch den DataFrame inferiert werden.
DataFrames bieten gegenüber RDDs zudem einige Optimierungen, wie z.B. Project Tungsten, um die Ausführungsgeschwindigkeit zu verbessern.
Anmerkung
Beispielhaftes Spark SQL Programm (mit der API)
Als beispielhaftes Spark Programm mit der DataFrame-API, hier die Zählung aller Studierenden nach Fakultät, wobei folgendes CSV gegeben sei:
Lesen, filtern und verarbeiten können wir die Daten nun wie folgt:
Beispielhaftes Spark SQL Programm (mit SQL)
Als beispielhaftes Spark Programm mit der DataFrame-SQL-Syntax, hier die Zählung aller Studierenden nach Fakultät, wobei folgendes CSV gegeben sei:
Lesen, filtern und verarbeiten können wir die Daten nun wie folgt: