Konstrukte
:Generalisierungen
:Eigenschaften
:Charakterisierungen
:Hinreichende Bedingungen
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 3.5.1)
⠀
Definition: Hauptkomponentenanalyse
Als Hauptkomponentenanalyse (en. Principal Component Analysis, kurz PCA) bezeichnen wir eine häufig genutzte Methode zur Dimensionsreduktion.
Sei
ein Datensatz mit .
Seimit die Zieldimension. Ist der empirische Mittelwert
, so erhalten wir als Ergebnis der PCA eine Reihe von Vektoren durch: PCA versucht also eine
-dimensionale Hyperebene zu lernen, sodass die quadrierten Abstände aller Punkte zu dieser Ebene minimal sind. Den reduzierten Datensatz erhalten wir dann durch
, wobei
Anmerkung
ONB von
? Ja, die
sind natürlich Vektoren in . Das ändert aber nichts an der Tatsache, dass sie für den Vektorraum
eine ONB darstellen. Die Dimensionen, die über alle Vektoren
hinweg den Wert annehmen, können wir einfach streichen.
PCA mit scikit-learn
In Python erhalten wir eine PCA mit Zieldimension
durch: X=((12,7),(10,8),(10,7.5),(15,5),(16,9),(18,8)) from sklearn.decomposition import PCA pca = PCA(n_components=1).fit(X)
Die Eigenwerte erhalten wir durch
pca.explained_variance_
.