Konstrukte:
- Evaluation der Dimensionsreduktion
Generalisierungen:
- Dimensionsreduktion
- Lineares Modell
Eigenschaften:
Charakterisierungen:
- PCA durch Singulärwertzerlegung
Hinreichende Bedingungen:
- PCA durch Singulärwertzerlegung
Involvierte Definitionen:
- Ungelabelter Datensatz
- Standardisierter Datensatz
- Hyperebene
- Unterraum
- Euklidische Norm
- Orthogonale Entfernung
- ONB
- siehe auch Singulärwertzerlegung
Veranstaltung: EML
Referenz: @thimm2024 (Abschnitt 3.5.1)

⠀

Definition: Hauptkomponentenanalyse

Als Hauptkomponentenanalyse (en. Principal Component Analysis, kurz PCA) bezeichnen wir eine häufig genutzte Methode zur Dimensionsreduktion.

Sei ein Datensatz mit .
Sei mit die Zieldimension.

Ist der empirische Mittelwert , so erhalten wir als Ergebnis der PCA eine Reihe von Vektoren durch:

PCA versucht also eine -dimensionale Hyperebene zu lernen, sodass die quadrierten Abstände aller Punkte zu dieser Ebene minimal sind.

Den reduzierten Datensatz erhalten wir dann durch , wobei

Anmerkung

ONB von ?

Ja, die sind natürlich Vektoren in .

Das ändert aber nichts an der Tatsache, dass sie für den Vektorraum eine ONB darstellen.

Die Dimensionen, die über alle Vektoren hinweg den Wert annehmen, können wir einfach streichen.

PCA mit scikit-learn
In Python erhalten wir eine PCA mit Zieldimension durch:
X=((12,7),(10,8),(10,7.5),(15,5),(16,9),(18,8))
 
from sklearn.decomposition import PCA
pca = PCA(n_components=1).fit(X)
Die Eigenwerte erhalten wir durch pca.explained_variance_.

/vault

Definition - Hauptkomponentenanalyse

⠀

Anmerkung

Graph View

Mentioned in