Definition: Hauptkomponentenanalyse

Als Hauptkomponentenanalyse (en. Principal Component Analysis, kurz PCA) bezeichnen wir eine häufig genutzte Methode zur Dimensionsreduktion.

Sei ein Datensatz mit .
Sei mit die Zieldimension.

Ist der empirische Mittelwert , so erhalten wir als Ergebnis der PCA eine Reihe von Vektoren durch:

PCA versucht also eine -dimensionale Hyperebene zu lernen, sodass die quadrierten Abstände aller Punkte zu dieser Ebene minimal sind.

Den reduzierten Datensatz erhalten wir dann durch , wobei

Anmerkung

ONB von ?

Ja, die sind natürlich Vektoren in .

Das ändert aber nichts an der Tatsache, dass sie für den Vektorraum eine ONB darstellen.

Die Dimensionen, die über alle Vektoren hinweg den Wert annehmen, können wir einfach streichen.

PCA mit scikit-learn

In Python erhalten wir eine PCA mit Zieldimension durch:

X=((12,7),(10,8),(10,7.5),(15,5),(16,9),(18,8))
 
from sklearn.decomposition import PCA
pca = PCA(n_components=1).fit(X)

Die Eigenwerte erhalten wir durch pca.explained_variance_.