Definition: z-transformierter gelabelter Datensatz

Sei ein gelabelter Datensatz.

Als z-transformierten (auch standardisierten) Datensatz bezeichnen wir:

mit

wobei das empirische Mittel und die empirische Standardabweichung des -ten Merkmals über alle Datenpunkte seien.

Definition: z-transformierter ungelabelter Datensatz

Sei ein Datensatz.

Als z-transformierten Datensatz bezeichnen wir:

mit

wobei das empirische Mittel und die empirische Standardabweichung des -ten Merkmals über alle Datenpunkte seien.

Anmerkung

Auswirkung der z-Transformation

Die z-Transformation “standardisiert” die Merkmale der Datenpunkte so, dass ihr Mittelwert und ihre Standardabweichung betragen.

Das führt dazu, dass die Merkmale untereinander vergleichbarer werden. Die Auswirkungen hiervon sieht man sehr schön beim Plotten von KNN-Entscheidungsgrenzen. Mit erhält man bspw. für einen nicht-standardisierten Datensatz:

Auf einem standardisierten Datensatz erhalten wir:

z-Transformation mit scikit-learn

In Python erhalten wir einen z-transformierten Datensatz durch:

X=((12,7),(10,8),(10,7.5),(15,5),(16,9),(18,8))
x_7 = (13, 9)
 
from sklearn.preprocessing import StandardScalar
transformer = StandardScalar().fit(X)
 
X_hat = transformer.transform(X)
x_7_hat = transformer.transform([x_7])[0]