Definition: Lineares Modell

Sei ein Datenpunkt.

Als lineares Modell auf definieren wir die Funktion mit

wobei die Parameter von seien.

Definition: Lineare Regression

Sei ein gelabelter Datensatz.
Sei ein lineares Modell.
Sei der quadratische Fehler des linearen Modells.

Die optimalen Parameter der linearen Regression erhalten wir durch

Das Optimierungsproblem lässt sich in geschlossener Form durch

lösen1. Die Invertierung der Matrix kann jedoch sehr aufwändig sein.

Alternativ kann das Problem natürlich numerisch, bspw. anhand des Gradientenabstiegsverfahren, gelöst werden.

Berechnung im zweidimensionalen Fall

Im zweidimensionalen Fall handelt es sich bei der linearen Regression um die Gerade

Die optimalen Parameter erhalten wir in diesem Fall mittels Methode der kleinsten Quadrate durch

wobei die Anzahl der Datenpunkte, das arithmetische Mittel der -Werte und das arithmetische Mittel der -Werte eines Datensatzes seien.

Anmerkung

Was ist das für eine Summe?

Die Summe lässt sich als -dimensionale Hyperebene interpretieren.

Lineare Regression mit scikit-learn

In Python erhalten wir ein lineares Modell durch

X = [[/23,36],[23,34],[26,29],[21,40],[20,33],[25,35]]
y = [0.1, 0, 1.2, -0.5, -1.5, 0.7]
 
from sklearn.linear_model import LinearRegression
reg = LinearRegression().fit(X,y)
 
reg.predict([(5,10)])

Die Gewichte erhalten wir wie folgt:

  • reg.intercept_
  • reg.coef_[0]
  • reg.coef_[1]

Footnotes

  1. Der Ausdruck wird manchmal auch als Pseudoinverse bezeichnet, sollte aber nicht mit der Moore-Penrose-Inversen verwechselt werden.