Definition: Quadratischer Fehler des Linearen Modells

Sei ein gelabelter Datensatz.
Sei ein lineares Modell.

Zu Berechnung des quadratischen Fehlers des Linearen Modells bilden wir jetzt noch die Datenmatrix von :

wobei es sich bei Einsen in der ersten Spalte von um die handelt, die implizit vor dem steht. Wir bezeichnen sie auch als Bias.

Der quadratische Fehler des linearen Modells ergibt sich nun durch

Wahrscheinlichkeitstheoretische Herleitung

Sei ein gelabelter Datensatz.

Insbesondere bei beobachteten Daten ist es nicht abwegig, davon auszugehen, dass unsere Zielvariablen verrauscht, also fehlerbehaftet sind.

Eine Zielvariable ergibt sich also tatsächlich durch

wobei der wahre Wert und der Fehler ist.

Für die lineare Regression treffen wir nun noch zwei weitere Annahmen:

  1. sei eine normalverteilte Zufallsvariable sei, also ,
  2. Die Fehler seien stochastisch unabhängig.

Die Likelihood dafür, einen Fehler der Ausprägung zu erhalten, beträgt also anhand der Dichte der Normalverteilung :

Stellen wir nun Gleichung etwas um, erhalten wir

und damit für

Wir bemerken außerdem kurz, dass

Mit den Gleichungen und gilt also auch

Halten wir nun die Dichte der Normalverteilung an die Gleichung heran, so sieht man, dass sich auch durch ergibt.

Unser Ziel ist es auf Basis des Datensatzes ein Lineares Modell zu lernen, das die wahren Werte bestmöglich vorhersagt, also .

Nach dem Maximum-Likelihood-Ansatz ist genau dasjenige Modell optimal, welches die größte Likelihood für den gegebenen Datensatz erreicht.

Die Likelihood-Funktion für ein einziges Merkmal erhalten wir nach Gleichung durch

Die Likelihood-Funktion des gesamten Datensatzes ergibt sich, (da wir angenommen hatten, dass die Fehler stochastisch unabhängig sind) durch das Produkt der jeweiligen Likelihood-Funktionen, also

Das optimale Modell erhalten wir also durch

Nach dem Theorem Gradient ist Null im Extremum, erhalten wir das Maximum1 von , indem wir partiell nach ableiten, also

Wegen des Produkts müssten wir hier jetzt eigentlich die Produktregel anwenden. Das ist aber ziemlich umständlich. Alternativ können wir auch die Log-Likelihood-Funktion bilden und diese ableiten:

Wir ändern Gleichung deshalb mithilfe der Eigenschaften des Logarithmus wie folgt ab:

ää

Da eine Konstante ist, können wir sie auch entfallen lassen und erhalten als Minimierungsproblem

also genau die Minimierung des oben definierten quadratischen Fehler des Modells.

Footnotes

  1. … und an sich auch das Minimum, siehe auch Unterscheidung von Maximum und Minimum über die zweite Ableitung.