Tipp: Ziel des Gradientenabstiegsverfahrens

Sei eine partiell differenzierbare Funktion.

Ziel des Gradientenabstiegsverfahrens ist es, eine globale Minimalstelle zu bestimmen, also

Definition: Gradientenabstiegsverfahren

Sei eine partiell differenzierbare Funktion.

Als Gradientenabstiegsverfahren definieren wir die Iteration in Richtung des jeweils steilsten Abstiegs von , also:

wobei

  • der Startpunkt fest gewählt ist und
  • der Parameter die Schrittweite des Verfahrens beschreibt.

Anmerkung

Einschränkungen für konkave Funktionen

Ist eine konkave Funktion, so können zwei Probleme auftreten:

  • das Verfahren kann gegen ein lokales Minimum konvergieren.
  • das Verfahren kann gegen einen Sattelpunkt konvergieren.

Ist jedoch konvex, werden diese Fälle durch die Propositionen

ausgeschlossen.

Herleitung

In der Definition haben wir das Gradientenabstiegsverfahren durch die Eigenschaft hergeleitet, dass der Gradient in die Richtung des stärksten Wachstums weist.

Wie in @riedel2023 (S. 77) wollen wir hier noch die eine Herleitung mittels des Satzes von Taylor bzw. der Taylor-Approximation erläutern.

Ist also eine offene Menge und eine zweimal differenzierbare Funktion.

Dann gilt mit der mehrdimensionalen Taylor-Approximation für beliebige

heißt: eine Bewegung von aus in Richtung lässt sich mit einem maximalen Fehler von approximieren durch

Ziel des Gradientenabstiegsverfahrens ist das Finden einer Minimalstelle . Wir suchen also dasjenige , anhand dessen wir uns bestmöglich von aus in Richtung bewegen.

Da eine Minimalstelle ist, suchen wir also ein so, dass es den Ausdruck minimiert. Das ist äquivalent dazu, die Funktion zu minimieren, mit

Mithilfe der Lagrange-Funktion erhalten wir das optimale durch:

wobei der Schrittweite entspricht. Wollen wir dieses Verfahren iterieren, um zu finden, so ginge das durch

denn wir Bewegen uns von in Richtung um zu zu gelangen. Und das entspricht genau der Definition des Gradientenverfahrens.