Theorem: Gradientenabstiegsverfahren konvergiert für L-glatte und stark-konvexe Funktionen

Sei zweimal total differenzierbar.
Sei außerdem -glatt und -stark konvex.
Sei ein globales Minimum von

Sei die durch das Gradientenabstiegsverfahren definierte Folge mit

  • beliebigem Startpunkt und
  • Schrittweite .

Dann gilt für alle :

Insbesondere gilt damit mit Konvergenzordnung , also linear mit einer Rate von .