Proposition: Konvergenz des stochastischen Gradientenabstiegsverfahren für konvexe Funktionen

Sei eine partiell differenzierbare Funktion mit Teilfunktionen , sodass .
Die Teilfunktionen seien konvex, total differenzierbar und -glatt.
Sei ein Parameter.
Sei die Schrittweite in der -ten Iteration mit .
Sei das Supremum des durchschnittlichen Gradienten über alle Minimalstellen wie folgt:

Sei die durch das stochastische Gradientenabstiegsverfahren definierte Folge mit beliebigem Startpunkt .

Dann gilt für alle :

wobei ein gemittelter Wert der sei mit