Heavy-tailed nature of stochastic gradient descent in deep learning : theoretical and empirical analysis ; Nature à queue lourde de l'algorithme du gradient stochastique en apprentissage profond : analyse théorique et empirique

Medientyp: Sonstige Veröffentlichung; E-Book; Elektronische Hochschulschrift

Titel: Heavy-tailed nature of stochastic gradient descent in deep learning : theoretical and empirical analysis ; Nature à queue lourde de l'algorithme du gradient stochastique en apprentissage profond : analyse théorique et empirique

Beteiligte: Nguyen, Thanh Huy [VerfasserIn]

Erschienen: theses.fr, 2021-01-21

Sprache: Englisch

Schlagwörter: Algorithme du gradient stochastique ; Apprentissage profond ; Stochastic gradient descent ; Deep learning ; Alpha-stable distribution ; Distribution alpha-stable

Entstehung:

Anmerkungen: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.

Beschreibung: Dans cette thèse, nous nous intéressons à l'algorithme du gradient stochastique (SGD). Plus précisément, nous effectuons une analyse théorique et empirique du comportement du bruit de gradient stochastique (GN), qui est défini comme la différence entre le gradient réel et le gradient stochastique, dans les réseaux de neurones profonds. Sur la base de ces résultats, nous apportons une perspective alternative aux approches existantes pour étudier SGD. Le GN dans SGD est souvent considéré comme gaussien pour des raisons mathématiques. Cette hypothèse permet d'étudier SGD comme une équation différentielle stochastique (SDE) pilotée par un mouvement brownien. Nous soutenons que l'hypothèse de la gaussianité pourrait ne pas tenir dans les contextes d'apprentissage profond et donc rendre inappropriées les analyses basées sur le mouvement brownien. Inspiré de phénomènes naturels non gaussiens, nous considérons le GN dans un contexte plus général qui suggère que le GN est mieux approché par un vecteur aléatoire à "queue lourde" alpha-stable. En conséquence, nous proposons d'analyser SGD comme une discrétisation d'une SDE pilotée par un mouvement Lévy. Premièrement, pour justifier l'hypothèse alpha-stable, nous menons des expériences sur des scénarios communs d'apprentissage en profondeur et montrons que dans tous les contextes, le GN est hautement non gaussien et présente des queues lourdes. Deuxièmement, sous l'hypothèse du GN à queue lourde, nous fournissons une analyse non asymptotique pour que la dynamique en temps discret SGD converge vers le minimum global en termes de sous-optimalité. Enfin, nous étudions la nature de métastabilité de la SDE pilotée par le mouvement de Lévy qui peut ensuite être exploitée pour clarifier le comportement de SGD, notamment en termes de "préférence de larges minima". Plus précisément, nous fournissons une analyse théorique formelle où nous dérivons des conditions explicites pour la taille de pas de sorte que le comportement de métastabilité de SGD, considéré comme une SDE en temps ...

Zugangsstatus: Freier Zugang

Nur in Feld suchen:

Zuletzt gesuchte Begriffe: