Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

ОбъясняСм Π½Π° ΠΏΠ°Π»ΡŒΡ†Π°Ρ… ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏ дСйствия ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ² для Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй: основныС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹, ΠΈ Π·Π°Ρ‡Π΅ΠΌ ΠΎΠ½ΠΈ Π½ΡƒΠΆΠ½Ρ‹

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

ΠžΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Ρ‹ β€” Π²Π°ΠΆΠ½Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй. Они ΠΈΠ³Ρ€Π°ΡŽΡ‚ Π²Π°ΠΆΠ½ΡƒΡŽ Ρ€ΠΎΠ»ΡŒ Π² процСссС Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй, помогая ΠΈΠΌ Π΄Π΅Π»Π°Ρ‚ΡŒ всё Π±ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΡ‡Π½Ρ‹Π΅ ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·Ρ‹. Π‘ΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ ΠΊ старту Π½ΠΎΠ²ΠΎΠ³ΠΎ ΠΏΠΎΡ‚ΠΎΠΊΠ° Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½Π½ΠΎΠ³ΠΎ курса ΠΏΠΎ ΠΌΠ°ΡˆΠΈΠ½Π½ΠΎΠΌΡƒ ΠΈ Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠΌΡƒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ, дСлимся с Π²Π°ΠΌΠΈ простым описаниСм основных ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Ρ… ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Π°ΠΌΠΈ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска, Ρ‚Π°ΠΊΠΈΠΌΠΈ ΠΊΠ°ΠΊ SGD, Momentum, RMSProp, Adam ΠΈ Π΄Ρ€.

ΠžΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Ρ‹ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‚ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ, Ρ‚Π°ΠΊΠΈΡ… ΠΊΠ°ΠΊ вСс ΠΈ смСщСниС, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΡ€ΠΈ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΈ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ модСль Π²Ρ‹Π΄Π°Π²Π°Π»Π° Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹.

Π‘Π°ΠΌΠΎΠΉ распространённой Ρ‚Π΅Ρ…Π½ΠΈΠΊΠΎΠΉ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠΎΠΉ Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎΠΌ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй, являСтся Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска.

Π‘ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ популярных Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊ Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ³ΠΎ обучСния, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€ PyTorch ΠΈ Keras, ΠΈΠΌΠ΅ΡŽΡ‚ мноТСство встроСнных ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ², Π±Π°Π·ΠΈΡ€ΡƒΡŽΡ‰ΠΈΡ…ΡΡ Π½Π° использовании Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€ SGD, Adadelta, Adagrad, RMSProp, Adam ΠΈ ΠΏΡ€.

Но ΠΏΠΎΡ‡Π΅ΠΌΡƒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ Ρ‚Π°ΠΊ ΠΌΠ½ΠΎΠ³ΠΎ? Как Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ ΠΈΠ· Π½ΠΈΡ… ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹ΠΉ?

Π’ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ†ΠΈΠΈ ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΈΠ· Ρ‚Π°ΠΊΠΈΡ… ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ² приводится Ρ„ΠΎΡ€ΠΌΡƒΠ»Π°, с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Ρ‚Π°ΠΊΠΈΠ΅ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Ρ‹ ΠΎΠ±Π½ΠΎΠ²Π»ΡΡŽΡ‚ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π§Ρ‚ΠΎ ΠΆΠ΅ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ каТдая Ρ„ΠΎΡ€ΠΌΡƒΠ»Π°, ΠΈ Π² Ρ‡Ρ‘ΠΌ Π΅Ρ‘ смысл?

Π₯ΠΎΡ‡Ρƒ ΡƒΡ‚ΠΎΡ‡Π½ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ данная ΡΡ‚Π°Ρ‚ΡŒΡ написана для Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π²Ρ‹ поняли ΠΎΠ±Ρ‰ΡƒΡŽ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½Ρƒ ΠΈ ΠΊΠ°ΠΊ Π² Ρ‚Π°ΠΊΡƒΡŽ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½Ρƒ вписываСтся ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ. Π― Π½Π΅ Π±ΡƒΠ΄Ρƒ здСсь ΠΏΠΎΠ³Ρ€ΡƒΠΆΠ°Ρ‚ΡŒΡΡ Π² Π³Π»ΡƒΠ±ΠΈΠ½Π½Ρ‹Π΅ смыслы самих Ρ„ΠΎΡ€ΠΌΡƒΠ», Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Ρ€Π°ΡΡΡƒΠΆΠ΄Π°Ρ‚ΡŒ ΠΎ матСматичСских тонкостях Π»ΡƒΡ‡ΡˆΠ΅ всСго Π² ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠΉ ΡΡ‚Π°Ρ‚ΡŒΠ΅.

ΠžΠ±Π·ΠΎΡ€ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ Π½Π° Π±Π°Π·Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска

ΠšΡ€ΠΈΠ²Π°Ρ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ

Начнём с Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ рассмотрим Π½Π° 3D-ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΈ, ΠΊΠ°ΠΊ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ стандартный Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ ΡΠ΅Ρ‚ΠΈΠšΡ€ΠΈΠ²Π°Ρ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ для Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска

На рисункС ΠΏΠΎΠΊΠ°Π·Π°Π½Π° ΡΠ΅Ρ‚ΡŒ с двумя вСсовыми ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ:

На Π³ΠΎΡ€ΠΈΠ·ΠΎΠ½Ρ‚Π°Π»ΡŒΠ½ΠΎΠΉ плоскости Ρ€Π°Π·ΠΌΠ΅Ρ‰Π°ΡŽΡ‚ΡΡ Π΄Π²Π΅ оси для вСсов w1 ΠΈ w2, соотвСтствСнно.

На Π²Π΅Ρ€Ρ‚ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎΠΉ оси ΠΎΡ‚ΠΊΠ»Π°Π΄Ρ‹Π²Π°ΡŽΡ‚ΡΡ значСния ΠΏΠΎΡ‚Π΅Ρ€ΡŒ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ сочСтания вСсов.

Π”Ρ€ΡƒΠ³ΠΈΠΌΠΈ словами, Ρ„ΠΎΡ€ΠΌΠ° ΠΊΡ€ΠΈΠ²ΠΎΠΉ являСтся ΠΎΡ‚Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ΠΌ β€œΠ»Π°Π½Π΄ΡˆΠ°Ρ„Ρ‚Π° ΠΏΠΎΡ‚Π΅Ρ€ΡŒβ€ Π² Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΡ€ΠΈΠ²Π°Ρ прСдставляСт ΠΏΠΎΡ‚Π΅Ρ€ΠΈ для Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ вСсов ΠΏΡ€ΠΈ сохранСнии Π½Π΅ΠΈΠ·ΠΌΠ΅Π½Π½Ρ‹ΠΌ фиксированного Π½Π°Π±ΠΎΡ€Π° Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ….

Биняя линия соотвСтствуСт Ρ‚Ρ€Π°Π΅ΠΊΡ‚ΠΎΡ€ΠΈΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска ΠΏΡ€ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ:

Π Π°Π±ΠΎΡ‚Π° Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° начинаСтся с Π²Ρ‹Π±ΠΎΡ€Π° Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… случайных Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΎΠ±ΠΎΠΈΡ… вСсов ΠΈ вычислСния значСния ΠΏΠΎΡ‚Π΅Ρ€ΠΈ.

ПослС ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ вСсовыС значСния Π±ΡƒΠ΄ΡƒΡ‚ ΠΎΠ±Π½ΠΎΠ²Π»ΡΡ‚ΡŒΡΡ (Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ Ρ‡Π΅Π³ΠΎ, ΠΊΠ°ΠΊ ΠΌΠΎΠΆΠ½ΠΎ Π½Π°Π΄Π΅ΡΡ‚ΡŒΡΡ, снизится потСря), ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Ρ‰Π°Ρ‚ΡŒΡΡ вдоль ΠΊΡ€ΠΈΠ²ΠΎΠΉ ΠΊ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΉ (Π±ΠΎΠ»Π΅Π΅ Π½ΠΈΠΆΠ½Π΅ΠΉ) Ρ‚ΠΎΡ‡ΠΊΠ΅.

Π’ ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎΠΌ ΠΈΡ‚ΠΎΠ³Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ достигаСт Ρ†Π΅Π»ΠΈ, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ ΠΏΡ€ΠΈΡ…ΠΎΠ΄ΠΈΡ‚ Π² ниТнюю Ρ‚ΠΎΡ‡ΠΊΡƒ ΠΊΡ€ΠΈΠ²ΠΎΠΉ β€” Π² Ρ‚ΠΎΡ‡ΠΊΡƒ с самым Π½ΠΈΠ·ΠΊΠΈΠΌ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠΌ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ.

ВычислСниС Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π°

Алгоритм обновляСт значСния вСсов, ΠΎΡΠ½ΠΎΠ²Ρ‹Π²Π°ΡΡΡŒ Π½Π° значСниях Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π° ΠΊΡ€ΠΈΠ²ΠΎΠΉ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ Π² Π΄Π°Π½Π½ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠ΅, ΠΈ Π½Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π΅ скорости обучСния.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ ΡΠ΅Ρ‚ΠΈΠžΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска

Π“Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ измСряСт ΡƒΠΊΠ»ΠΎΠ½ ΠΈ рассчитываСтся ΠΊΠ°ΠΊ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ измСнСния Π² Π²Π΅Ρ€Ρ‚ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎΠΌ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ (dL), ΠΏΠΎΠ΄Π΅Π»Ρ‘Π½Π½ΠΎΠ΅ Π½Π° Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ измСнСния Π³ΠΎΡ€ΠΈΠ·ΠΎΠ½Ρ‚Π°Π»ΡŒΠ½ΠΎΠΌ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ (dW). Π”Ρ€ΡƒΠ³ΠΈΠΌΠΈ словами, для ΠΊΡ€ΡƒΡ‚Ρ‹Ρ… ΡƒΠΊΠ»ΠΎΠ½ΠΎΠ² Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π° большоС, для ΠΏΠΎΠ»ΠΎΠ³ΠΈΡ… β€” малСнькоС.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСтиВычислСниС Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π°

ΠŸΡ€Π°ΠΊΡ‚ΠΈΡ‡Π΅ΡΠΊΠΎΠ΅ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска

Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½ΠΎΠ΅ прСдставлСниС ΠΊΡ€ΠΈΠ²Ρ‹Ρ… ΠΏΠΎΡ‚Π΅Ρ€ΡŒ вСсьма ΠΏΠΎΠ»Π΅Π·Π½ΠΎ для понимания сути Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска. Однако Π½ΡƒΠΆΠ½ΠΎ ΠΏΠΎΠΌΠ½ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ описываСмый сцСнарий скорСС ΠΈΠ΄Π΅Π°Π»Π΅Π½, Ρ‡Π΅ΠΌ Ρ€Π΅Π°Π»Π΅Π½.

Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, Π½Π° ΠΏΡ€ΠΈΠ²Π΅Π΄Ρ‘Π½Π½ΠΎΠΌ Π²Ρ‹ΡˆΠ΅ рисункС кривая ΠΏΠΎΡ‚Π΅Ρ€ΡŒ ΠΈΠ΄Ρ‘Ρ‚ идСально ΠΏΠ»Π°Π²Π½ΠΎ. На самом Π΄Π΅Π»Π΅ Π³ΠΎΡ€Π±ΠΎΠ² ΠΈ Π²ΠΏΠ°Π΄ΠΈΠ½ Π½Π° Π½Π΅ΠΉ Π³ΠΎΡ€Π°Π·Π΄ΠΎ большС, Ρ‡Π΅ΠΌ ΠΏΠ»Π°Π²Π½Ρ‹Ρ… мСст.

Π’ΠΎ-Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ Π½Π΅ с двумя ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ, Π° с Π³ΠΎΡ€Π°Π·Π΄ΠΎ большим ΠΈΡ… числом. ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ дСсятки ΠΈΠ»ΠΈ Π΄Π°ΠΆΠ΅ сотни ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ², ΠΈΡ… просто Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ Π²ΠΈΠ·ΡƒΠ°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΈ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚ΡŒ Π΄Π°ΠΆΠ΅ мыслСнно.

На ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚, «ΠΎΠ·ΠΈΡ€Π°ΡΡΡŒ ΠΏΠΎ всСм направлСниям, находя самый пСрспСктивный ΡƒΠΊΠ»ΠΎΠ½, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌΡƒ ΠΌΠΎΠΆΠ½ΠΎ ΡΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒΡΡ Π²Π½ΠΈΠ·». Но Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΎΠΈΠ·ΠΎΠΉΠ΄Ρ‘Ρ‚, Ссли Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π²Ρ‹Π±Π΅Ρ€Π΅Ρ‚ Π»ΡƒΡ‡ΡˆΠΈΠΉ, ΠΏΠΎ Π΅Π³ΠΎ мнСнию, ΡƒΠΊΠ»ΠΎΠ½, Π½ΠΎ это Π±ΡƒΠ΄Π΅Ρ‚ Π½Π΅ Π»ΡƒΡ‡ΡˆΠ΅Π΅ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅? Π§Ρ‚ΠΎ Π΄Π΅Π»Π°Ρ‚ΡŒ, Ссли:

Π›Π°Π½Π΄ΡˆΠ°Ρ„Ρ‚ ΠΊΡ€ΡƒΡ‚ΠΎ ΡƒΡ…ΠΎΠ΄ΠΈΡ‚ Π²Π½ΠΈΠ· Π² ΠΎΠ΄Π½ΠΎΠΌ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ, Π½ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠΏΠ°ΡΡ‚ΡŒ Π² ΡΠ°ΠΌΡƒΡŽ ниТнюю Ρ‚ΠΎΡ‡ΠΊΡƒ, Π½ΡƒΠΆΠ½ΠΎ Π΄Π²ΠΈΠ³Π°Ρ‚ΡŒΡΡ Π² Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ с мСньшими измСнСниями высоты?

Π’Π΅ΡΡŒ Π»Π°Π½Π΄ΡˆΠ°Ρ„Ρ‚ прСдставляСтся Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡƒ плоским Π²ΠΎ всСх направлСниях?

Алгоритм ΠΏΠΎΠΏΠ°Π΄Π°Π΅Ρ‚ Π² Π³Π»ΡƒΠ±ΠΎΠΊΡƒΡŽ ΠΊΠ°Π½Π°Π²Ρƒ? Как Π΅ΠΌΡƒ ΠΎΡ‚Ρ‚ΡƒΠ΄Π° Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒΡΡ?

Π”Π°Π²Π°ΠΉΡ‚Π΅ рассмотрим нСсколько ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² ΠΊΡ€ΠΈΠ²Ρ‹Ρ…, ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Ρ‰Π΅Π½ΠΈΠ΅ ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ ΠΌΠΎΠΆΠ΅Ρ‚ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ трудности.

Врудности ΠΏΡ€ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска

Π›ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΡ‹

На стандартной ΠΊΡ€ΠΈΠ²ΠΎΠΉ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, ΠΊΡ€ΠΎΠΌΠ΅ глобального ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ°, ΠΌΠΎΠΆΠ΅Ρ‚ Π²ΡΡ‚Ρ€Π΅Ρ‚ΠΈΡ‚ΡŒΡΡ мноТСство Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠΎΠ². Π“Π»Π°Π²Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡Π΅ΠΉ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска, ΠΊΠ°ΠΊ слСдуСт ΠΈΠ· Π΅Π³ΠΎ названия, являСтся спуск всё Π½ΠΈΠΆΠ΅ ΠΈ Π½ΠΈΠΆΠ΅. Но, стоит Π΅ΠΌΡƒ ΡΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒΡΡ Π΄ΠΎ локального ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ° β€” ΠΈ ΠΏΠΎΠ΄Π½ΡΡ‚ΡŒΡΡ ΠΎΡ‚Ρ‚ΡƒΠ΄Π° Π½Π°Π²Π΅Ρ€Ρ… часто становится нСпосильной Π·Π°Π΄Π°Ρ‡Π΅ΠΉ. Алгоритм ΠΌΠΎΠΆΠ΅Ρ‚ просто Π·Π°ΡΡ‚Ρ€ΡΡ‚ΡŒ Π² локальном ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ΅, Ρ‚Π°ΠΊ ΠΈ Π½Π΅ ΠΏΠΎΠΏΠ°Π² Π½Π° Π³Π»ΠΎΠ±Π°Π»ΡŒΠ½Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ ΡΠ΅Ρ‚ΠΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ ΠΈ Π³Π»ΠΎΠ±Π°Π»ΡŒΠ½Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ

Π‘Π΅Π΄Π»ΠΎΠ²Ρ‹Π΅ Ρ‚ΠΎΡ‡ΠΊΠΈ

Π•Ρ‰Ρ‘ ΠΎΠ΄Π½ΠΎΠΉ Π²Π°ΠΆΠ½ΠΎΠΉ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠΎΠΉ являСтся ΠΏΡ€ΠΎΡ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ «ΡΠ΅Π΄Π»ΠΎΠ²Ρ‹Ρ… Ρ‚ΠΎΡ‡Π΅ΠΊ». Π‘Π΅Π΄Π»ΠΎΠ²ΠΎΠΉ Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ Ρ‚ΠΎΡ‡ΠΊΡƒ, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π² ΠΎΠ΄Π½ΠΎΠΌ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π΅ΠΌ ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρƒ, кривая находится Π½Π° локальном ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ΅; Π²ΠΎ Π²Ρ‚ΠΎΡ€ΠΎΠΌ ΠΆΠ΅ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π΅ΠΌ Π΄Ρ€ΡƒΠ³ΠΎΠΌΡƒ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρƒ, кривая находится Π½Π° локальном максимумС.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСтиБСдловая Ρ‚ΠΎΡ‡ΠΊΠ°

ΠšΠ°ΠΊΡƒΡŽ ΠΎΠΏΠ°ΡΠ½ΠΎΡΡ‚ΡŒ таят Π² сСбС сСдловыС Ρ‚ΠΎΡ‡ΠΊΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΌΠΎΠΆΠ΅Ρ‚ Π²ΡΡ‚Ρ€Π΅Ρ‚ΠΈΡ‚ΡŒ Π½Π° своём ΠΏΡƒΡ‚ΠΈ? ΠžΠΏΠ°ΡΠ½ΠΎΡΡ‚ΡŒ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ ΠΎΠ±Π»Π°ΡΡ‚ΡŒ, нСпосрСдствСнно ΠΎΠΊΡ€ΡƒΠΆΠ°ΡŽΡ‰Π°Ρ ΡΠ΅Π΄Π»ΠΎΠ²ΡƒΡŽ Ρ‚ΠΎΡ‡ΠΊΡƒ, ΠΊΠ°ΠΊ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, довольно плоская, ΠΎΠ½Π° Π½Π°ΠΏΠΎΠΌΠΈΠ½Π°Π΅Ρ‚ ΠΏΠ»Π°Ρ‚ΠΎ. Плоская ΠΎΠ±Π»Π°ΡΡ‚ΡŒ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ практичСски Π½ΡƒΠ»Π΅Π²Ρ‹Π΅ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Ρ‹. ΠžΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ ΠΊΠΎΠ»Π΅Π±Π°Ρ‚ΡŒΡΡ (ΠΎΡΡ†ΠΈΠ»Π»ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ) Π²ΠΎΠΊΡ€ΡƒΠ³ сСдловой Ρ‚ΠΎΡ‡ΠΊΠΈ Π² Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ ΠΏΠ΅Ρ€Π²ΠΎΠ³ΠΎ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°, Π½Π΅ β€œΠ΄ΠΎΠ³Π°Π΄Ρ‹Π²Π°ΡΡΡŒβ€ ΡΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒΡΡ Π²Π½ΠΈΠ· ΠΏΠΎ ΡƒΠΊΠ»ΠΎΠ½Ρƒ Π² Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ Π²Ρ‚ΠΎΡ€ΠΎΠ³ΠΎ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°.

Алгоритм Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска ΠΏΡ€ΠΈ этом ΠΎΡˆΠΈΠ±ΠΎΡ‡Π½ΠΎ ΠΏΠΎΠ»Π°Π³Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ ΠΈΠΌ Π½Π°ΠΉΠ΄Π΅Π½.

ΠžΠ²Ρ€Π°Π³ΠΈ

Π•Ρ‰Ρ‘ ΠΎΠ΄Π½Π° головная боль Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска β€” пСрСсСчСниС ΠΎΠ²Ρ€Π°Π³ΠΎΠ². ΠžΠ²Ρ€Π°Π³ β€” это протяТённая узкая Π΄ΠΎΠ»ΠΈΠ½Π°, ΠΈΠΌΠ΅ΡŽΡ‰Π°Ρ ΠΊΡ€ΡƒΡ‚ΠΎΠΉ ΡƒΠΊΠ»ΠΎΠ½ Π² ΠΎΠ΄Π½ΠΎΠΌ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ (Ρ‚.Π΅. ΠΏΠΎ сторонам Π΄ΠΎΠ»ΠΈΠ½Ρ‹) ΠΈ ΠΏΠ»Π°Π²Π½Ρ‹ΠΉ ΡƒΠΊΠ»ΠΎΠ½ Π² Π΄Ρ€ΡƒΠ³ΠΎΠΌ (Ρ‚.Π΅. вдоль Π΄ΠΎΠ»ΠΈΠ½Ρ‹). Π”ΠΎΠ²ΠΎΠ»ΡŒΠ½ΠΎ часто ΠΎΠ²Ρ€Π°Π³ ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΡƒ. ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ навигация ΠΏΠΎ Ρ‚Π°ΠΊΠΎΠΉ Ρ„ΠΎΡ€ΠΌΠ΅ ΠΊΡ€ΠΈΠ²ΠΎΠΉ Π·Π°Ρ‚Ρ€ΡƒΠ΄Π½Π΅Π½Π°, Ρ‚Π°ΠΊΡƒΡŽ ΠΊΡ€ΠΈΠ²ΡƒΡŽ часто Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ патологичСским искривлСниСм (Pathological Curvature).

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ ΡΠ΅Ρ‚ΠΈΠžΠ²Ρ€Π°Π³ΠΈ

ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²ΡŒΡ‚Π΅ ΡƒΠ·ΠΊΡƒΡŽ Ρ€Π΅Ρ‡Π½ΡƒΡŽ Π΄ΠΎΠ»ΠΈΠ½Ρƒ, ΠΏΠ»Π°Π²Π½ΠΎ ΡΠΏΡƒΡΠΊΠ°ΡŽΡ‰ΡƒΡŽΡΡ с Ρ…ΠΎΠ»ΠΌΠΎΠ² ΠΈ ΠΏΡ€ΠΎΡΡ‚ΠΈΡ€Π°ΡŽΡ‰ΡƒΡŽΡΡ Π²Π½ΠΈΠ· Π΄ΠΎ ΠΎΠ·Π΅Ρ€Π°. Π’Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ быстро ΡΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒΡΡ Π²Π½ΠΈΠ· ΠΏΠΎ Ρ€Π΅ΠΊΠ΅, Ρ‚ΡƒΠ΄Π°, Π³Π΄Π΅ ΠΏΡ€ΠΎΠ»Π΅Π³Π°Π΅Ρ‚ Π΄ΠΎΠ»ΠΈΠ½Π°. Но Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска Π²ΠΏΠΎΠ»Π½Π΅ ΠΌΠΎΠΆΠ΅Ρ‚ Π½Π°Ρ‡Π°Ρ‚ΡŒ Π΄Π²ΠΈΠΆΠ΅Π½ΠΈΠ΅, ΠΎΡ‚Ρ‚Π°Π»ΠΊΠΈΠ²Π°ΡΡΡŒ ΠΏΠΎΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΠΎΡ‚ сторон Π΄ΠΎΠ»ΠΈΠ½Ρ‹, ΠΏΡ€ΠΈ этом Π΄Π²ΠΈΠΆΠ΅Π½ΠΈΠ΅ Π²Π½ΠΈΠ· ΠΏΠΎ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΡŽ Ρ€Π΅ΠΊΠΈ Π±ΡƒΠ΄Π΅Ρ‚ вСсьма ΠΌΠ΅Π΄Π»Π΅Π½Π½Ρ‹ΠΌ.

Алгоритм ванильного Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска, нСсмотря Π½Π° Π΅Π³ΠΎ нСдостатки, ΠΏΠΎ-ΠΏΡ€Π΅ΠΆΠ½Π΅ΠΌΡƒ считаСтся основным, Π² частности, ΠΏΠΎ Ρ‚ΠΎΠΉ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π΅, Ρ‡Ρ‚ΠΎ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‚ ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π΅Π³ΠΎ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ.

ΠŸΠ΅Ρ€Π²ΠΎΠ΅ ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска β€” стохастичСский Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΉ спуск (SGD)

Под ΠΎΠ±Ρ‹Ρ‡Π½Ρ‹ΠΌ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΌ спуском (ΠΏΠΎ ΡƒΠΌΠΎΠ»Ρ‡Π°Π½ΠΈΡŽ) ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ понимаСтся «Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΉ спуск со смСной коэффициСнтов послС обсчёта всСй Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ», Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ ΠΏΠΎΡ‚Π΅Ρ€ΠΈ ΠΈ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ Ρ€Π°ΡΡΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‚ΡΡ с использованиСм всСх элСмСнтов Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ….

Π’Π°ΠΊΠΆΠ΅ примСняСтся ΠΏΡ€ΠΎΠΌΠ΅ΠΆΡƒΡ‚ΠΎΡ‡Π½Ρ‹ΠΉ стохастичСский Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΉ спуск с ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚Π°ΠΌΠΈ β€” Π²Π°Ρ€ΠΈΠ°Π½Ρ‚, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ коэффициСнты ΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ послС обсчСта N элСмСнтов Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π²Ρ‹Π±ΠΈΡ€Π°Π΅Ρ‚ случайноС подмноТСство Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ….

Π‘Π»ΡƒΡ‡Π°ΠΉΠ½ΠΎΡΡ‚ΡŒ Π²Ρ‹Π±ΠΎΡ€Π° Ρ…ΠΎΡ€ΠΎΡˆΠ° Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ ΠΎΠ½Π° ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ Π³Π»ΡƒΠ±ΠΆΠ΅ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚ΡŒ Π»Π°Π½Π΄ΡˆΠ°Ρ„Ρ‚ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ.

Π Π°Π½Π΅Π΅ ΠΌΡ‹ Π³ΠΎΠ²ΠΎΡ€ΠΈΠ»ΠΈ, Ρ‡Ρ‚ΠΎ кривая ΠΏΠΎΡ‚Π΅Ρ€ΡŒ получаСтся Π·Π° счёт измСнСния ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ с сохранСниСм фиксированного Π½Π°Π±ΠΎΡ€Π° Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…. Однако Ссли Π½Π°Ρ‡Π°Ρ‚ΡŒ ΠΈΠ·ΠΌΠ΅Π½ΡΡ‚ΡŒ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅, выбирая Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚Π΅, значСния ΠΏΠΎΡ‚Π΅Ρ€ΡŒ ΠΈ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ² Ρ‚Π°ΠΊΠΆΠ΅ Π±ΡƒΠ΄ΡƒΡ‚ ΠΌΠ΅Π½ΡΡ‚ΡŒΡΡ. Π”Ρ€ΡƒΠ³ΠΈΠΌΠΈ словами, измСняя Π½Π°Π±ΠΎΡ€ Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…, для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚Π° ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ ΡΠΎΠ±ΡΡ‚Π²Π΅Π½Π½ΡƒΡŽ ΠΊΡ€ΠΈΠ²ΡƒΡŽ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, которая Π½Π΅ΠΌΠ½ΠΎΠ³ΠΎ отличаСтся ΠΎΡ‚ Π΄Ρ€ΡƒΠ³ΠΈΡ….

Π’ΠΎ Π΅ΡΡ‚ΡŒ, Π΄Π°ΠΆΠ΅ Ссли Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ застрянСт Π½Π° ΠΊΠ°ΠΊΠΎΠΌ-Π»ΠΈΠ±ΠΎ мСстС Π»Π°Π½Π΄ΡˆΠ°Ρ„Ρ‚Π° Π² ΠΎΠ΄Π½ΠΎΠΌ ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚Π΅, ΠΌΠΎΠΆΠ½ΠΎ Π±ΡƒΠ΄Π΅Ρ‚ Π·Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ Π΄Ρ€ΡƒΠ³ΠΎΠΉ ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚ с Π΄Ρ€ΡƒΠ³ΠΈΠΌ Π»Π°Π½Π΄ΡˆΠ°Ρ„Ρ‚ΠΎΠΌ, ΠΈ Π²ΠΏΠΎΠ»Π½Π΅ вСроятно, Ρ‡Ρ‚ΠΎ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ смоТСт Π΄Π²ΠΈΠ³Π°Ρ‚ΡŒΡΡ дальшС. Данная Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ застрСваниС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π½Π° ΠΎΠΏΡ€Π΅Π΄Π΅Π»Ρ‘Π½Π½Ρ‹Ρ… участках Π»Π°Π½Π΄ΡˆΠ°Ρ„Ρ‚Π°, особСнно Π½Π° Ρ€Π°Π½Π½ΠΈΡ… этапах Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ.

Π’Ρ‚ΠΎΡ€ΠΎΠ΅ ΡƒΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΠΎΠ²Π°Π½ΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска β€” Π½Π°ΠΊΠΎΠΏΠ»Π΅Π½ΠΈΠ΅ ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ° (Momentum)

ДинамичСская ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²ΠΊΠ° количСства ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠΉ

Один ΠΈΠ· интСрСсных аспСктов Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска связан с Π΅Π³ΠΎ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ΠΌ Π½Π° ΠΊΡ€ΡƒΡ‚Ρ‹Ρ… ΡƒΠΊΠ»ΠΎΠ½Π°Ρ…. Π’Π°ΠΊ ΠΊΠ°ΠΊ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ Π½Π° ΠΊΡ€ΡƒΡ‚Ρ‹Ρ… ΡƒΠΊΠ»ΠΎΠ½Π°Ρ… большой, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π² этих мСстах ΠΌΠΎΠΆΠ΅Ρ‚ Π΄Π΅Π»Π°Ρ‚ΡŒ большиС шаги, ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‚Π΅ΠΌ, ΠΈΠΌΠ΅Π½Π½ΠΎ здСсь Π²Ρ‹ Π½Π° самом Π΄Π΅Π»Π΅ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Ρ‰Π°Ρ‚ΡŒΡΡ ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎ ΠΈ остороТно. Π­Ρ‚ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚ привСсти ΠΊ Ρ‚ΠΎΠΌΡƒ, Ρ‡Ρ‚ΠΎ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π±ΡƒΠ΄Π΅Ρ‚ «ΡΠΊΠ°ΠΊΠ°Ρ‚ΡŒ» Π½Π°Π·Π°Π΄ ΠΈ Π²ΠΏΠ΅Ρ€Ρ‘Π΄, замСдляя Ρ‚Π΅ΠΌ самым процСсс Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

Π’ ΠΈΠ΄Π΅Π°Π»Π΅ частоту ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠΉ хочСтся ΠΈΠ·ΠΌΠ΅Π½ΡΡ‚ΡŒ динамичСски, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΌΠΎΠ³ ΠΏΠΎΠ΄ΡΡ‚Ρ€Π°ΠΈΠ²Π°Ρ‚ΡŒΡΡ ΠΏΠΎΠ΄ измСнСния ΠΎΠΊΡ€ΡƒΠΆΠ°ΡŽΡ‰Π΅Π³ΠΎ Π»Π°Π½Π΄ΡˆΠ°Ρ„Ρ‚Π°. Если ΡƒΠΊΠ»ΠΎΠ½ ΠΎΡ‡Π΅Π½ΡŒ ΠΊΡ€ΡƒΡ‚ΠΎΠΉ, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π΄ΠΎΠ»ΠΆΠ΅Π½ ΠΏΡ€ΠΈΡ‚ΠΎΡ€ΠΌΠ°ΠΆΠΈΠ²Π°Ρ‚ΡŒ. Если склон довольно ΠΏΠΎΠ»ΠΎΠ³ΠΈΠΉ, ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Π²ΠΏΠΎΠ»Π½Π΅ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΠ²Ρ‹ΡΠΈΡ‚ΡŒ, ΠΈ Ρ‚Π°ΠΊ Π΄Π°Π»Π΅Π΅.

Алгоритм Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска обновляСт вСса Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ шагС, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ Π² качСствС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² значСния Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π° ΠΈ скорости обучСния. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, для измСнСния количСства ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠΉ ΠΌΠΎΠΆΠ½ΠΎ Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ Π΄Π²Π° дСйствия:

Π‘ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ скорости обучСния.

SGD с Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠ΅ΠΉ накоплСния ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ° ΠΈ ΠΎΠ±Ρ‹Ρ‡Π½Ρ‹ΠΉ SGD

ΠŸΠ΅Ρ€Π²ΠΎΠ΅ дСйствиС, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²ΠΊΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π°, выполняСтся с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ накоплСния ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ°.

Π’ SGD учитываСтся Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚Π΅ΠΊΡƒΡ‰Π΅Π΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π°, Π° значСния всСх ΠΏΡ€ΠΎΡˆΠ»Ρ‹Ρ… Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΈΠ³Π½ΠΎΡ€ΠΈΡ€ΡƒΡŽΡ‚ΡΡ. Π­Ρ‚ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ, Ссли Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π²Π½Π΅Π·Π°ΠΏΠ½ΠΎ натолкнётся Π½Π° аномалию Π½Π° ΠΊΡ€ΠΈΠ²ΠΎΠΉ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, ΠΎΠ½ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠΎΠΉΡ‚ΠΈ Π½Π΅ ΠΏΠΎ Π½ΡƒΠΆΠ½ΠΎΠΉ Ρ‚Ρ€Π°Π΅ΠΊΡ‚ΠΎΡ€ΠΈΠΈ.

Π‘ Π΄Ρ€ΡƒΠ³ΠΎΠΉ стороны, ΠΏΡ€ΠΈ использовании SGD с Π½Π°ΠΊΠΎΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ° ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‚ΡΡ значСния ΠΏΡ€ΠΎΡˆΠ»Ρ‹Ρ… Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ², ΠΎΠ±Ρ‰Π΅Π΅ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ сохраняСтся, ΠΈ траСктория остаётся ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΠΉ. Π­Ρ‚ΠΎ позволяСт ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ знания ΠΎΠ± ΠΎΠΊΡ€ΡƒΠΆΠ°ΡŽΡ‰Π΅ΠΌ Π»Π°Π½Π΄ΡˆΠ°Ρ„Ρ‚Π΅, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ Π΄ΠΎ Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ ΠΎΠ½ добрался Π΄ΠΎ Π΄Π°Π½Π½ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠΈ, ΠΈ ΡΠΌΡΠ³Ρ‡ΠΈΡ‚ΡŒ эффСкт Π°Π½ΠΎΠΌΠ°Π»ΠΈΠΈ ΠΊΡ€ΠΈΠ²ΠΎΠΉ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ.

Π‘Ρ€Π°Π·Ρƒ встаёт вопрос β€” ΠΊΠ°ΠΊ Π΄Π°Π»Π΅ΠΊΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΡƒΠ³Π»ΡƒΠ±Π»ΡΡ‚ΡŒΡΡ Π² ΠΏΡ€ΠΎΡˆΠ»ΠΎΠ΅? Π§Π΅ΠΌ Π³Π»ΡƒΠ±ΠΆΠ΅ ΠΌΡ‹ погрузимся Π² ΠΏΡ€ΠΎΡˆΠ»ΠΎΠ΅, Ρ‚Π΅ΠΌ мСньшС Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ воздСйствия Π°Π½ΠΎΠΌΠ°Π»ΠΈΠΉ Π½Π° ΠΊΠΎΠ½Π΅Ρ‡Π½Ρ‹ΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚.

И Π²Ρ‚ΠΎΡ€ΠΎΠΉ вопрос β€” всС Π»ΠΈ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Ρ‹ ΠΈΠ· ΠΏΡ€ΠΎΡˆΠ»ΠΎΠ³ΠΎ ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°ΡΡ†Π΅Π½ΠΈΠ²Π°Ρ‚ΡŒ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ? Π’ΠΏΠΎΠ»Π½Π΅ Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎ Ρ€Π°ΡΡΡƒΠ΄ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π²Π΅Ρ‰ΠΈ ΠΈΠ· Π½Π΅Π΄Π°Π²Π½Π΅Π³ΠΎ ΠΏΡ€ΠΎΡˆΠ»ΠΎΠ³ΠΎ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΠΈΠΌΠ΅Ρ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ Π²Ρ‹ΡΠΎΠΊΡƒΡŽ Π·Π½Π°Ρ‡ΠΈΠΌΠΎΡΡ‚ΡŒ, Ρ‡Π΅ΠΌ Π²Π΅Ρ‰ΠΈ ΠΈΠ· Π΄Π°Π»Ρ‘ΠΊΠΎΠ³ΠΎ ΠΏΡ€ΠΎΡˆΠ»ΠΎΠ³ΠΎ. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ, Ссли ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π»Π°Π½Π΄ΡˆΠ°Ρ„Ρ‚Π° прСдставляСт собой Π½Π΅ аномалию, Π° СстСствСнноС структурноС ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅, Π½Π° Ρ‚Π°ΠΊΠΈΠ΅ измСнСния Π½ΡƒΠΆΠ½ΠΎ Ρ€Π΅Π°Π³ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ соотвСтствСнно ΠΈ ΠΌΠ΅Π½ΡΡ‚ΡŒ курс постСпСнно.

Ѐункция накоплСния ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ° ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΠΏΡ€ΠΈ Ρ€Π°Π±ΠΎΡ‚Π΅ ΡΠΊΡΠΏΠΎΠ½Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎΠ΅ ΡΠΊΠΎΠ»ΡŒΠ·ΡΡ‰Π΅Π΅ срСднСС, Π° Π½Π΅ Ρ‚Π΅ΠΊΡƒΡ‰Π΅Π΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π°.

ΠŸΠ΅Ρ€Π΅Ρ…ΠΎΠ΄Ρ‹ Ρ‡Π΅Ρ€Π΅Π· ΠΎΠ²Ρ€Π°Π³ΠΈ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ накоплСния ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ°

Ѐункция накоплСния ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ° ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ Ρ€Π΅ΡˆΠΈΡ‚ΡŒ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ ΡƒΠ·ΠΊΠΎΠ³ΠΎ ΠΎΠ²Ρ€Π°Π³Π° с патологичСским искривлСниСм, Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ, с ΠΎΠ΄Π½ΠΎΠΉ стороны, ΠΎΡ‡Π΅Π½ΡŒ большой для ΠΎΠ΄Π½ΠΎΠ³ΠΎ вСсового ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°, Π°, с Π΄Ρ€ΡƒΠ³ΠΎΠΉ стороны, ΠΎΡ‡Π΅Π½ΡŒ малСнький для Π΄Ρ€ΡƒΠ³ΠΎΠ³ΠΎ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСтиЀункция накоплСния ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ° ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ ΠΏΡ€Π΅ΠΎΠ΄ΠΎΠ»Π΅Π²Π°Ρ‚ΡŒ ΠΎΠ²Ρ€Π°Π³ΠΈ

Π‘ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ накоплСния ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ° ΠΌΠΎΠΆΠ½ΠΎ ΡΠ³Π»Π°Π΄ΠΈΡ‚ΡŒ Π·ΠΈΠ³Π·Π°Π³ΠΎΠΎΠ±Ρ€Π°Π·Π½Ρ‹Π΅ скачки Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° SGD.

Для ΠΏΠ΅Ρ€Π²ΠΎΠ³ΠΎ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π° с ΠΊΡ€ΡƒΡ‚Ρ‹ΠΌ ΡƒΠΊΠ»ΠΎΠ½ΠΎΠΌ большоС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π° ΠΏΡ€ΠΈΠ²Π΅Π΄Ρ‘Ρ‚ ΠΊ Ρ€Π΅Π·ΠΊΠΎΠΌΡƒ ΠΏΠΎΠ²ΠΎΡ€ΠΎΡ‚Ρƒ ΠΎΡ‚ ΠΎΠ΄Π½ΠΎΠΉ стороны ΠΎΠ²Ρ€Π°Π³Π° ΠΊ Π΄Ρ€ΡƒΠ³ΠΎΠΉ. Однако Π½Π° ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΌ шагС Ρ‚Π°ΠΊΠΎΠ΅ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Ρ‰Π΅Π½ΠΈΠ΅ Π±ΡƒΠ΄Π΅Ρ‚ скомпСнсировано Ρ€Π΅Π·ΠΊΠΈΠΌ ΠΏΠΎΠ²ΠΎΡ€ΠΎΡ‚ΠΎΠΌ Π² ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠΌ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ.

Если ΠΆΠ΅ Π²Π·ΡΡ‚ΡŒ Π΄Ρ€ΡƒΠ³ΠΎΠΉ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€, ΠΌΠ΅Π»ΠΊΠΈΠ΅ обновлСния Π½Π° ΠΏΠ΅Ρ€Π²ΠΎΠΌ шагС Π±ΡƒΠ΄ΡƒΡ‚ ΡƒΡΠΈΠ»ΠΈΠ²Π°Ρ‚ΡŒΡΡ ΠΌΠ΅Π»ΠΊΠΈΠΌΠΈ обновлСниями Π½Π° Π²Ρ‚ΠΎΡ€ΠΎΠΌ шагС, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ эти обновлСния ΠΈΠΌΠ΅ΡŽΡ‚ Ρ‚ΠΎ ΠΆΠ΅ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅. И ΠΈΠΌΠ΅Π½Π½ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ вдоль ΠΎΠ²Ρ€Π°Π³Π° Π±ΡƒΠ΄Π΅Ρ‚ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ΠΌ, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Π΄Π²ΠΈΠ³Π°Ρ‚ΡŒΡΡ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡƒ.

Π’ΠΎΡ‚ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‰ΠΈΡ… Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ накоплСния ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ° Π² Ρ€Π°Π·Π½Ρ‹Ρ… Ρ„ΠΎΡ€ΠΌΡƒΠ»Π°Ρ…:

SGD с Π½Π°ΠΊΠΎΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ°

УскорСнный Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ НСстСрова

Π’Ρ€Π΅Ρ‚ΡŒΠ΅ ΡƒΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΠΎΠ²Π°Π½ΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска β€” ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ скорости обучСния (Π½Π° Π±Π°Π·Π΅ значСния Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π°)

Как ΡƒΠΆΠ΅ Π±Ρ‹Π»ΠΎ сказано Π²Ρ‹ΡˆΠ΅, Π²Ρ‚ΠΎΡ€Ρ‹ΠΌ способом измСнСния количСства ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠΉ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² являСтся ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ скорости обучСния.

Π”ΠΎ сих ΠΏΠΎΡ€ Π½Π° Ρ€Π°Π·Π½Ρ‹Ρ… итСрациях ΠΌΡ‹ сохраняли ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния постоянной. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, ΠΏΡ€ΠΈ ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠΈ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ² для всСх ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² использовалось ΠΎΠ΄Π½ΠΎ ΠΈ Ρ‚ΠΎ ΠΆΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ скорости обучСния.

Однако, ΠΊΠ°ΠΊ ΠΌΡ‹ ΡƒΠΆΠ΅ ΡƒΠ±Π΅Π΄ΠΈΠ»ΠΈΡΡŒ, Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Ρ‹ с Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ ΠΌΠΎΠ³ΡƒΡ‚ довольно ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ ΠΎΡ‚Π»ΠΈΡ‡Π°Ρ‚ΡŒΡΡ Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π°. Один ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΠΌΠ΅Ρ‚ΡŒ ΠΊΡ€ΡƒΡ‚ΠΎΠΉ ΡƒΠΊΠ»ΠΎΠ½, Π° Π΄Ρ€ΡƒΠ³ΠΎΠΉ β€” ΠΏΠΎΠ»ΠΎΠ³ΠΈΠΉ.

ΠœΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ это ΠΎΠ±ΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΡΡ‚Π²ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π°Π΄Π°ΠΏΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρƒ. Π§Ρ‚ΠΎΠ±Ρ‹ Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния для Π΄Π°Π½Π½ΠΎΠ³ΠΎ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°, ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΠΎΠ±Ρ€Π°Ρ‚ΠΈΡ‚ΡŒΡΡ ΠΊ ΠΏΡ€ΠΎΡˆΠ»Ρ‹ΠΌ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π°ΠΌ (для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π° ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎ).

Данная Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π° Π² Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°Ρ… ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‰ΠΈΡ… Ρ€Π°Π·Π½Ρ‹Π΅, Π½ΠΎ ΠΏΠΎΡ…ΠΎΠΆΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€ Adagrad, Adadelta, RMS Prop.

НапримСр, ΠΌΠ΅Ρ‚ΠΎΠ΄ Adagrad Π²ΠΎΠ·Π²ΠΎΠ΄ΠΈΡ‚ Π² ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ значСния ΠΏΡ€ΠΎΡˆΠ»Ρ‹Ρ… Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΈ суммируСт ΠΈΡ… Π² Ρ€Π°Π²Π½Ρ‹Ρ… вСсовых пропорциях. ΠœΠ΅Ρ‚ΠΎΠ΄ RMSProp Ρ‚Π°ΠΊΠΆΠ΅ Π²ΠΎΠ·Π²ΠΎΠ΄ΠΈΡ‚ Π² ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ значСния ΠΏΡ€ΠΎΡˆΠ»Ρ‹Ρ… Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ², Π½ΠΎ ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΈΡ… ΠΊ ΡΠΊΡΠΏΠΎΠ½Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎΠΌΡƒ ΡΠΊΠΎΠ»ΡŒΠ·ΡΡ‰Π΅ΠΌΡƒ срСднСму, Ρ‚Π΅ΠΌ самым придавая Π±ΠΎΠ»Π΅Π΅ Π²Ρ‹ΡΠΎΠΊΡƒΡŽ Π·Π½Π°Ρ‡ΠΈΠΌΠΎΡΡ‚ΡŒ послСдним ΠΏΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π°ΠΌ.

ПослС возвСдСния Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ² Π² ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ всС ΠΎΠ½ΠΈ становятся ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ ΠΏΠΎΠ»ΡƒΡ‡Π°ΡŽΡ‚ ΠΎΠ΄Π½ΠΎ ΠΈ Ρ‚ΠΎ ΠΆΠ΅ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, пСрСстаёт Π΄Π΅ΠΉΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ эффСкт, ΠΏΡ€ΠΎΡΠ²Π»ΡΡŽΡ‰ΠΈΠΉΡΡ ΠΏΡ€ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠΈ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ накоплСния ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ° (Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Ρ‹ ΠΈΠΌΠ΅ΡŽΡ‚ ΠΏΡ€ΠΎΡ‚ΠΈΠ²ΠΎΠΏΠΎΠ»ΠΎΠΆΠ½Ρ‹Π΅ направлСния).

Π­Ρ‚ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ для ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π° с ΠΊΡ€ΡƒΡ‚Ρ‹ΠΌ ΡƒΠΊΠ»ΠΎΠ½ΠΎΠΌ значСния Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ² Π±ΡƒΠ΄ΡƒΡ‚ большими, ΠΈ Π²ΠΎΠ·Π²Π΅Π΄Π΅Π½ΠΈΠ΅ Ρ‚Π°ΠΊΠΈΡ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Π² ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ даст Π΅Ρ‰Ρ‘ большСС ΠΈ всСгда ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅, поэтому Ρ‚Π°ΠΊΠΈΠ΅ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Ρ‹ быстро Π½Π°ΠΊΠ°ΠΏΠ»ΠΈΠ²Π°ΡŽΡ‚ΡΡ. Для погашСния Π΄Π°Π½Π½ΠΎΠ³ΠΎ эффСкта Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ рассчитываСт ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния посрСдством дСлСния Π½Π°ΠΊΠΎΠΏΠ»Π΅Π½Π½Ρ‹Ρ… ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΎΠ² Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ² Π½Π° коэффициСнт с большим Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠΌ. Π—Π° счСт этого Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ β€œΠΏΡ€ΠΈΡ‚ΠΎΡ€ΠΌΠ°ΠΆΠΈΠ²Π°Π΅Ρ‚β€ Π½Π° ΠΊΡ€ΡƒΡ‚Ρ‹Ρ… ΡƒΠΊΠ»ΠΎΠ½Π°Ρ….

РассуТдая Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎ, Ссли ΡƒΠΊΠ»ΠΎΠ½Ρ‹ нСбольшиС, накоплСния Ρ‚Π°ΠΊΠΆΠ΅ Π±ΡƒΠ΄ΡƒΡ‚ нСбольшими, поэтому ΠΏΡ€ΠΈ вычислСнии скорости обучСния Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Ρ€Π°Π·Π΄Π΅Π»ΠΈΡ‚ Π½Π°ΠΊΠΎΠΏΠ»Π΅Π½Π½Ρ‹Π΅ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚Ρ‹ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ² Π½Π° коэффициСнт с мСньшим Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠΌ. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния Π½Π° ΠΏΠΎΠ»ΠΎΠ³ΠΈΡ… склонах Π±ΡƒΠ΄Π΅Ρ‚ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½Π°.

НСкоторыС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ сразу ΠΎΠ±Π° ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π° β€” ΠΈΠ·ΠΌΠ΅Π½ΡΡŽΡ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния, ΠΊΠ°ΠΊ это описано Π²Ρ‹ΡˆΠ΅, ΠΈ ΠΌΠ΅Π½ΡΡŽΡ‚ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ накоплСния ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ°. Π’Π°ΠΊ поступаСт, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Adam ΠΈ Π΅Π³ΠΎ многочислСнныС Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Ρ‹, Π° Ρ‚Π°ΠΊΠΆΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ LAMB.

Π§Π΅Ρ‚Π²Ρ‘Ρ€Ρ‚ΠΎΠ΅ ΡƒΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΠΎΠ²Π°Π½ΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска β€” ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ скорости обучСния (Π½Π° Π±Π°Π·Π΅ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½ΠΎΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ)

Π’ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΌ Ρ€Π°Π·Π΄Π΅Π»Π΅ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния мСнялась Π½Π° основС Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². Плюс ΠΊ этому, ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΠΌΠ΅Π½ΡΡ‚ΡŒ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния Π² зависимости ΠΎΡ‚ Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ продвигаСтся процСсс Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ. Π‘ΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния устанавливаСтся Π² зависимости ΠΎΡ‚ эпохи Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½ΠΎΠ³ΠΎ процСсса ΠΈ Π½Π΅ зависит ΠΎΡ‚ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² Π΄Π°Π½Π½ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠ΅.

На самом Π΄Π΅Π»Π΅ эту Π·Π°Π΄Π°Ρ‡Ρƒ выполняСт Π½Π΅ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€, Π° особый ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти, Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ ΠΏΠ»Π°Π½ΠΈΡ€ΠΎΠ²Ρ‰ΠΈΠΊΠΎΠΌ. Π― ΡƒΠΏΠΎΠΌΠΈΠ½Π°ΡŽ здСсь ΠΎΠ± этом Ρ‚ΠΎΠ»ΡŒΠΊΠΎ для ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½Ρ‹ ΠΈ для Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ связь с Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ°ΠΌΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ, ΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΌΡ‹ здСсь Π³ΠΎΠ²ΠΎΡ€ΠΈΠ»ΠΈ. Π‘Π°ΠΌΡƒ ΠΆΠ΅ эту Ρ‚Π΅ΠΌΡƒ Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎ ΠΎΡΠ²Π΅Ρ‚ΠΈΡ‚ΡŒ Π² ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠΉ ΡΡ‚Π°Ρ‚ΡŒΠ΅.

Π—Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅

ΠœΡ‹ ознакомились с основными ΠΏΡ€ΠΈΡ‘ΠΌΠ°ΠΌΠΈ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹ΠΌΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊΠ°ΠΌΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ Π½Π° Π±Π°Π·Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска, рассмотрСли ΠΏΡ€ΠΈΡ‡ΠΈΠ½Ρ‹ ΠΈΡ… использования ΠΈ взаимосвязи Π΄Ρ€ΡƒΠ³ с Π΄Ρ€ΡƒΠ³ΠΎΠΌ. ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²Π»Π΅Π½Π½Π°Ρ информация ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΡ‚ Π»ΡƒΡ‡ΡˆΠ΅ ΠΏΠΎΠ½ΡΡ‚ΡŒ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏ дСйствия ΠΌΠ½ΠΎΠ³ΠΈΡ… спСцифичСских Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ. А Ссли Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ большС Π·Π½Π°Π½ΠΈΠΉ β€” ΠΎΠ±Ρ€Π°Ρ‚ΠΈΡ‚Π΅ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π½Π° наш Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½Π½Ρ‹ΠΉ курс ΠΏΠΎ ΠΌΠ°ΡˆΠΈΠ½Π½ΠΎΠΌΡƒ ΠΈ Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠΌΡƒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ, Π² Ρ€Π°ΠΌΠΊΠ°Ρ… ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ Π²Ρ‹ Π½Π°ΡƒΡ‡ΠΈΡ‚Π΅ΡΡŒ ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ собствСнныС Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Π΅ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Π΅ сСти ΠΈ Ρ€Π΅ΡˆΠ°Ρ‚ΡŒ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ Π·Π°Π΄Π°Ρ‡ΠΈ с ΠΈΡ… ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

Π£Π·Π½Π°ΠΉΡ‚Π΅, ΠΊΠ°ΠΊ ΠΏΡ€ΠΎΠΊΠ°Ρ‡Π°Ρ‚ΡŒΡΡ ΠΈ Π² Π΄Ρ€ΡƒΠ³ΠΈΡ… ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎΡΡ‚ΡΡ… ΠΈΠ»ΠΈ ΠΎΡΠ²ΠΎΠΈΡ‚ΡŒ ΠΈΡ… с нуля:

ΠŸΡ€ΠΎΡ„Π΅ΡΡΠΈΡ Data Scientist

ΠŸΡ€ΠΎΡ„Π΅ΡΡΠΈΡ Data Analyst

ΠšΡƒΡ€Ρ ΠΏΠΎ Data Engineering

ΠšΡƒΡ€Ρ «ΠΠ»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ ΠΈ структуры Π΄Π°Π½Π½Ρ‹Ρ…»

Π”Ρ€ΡƒΠ³ΠΈΠ΅ профСссии ΠΈ курсы

ΠŸΠ ΠžΠ€Π•Π‘Π‘Π˜Π˜

ΠŸΡ€ΠΎΡ„Π΅ΡΡΠΈΡ Fullstack-Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊ Π½Π° Python

ΠŸΡ€ΠΎΡ„Π΅ΡΡΠΈΡ QA-ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€ Π½Π° JAVA

ΠŸΡ€ΠΎΡ„Π΅ΡΡΠΈΡ Π­Ρ‚ΠΈΡ‡Π½Ρ‹ΠΉ Ρ…Π°ΠΊΠ΅Ρ€

ΠŸΡ€ΠΎΡ„Π΅ΡΡΠΈΡ C++ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊ

ΠŸΡ€ΠΎΡ„Π΅ΡΡΠΈΡ Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊ ΠΈΠ³Ρ€ Π½Π° Unity

ΠŸΡ€ΠΎΡ„Π΅ΡΡΠΈΡ iOS-Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊ с нуля

ΠŸΡ€ΠΎΡ„Π΅ΡΡΠΈΡ Android-Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊ с нуля

КУРБЫ

ΠšΡƒΡ€Ρ ΠΏΠΎ Machine Learning

ΠšΡƒΡ€Ρ «Machine Learning ΠΈ Deep Learning»

ΠšΡƒΡ€Ρ «ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ° для Data Science»

ΠšΡƒΡ€Ρ «ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ° ΠΈ Machine Learning для Data Science»

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Π Π΅Π°Π»ΠΈΠ·ΡƒΠ΅ΠΌ ΠΈ сравниваСм ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Ρ‹ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

Π’Π²Π΅Π΄Π΅Π½ΠΈΠ΅

МодСль β€” это Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° машинного обучСния, выполняСмого Π½Π° Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…. МодСль прСдставляСт собой Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ Π±Ρ‹Π»ΠΎ ΠΈΠ·ΡƒΡ‡Π΅Π½ΠΎ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ. Π­Ρ‚ΠΎ Β«Π²Π΅Ρ‰ΡŒΒ», которая сохраняСтся послС запуска Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π½Π° ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ прСдставляСт собой ΠΏΡ€Π°Π²ΠΈΠ»Π°, числа ΠΈ Π»ΡŽΠ±Ρ‹Π΅ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ структуры Π΄Π°Π½Π½Ρ‹Ρ…, спСцифичныС для Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΈ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Π΅ для прСдсказания.

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€?

ΠŸΡ€Π΅ΠΆΠ΄Π΅ Ρ‡Π΅ΠΌ ΠΏΠ΅Ρ€Π΅ΠΉΡ‚ΠΈ ΠΊ этому, ΠΌΡ‹ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ Π·Π½Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ функция ΠΏΠΎΡ‚Π΅Ρ€ΡŒ. Ѐункция ΠΏΠΎΡ‚Π΅Ρ€ΡŒ β€” это ΠΌΠ΅Ρ€Π° Ρ‚ΠΎΠ³ΠΎ, насколько Ρ…ΠΎΡ€ΠΎΡˆΠΎ ваша модСль прогнозирования прСдсказываСт ΠΎΠΆΠΈΠ΄Π°Π΅ΠΌΡ‹ΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ (ΠΈΠ»ΠΈ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅). Ѐункция ΠΏΠΎΡ‚Π΅Ρ€ΡŒ Ρ‚Π°ΠΊΠΆΠ΅ называСтся Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠ΅ΠΉ Π·Π°Ρ‚Ρ€Π°Ρ‚ (Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ информация здСсь).

Π’ процСссС обучСния ΠΌΡ‹ стараСмся ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΠΎΡ‚Π΅Ρ€ΠΈ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΈ ΠΎΠ±Π½ΠΎΠ²Π»ΡΡ‚ΡŒ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ для ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ точности. ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти β€” это ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ вСса связСй. Π’ этом случаС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΠΈΠ·ΡƒΡ‡Π°ΡŽΡ‚ΡΡ Π½Π° этапС обучСния. Π˜Ρ‚Π°ΠΊ, сам Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ (ΠΈ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅) настраиваСт эти ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹. Π‘ΠΎΠ»Π΅Π΅ ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½ΡƒΡŽ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡ‚ΠΈ здСсь.

Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ β€” это ΠΌΠ΅Ρ‚ΠΎΠ΄ достиТСния Π»ΡƒΡ‡ΡˆΠΈΡ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ², ΠΏΠΎΠΌΠΎΡ‰ΡŒ Π² ускорСнии обучСния. Π”Ρ€ΡƒΠ³ΠΈΠΌΠΈ словами, это Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹ΠΉ для Π½Π΅Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ измСнСния ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Ρ‚Π°ΠΊΠΈΡ… ΠΊΠ°ΠΊ вСса ΠΈ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния, Ρ‡Ρ‚ΠΎΠ±Ρ‹ модСль Ρ€Π°Π±ΠΎΡ‚Π°Π»Π° ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ ΠΈ быстро. Π—Π΄Π΅ΡΡŒ рассмотрим Π±Π°Π·ΠΎΠ²Ρ‹ΠΉ ΠΎΠ±Π·ΠΎΡ€ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Ρ… Π² Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ² ΠΈ сдСлаСм ΠΏΡ€ΠΎΡΡ‚ΡƒΡŽ модСль, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ½ΡΡ‚ΡŒ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ этой ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π― Π½Π°ΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΡŽ ΠΊΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ этот Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ ΠΈ Π²Π½ΠΎΡΠΈΡ‚ΡŒ измСнСния, наблюдая Π·Π° модСлями повСдСния.

НСкоторыС часто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Π΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹:

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

ΠŸΠΎΠΏΡƒΠ»ΡΡ€Π½Ρ‹Π΅ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Ρ‹

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

НиТС ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Ρ‹ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΈΠ· самых популярных ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ²:

1. БтохастичСский Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΉ спуск (особСнно ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚Π½Ρ‹ΠΉ)

ΠœΡ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ ΠΎΠ΄ΠΈΠ½ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ Π·Π° Ρ€Π°Π· ΠΏΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ (Π² чистом SGD) ΠΈ обновлСния ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°. Но ΠΌΡ‹ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π΅Ρ‰Π΅ ΠΎΠ΄ΠΈΠ½ для Ρ†ΠΈΠΊΠ»Π°. Π­Ρ‚ΠΎ Π·Π°ΠΉΠΌΠ΅Ρ‚ ΠΌΠ½ΠΎΠ³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚Π½Ρ‹ΠΉ SGD.

Мини-ΠΏΠ°ΠΊΠ΅Ρ‚Π½Ρ‹ΠΉ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΉ спуск стрСмится ΡΠ±Π°Π»Π°Π½ΡΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒ стохастичСского Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска ΠΈ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ ΠΏΠ°ΠΊΠ΅Ρ‚Π½ΠΎΠ³ΠΎ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска. Π­Ρ‚ΠΎ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ распространСнная рСализация Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠ°Ρ Π² области Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ³ΠΎ обучСния. Π’ ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚Π½ΠΎΠΌ SGD ΠΏΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΡ‹ Π±Π΅Ρ€Π΅ΠΌ Π³Ρ€ΡƒΠΏΠΏΡƒ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, 32, 64 ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π° ΠΈ Ρ‚. Π΄.). Π’Π°ΠΊΠΎΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π»ΡƒΡ‡ΡˆΠ΅, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ трСбуСтся СдинствСнный Ρ†ΠΈΠΊΠ» для ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚ΠΎΠ², Π° Π½Π΅ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°. Мини-ΠΏΠ°ΠΊΠ΅Ρ‚Ρ‹ Π²Ρ‹Π±ΠΈΡ€Π°ΡŽΡ‚ΡΡ случайным ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ, Π½ΠΎ ΠΏΠΎΡ‡Π΅ΠΌΡƒ? Когда ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚Ρ‹ Π²Ρ‹Π±ΠΈΡ€Π°ΡŽΡ‚ΡΡ случайным ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Ρ‚ΠΎ ΠΏΡ€ΠΈ застрСвании Π² Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ°Ρ… Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΡˆΡƒΠΌΠ½Ρ‹Π΅ шаги ΠΌΠΎΠ³ΡƒΡ‚ привСсти ΠΊ Π²Ρ‹Ρ…ΠΎΠ΄Ρƒ ΠΈΠ· этих ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠΎΠ². Π—Π°Ρ‡Π΅ΠΌ Π½Π°ΠΌ этот ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€?

Каким Π±ΡƒΠ΄Π΅Ρ‚ Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ ΠΌΠΎΠ΄Π΅Π»ΠΈ?

Π― даю ΠΎΠ±Π·ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° случай, Ссли Π²Ρ‹ Π½ΠΎΠ²ΠΈΡ‡ΠΎΠΊ Π² Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Она выглядит ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ Ρ‚Π°ΠΊ:

На ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΌ рисункС Π²ΠΈΠ΄Π½ΠΎ, Π² SGD ΠΏΡ€ΠΈΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‚ ΠΎΠ³Ρ€ΠΎΠΌΠ½Ρ‹Π΅ колСбания. Π’Π΅Ρ€Ρ‚ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎΠ΅ Π΄Π²ΠΈΠΆΠ΅Π½ΠΈΠ΅ Π½Π΅ ΠΎΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ: ΠΌΡ‹ Ρ…ΠΎΡ‚ΠΈΠΌ двиТСния Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π³ΠΎΡ€ΠΈΠ·ΠΎΠ½Ρ‚Π°Π»ΡŒΠ½ΠΎ. Если ΡƒΠΌΠ΅Π½ΡŒΡˆΠΈΡ‚ΡŒ Π²Π΅Ρ€Ρ‚ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎΠ΅ Π΄Π²ΠΈΠΆΠ΅Π½ΠΈΠ΅ ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΡ‚ΡŒ Π³ΠΎΡ€ΠΈΠ·ΠΎΠ½Ρ‚Π°Π»ΡŒΠ½ΠΎΠ΅, модСль Π±ΡƒΠ΄Π΅Ρ‚ ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ быстрСС, согласны?

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

Как ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π½Π΅ΠΆΠ΅Π»Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ колСбания? Π‘Π»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Ρ‹ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΡŽΡ‚ ΠΈΡ… ΠΈ ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ ΡƒΡΠΊΠΎΡ€ΠΈΡ‚ΡŒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅.

2. ΠžΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ°

Π’ SGD ΠΈΠ»ΠΈ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠΌ спускС ΠΌΠ½ΠΎΠ³ΠΎ ΠΊΠΎΠ»Π΅Π±Π°Π½ΠΈΠΉ. НуТно Π΄Π²ΠΈΠ³Π°Ρ‚ΡŒΡΡ Π²ΠΏΠ΅Ρ€Π΅Π΄, Π° Π½Π΅ Π²Π²Π΅Ρ€Ρ…-Π²Π½ΠΈΠ·. ΠœΡ‹ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΡ‚ΡŒ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΠΌ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ, ΠΈ ΠΌΡ‹ сдСлаСм это с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Π° ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ°.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

Как Π²ΠΈΠ΄Π½ΠΎ Π½Π° рисункС Π²Ρ‹ΡˆΠ΅, зСлСная цвСтовая линия ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Π° ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ° быстрСС Π΄Ρ€ΡƒΠ³ΠΈΡ…. Π’Π°ΠΆΠ½ΠΎΡΡ‚ΡŒ быстрого обучСния ΠΌΠΎΠΆΠ½ΠΎ ΡƒΠ²ΠΈΠ΄Π΅Ρ‚ΡŒ, ΠΊΠΎΠ³Π΄Π° Ρƒ вас большиС Π½Π°Π±ΠΎΡ€Ρ‹ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΠΌΠ½ΠΎΠ³ΠΎ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΉ. Как Π²Π½Π΅Π΄Ρ€ΠΈΡ‚ΡŒ этот ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€?

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

ΠΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ξ² ΠΎΠΊΠΎΠ»ΠΎ 0,9

Π’ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ ΠΌΡ‹ создали Π΄Π²Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π° β€” vdW, ΠΈ vdb β€” ΠΈΠ· ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ распространСния. Рассмотрим Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ξ² = 0.9, Ρ‚ΠΎΠ³Π΄Π° уравнСния ΠΏΡ€ΠΈΠΎΠ±Ρ€Π΅Ρ‚Π°Π΅Ρ‚ Π²ΠΈΠ΄:

Как Π²Ρ‹ Π²ΠΈΠ΄ΠΈΡ‚Π΅, vdw большС зависит ΠΎΡ‚ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅Π³ΠΎ значСния vdw, Π° Π½Π΅ dw. Когда визуализация β€” это Π³Ρ€Π°Ρ„ΠΈΠΊ, ΠΌΠΎΠΆΠ½ΠΎ ΡƒΠ²ΠΈΠ΄Π΅Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ° ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Π΅Ρ‚ ΠΏΡ€ΠΎΡˆΠ»Ρ‹Π΅ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Ρ‹, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠ³Π»Π°Π΄ΠΈΡ‚ΡŒ ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠ΅. Π’ΠΎΡ‚ ΠΏΠΎΡ‡Π΅ΠΌΡƒ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ колСбания. Когда ΠΌΡ‹ использовали SGD, ΠΏΡ€ΠΎΠΉΠ΄Π΅Π½Π½Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚Π½Ρ‹ΠΌ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΌ спуском ΠΏΡƒΡ‚ΡŒ колСбался Π² сторону ΠΊΠΎΠ½Π²Π΅Ρ€Π³Π΅Π½Ρ†ΠΈΠΈ. ΠžΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ° ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ ΡƒΠΌΠ΅Π½ΡŒΡˆΠΈΡ‚ΡŒ эти колСбания.

3. Π‘Ρ€Π΅Π΄Π½Π΅ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠ΅ распространСниС

Π‘Ρ€Π΅Π΄Π½Π΅ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠ΅ распространСниС корня (RMSprop) β€” это ΡΠΊΡΠΏΠΎΠ½Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ Π·Π°Ρ‚ΡƒΡ…Π°ΡŽΡ‰Π΅Π΅ срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅. БущСствСнным свойством RMSprop являСтся Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ Π²Ρ‹ Π½Π΅ ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Ρ‹ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ суммой ΠΏΡ€ΠΎΡˆΠ»Ρ‹Ρ… Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ², Π½ΠΎ Π²Ρ‹ Π±ΠΎΠ»Π΅Π΅ ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Ρ‹ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π°ΠΌΠΈ послСдних Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… шагов. RMSprop вносит свой Π²ΠΊΠ»Π°Π΄ Π² ΡΠΊΡΠΏΠΎΠ½Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ Π·Π°Ρ‚ΡƒΡ…Π°ΡŽΡ‰Π΅Π΅ срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΡˆΠ»Ρ‹Ρ… Β«ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½Ρ‹Ρ… Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ²Β». Π’ RMSProp ΠΌΡ‹ пытаСмся ΡƒΠΌΠ΅Π½ΡŒΡˆΠΈΡ‚ΡŒ Π²Π΅Ρ€Ρ‚ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎΠ΅ Π΄Π²ΠΈΠΆΠ΅Π½ΠΈΠ΅, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ ΠΎΠ½ΠΈ ΡΡƒΠΌΠΌΠΈΡ€ΡƒΡŽΡ‚ΡΡ ΠΏΡ€ΠΈΠ±Π»ΠΈΠ·ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π΄ΠΎ 0, принимая срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅. RMSprop прСдоставляСт срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ для обновлСния.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

ΠŸΠΎΡΠΌΠΎΡ‚Ρ€ΠΈΡ‚Π΅ Π½Π° ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Π½Ρ‹ΠΉ Π½ΠΈΠΆΠ΅ ΠΊΠΎΠ΄. Π­Ρ‚ΠΎ даст Π²Π°ΠΌ Π±Π°Π·ΠΎΠ²ΠΎΠ΅ прСдставлСниС ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊ Π²Π½Π΅Π΄Ρ€ΠΈΡ‚ΡŒ этот ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€. ВсС Ρ‚ΠΎ ΠΆΠ΅ самоС, Ρ‡Ρ‚ΠΎ ΠΈ с SGD, ΠΌΡ‹ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΠΈΠ·ΠΌΠ΅Π½ΠΈΡ‚ΡŒ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ обновлСния.

4. ΠžΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ Adam

Adam β€” ΠΎΠ΄ΠΈΠ½ ΠΈΠ· самых эффСктивных Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ Π² ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй. Он сочСтаСт Π² сСбС ΠΈΠ΄Π΅ΠΈ RMSProp ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Π° ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ°. ВмСсто Ρ‚ΠΎΠ³ΠΎ Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π°Π΄Π°ΠΏΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Π½Π° основС срСднСго ΠΏΠ΅Ρ€Π²ΠΎΠ³ΠΎ ΠΌΠΎΠΌΠ΅Π½Ρ‚Π° (срСднСго значСния), ΠΊΠ°ΠΊ Π² RMSProp, Adam Ρ‚Π°ΠΊΠΆΠ΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π²Ρ‚ΠΎΡ€Ρ‹Ρ… ΠΌΠΎΠΌΠ΅Π½Ρ‚ΠΎΠ² Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ². Π’ частности, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ вычисляСт ΡΠΊΡΠΏΠΎΠ½Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎΠ΅ ΡΠΊΠΎΠ»ΡŒΠ·ΡΡ‰Π΅Π΅ срСднСС Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π° ΠΈ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½Ρ‹ΠΉ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚, Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ beta1 ΠΈ beta2 ΡƒΠΏΡ€Π°Π²Π»ΡΡŽΡ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ затухания этих ΡΠΊΠΎΠ»ΡŒΠ·ΡΡ‰ΠΈΡ… срСдних. Каким ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ?

Π“ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹

Π”Π°Π²Π°ΠΉΡ‚Π΅ построим модСль ΠΈ посмотрим, ΠΊΠ°ΠΊ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΡƒΡΠΊΠΎΡ€ΡΡŽΡ‚ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Π”Π°Π²Π°ΠΉΡ‚Π΅ Π½Π°Ρ‡Π½Π΅ΠΌ!

Π― создаю ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½Π½ΡƒΡŽ ΠΌΠΎΠ΄Π΅Π»ΡŒΠ½ΡƒΡŽ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ, Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‰ΡƒΡŽ для всСх обсуТдаСмых здСсь ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ².

1. Π˜Π½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡ:

ΠœΡ‹ ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·ΠΈΡ€ΡƒΠ΅ΠΌ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ, которая ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅, Ρ‚Π°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ features_size (Π² нашСм случаС 12288) ΠΈ скрытый массив Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠ² (ΠΌΡ‹ использовали [100,1]) ΠΈ Π΄Π°Π½Π½Ρ‹ΠΉ Π²Ρ‹Π²ΠΎΠ΄ ΠΊΠ°ΠΊ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ. БущСствуСт Π΄Ρ€ΡƒΠ³ΠΎΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ. Π― ΠΏΡ€ΠΈΠ·Ρ‹Π²Π°ΡŽ ΠΏΡ€ΠΎΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ эту ΡΡ‚Π°Ρ‚ΡŒΡŽ.

2. ΠŸΡ€ΡΠΌΠΎΠ΅ распространСниС:

Π’ этой Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ β€” это X, Π° Ρ‚Π°ΠΊΠΆΠ΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹, ΠΏΡ€ΠΎΡ‚ΡΠΆΠ΅Π½Π½ΠΎΡΡ‚ΡŒ скрытых слоСв ΠΈ отсСв, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ Π² Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ΅ отсСва.

Π― установил Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ 1, Ρ‚Π°ΠΊ Ρ‡Ρ‚ΠΎ Π½ΠΈΠΊΠ°ΠΊΠΎΠ³ΠΎ эффСкта Π½Π° Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠ΅ Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ Π²ΠΈΠ΄Π½ΠΎ. Если ваша модСль ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½Π°, Ρ‚ΠΎ Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ ΡƒΡΡ‚Π°Π½ΠΎΠ²ΠΈΡ‚ΡŒ Π΄Ρ€ΡƒΠ³ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅. Π― ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽ отсСв Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π½Π° Ρ‡Π΅Ρ‚Π½Ρ‹Ρ… слоях.

3. ΠžΠ±Ρ€Π°Ρ‚Π½ΠΎΠ΅ распространСниС:

Π—Π΄Π΅ΡΡŒ ΠΌΡ‹ пишСм Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ распространСния. Она Π²Π΅Ρ€Π½Π΅Ρ‚ grad (Π½Π°ΠΊΠ»ΠΎΠ½). ΠœΡ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ grad ΠΏΡ€ΠΈ ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², (Ссли Π²Ρ‹ ΠΎΠ± этом Π½Π΅ Π·Π½Π°Π΅Ρ‚Π΅). Π Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΡŽ ΠΏΡ€ΠΎΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ эту ΡΡ‚Π°Ρ‚ΡŒΡŽ.

ΠœΡ‹ ΡƒΠΆΠ΅ Π²ΠΈΠ΄Π΅Π»ΠΈ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ обновлСния ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ², Ρ‚Π°ΠΊ Ρ‡Ρ‚ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ Π΅Π΅ здСсь. ВнСсСм нСбольшиС измСнСния Π² Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ· обсуТдСния SGD.

ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ с ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚Π°ΠΌΠΈ

Π’Ρ‹Π²ΠΎΠ΄ ΠΏΡ€ΠΈ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π΅ с ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚Π°ΠΌΠΈ:

ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ с ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠΌ ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ°

Π’Ρ‹Π²ΠΎΠ΄ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Π° ΠΈΠΌΠΏΡƒΠ»ΡŒΡΠ°:

Π’Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠ° с RMSprop

Π’Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠ° с Adam

Π’Ρ‹ Π²ΠΈΠ΄Π΅Π»ΠΈ Ρ€Π°Π·Π½ΠΈΡ†Ρƒ Π² точности ΠΌΠ΅ΠΆΠ΄Ρƒ Π½ΠΈΠΌΠΈ? ΠœΡ‹ использовали Ρ‚Π΅ ΠΆΠ΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ, Ρ‚Ρƒ ΠΆΠ΅ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния ΠΈ Ρ‚ΠΎ ΠΆΠ΅ количСство ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΉ; отличаСтся Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€, Π½ΠΎ посмотритС Π½Π° Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚!

ГрафичСская визуализация ΠΌΠΎΠ΄Π΅Π»ΠΈ

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

Π’Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ ΠΎΠ±Ρ€Π°Ρ‚ΠΈΡ‚ΡŒΡΡ Π² Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ, Ссли Ρƒ вас Π΅ΡΡ‚ΡŒ сомнСния ΠΏΠΎ ΠΏΠΎΠ²ΠΎΠ΄Ρƒ ΠΊΠΎΠ΄Π°.

РСзюмС

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ оптимизация Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

источник
Как ΠΌΡ‹ ΡƒΠΆΠ΅ Π²ΠΈΠ΄Π΅Π»ΠΈ, ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ Adam Π΄Π°Π΅Ρ‚ Ρ…ΠΎΡ€ΠΎΡˆΡƒΡŽ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Π°ΠΌΠΈ. На рисункС Π²Ρ‹ΡˆΠ΅ Π²ΠΈΠ΄Π½ΠΎ, ΠΊΠ°ΠΊ модСль учится Π½Π° итСрациях. Momentum Π΄Π°Π΅Ρ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ SGD, Π° RMSProp Π΄Π°Π΅Ρ‚ ΡΠΊΡΠΏΠΎΠ½Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎΠ΅ срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ вСса для ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½Π½Ρ‹Ρ… ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². ΠœΡ‹ использовали мСньшС Π΄Π°Π½Π½Ρ‹Ρ… Π² ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Π½ΠΎΠΉ Π²Ρ‹ΡˆΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π½ΠΎ ΠΌΡ‹ ΡƒΠ²ΠΈΠ΄ΠΈΠΌ большС прСимущСств ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ² ΠΏΡ€ΠΈ Ρ€Π°Π±ΠΎΡ‚Π΅ с большими Π½Π°Π±ΠΎΡ€Π°ΠΌΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΠΌΠ½ΠΎΠ³ΠΈΠΌΠΈ итСрациями. ΠœΡ‹ обсудили ΠΎΡΠ½ΠΎΠ²Π½ΡƒΡŽ идСю ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ², ΠΈ я надСюсь, Ρ‡Ρ‚ΠΎ это даст Π²Π°ΠΌ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ ΠΌΠΎΡ‚ΠΈΠ²Π°Ρ†ΠΈΡŽ ΡƒΠ·Π½Π°Ρ‚ΡŒ большС ΠΎΠ± ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Π°Ρ… ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΈΡ…!

ΠŸΠ΅Ρ€ΡΠΏΠ΅ΠΊΡ‚ΠΈΠ²Ρ‹ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй ΠΈ Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ³ΠΎ машинного обучСния просто ΠΎΠ³Ρ€ΠΎΠΌΠ½Ρ‹, ΠΈ ΠΏΠΎ самым скромным ΠΎΡ†Π΅Π½ΠΊΠ°ΠΌ, ΠΈΡ… влияниС Π½Π° ΠΌΠΈΡ€ Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ Ρ‚Π°ΠΊΠΈΠΌ ΠΆΠ΅, ΠΊΠ°ΠΊ влияниС элСктричСства Π½Π° ΠΏΡ€ΠΎΠΌΡ‹ΡˆΠ»Π΅Π½Π½ΠΎΡΡ‚ΡŒ Π² XIX Π²Π΅ΠΊΠ΅. Π’Π΅ спСциалисты, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ оцСнят эти пСрспСктивы Ρ€Π°Π½ΡŒΡˆΠ΅ всСх, ΠΈΠΌΠ΅ΡŽΡ‚ всС ΡˆΠ°Π½ΡΡ‹ ΡΡ‚Π°Ρ‚ΡŒ Π²ΠΎ Π³Π»Π°Π²Π΅ прогрСсса. Для Ρ‚Π°ΠΊΠΈΡ… людСй ΠΌΡ‹ сдСлали ΠΏΡ€ΠΎΠΌΠΎΠΊΠΎΠ΄ HABR, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π΄Π°Π΅Ρ‚ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ 10% ΠΊ скидкС Π½Π° ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅, ΡƒΠΊΠ°Π·Π°Π½Π½ΠΎΠΉ Π½Π° Π±Π°Π½Π½Π΅Ρ€Π΅.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ ΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΉ

Π’Π°Ρˆ адрСс email Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½. ΠžΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ поля ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Ρ‹ *