Залишкова нейронна мережа

Канонічний вигляд залишкової нейронної мережі. Шар ℓ - 1 оминається збудженням з ℓ - 2.

За́лишкова нейро́нна мере́жа (Шаблон:Lang-en) — це штучна нейронна мережа (ШНМ), яка будується на структурах, відомих за Шаблон:Нп кори головного мозку. Залишкові нейронні мережі роблять це, використовуючи про́пускові з'є́днання (Шаблон:Lang-en) або зрізання (Шаблон:Lang-en) для перескакування через деякі шари. Типові моделі ResNet втілюють із подвійними або потрійними пропусканнями шарів, з нелінійностями (ReLU) чи Шаблон:Нп посередині.^[1] Для навчання пропускових ваг можуть використовувати додаткову матрицю ваг; ці моделі відомі як HighwayNet. Моделі з кількома паралельними пропусками називають DenseNet.^[2] У контексті залишкових нейронних мереж незалишкову мережу можуть описувати як просту мережу (Шаблон:Lang-en).

Існує дві основні причини для додавання пропускових з'єднань: задля уникання проблеми зникання градієнтів, та задля пом'якшення проблеми виродження (Шаблон:Lang-en, насичення точності, Шаблон:Lang-en), за якої додавання додаткових шарів до належно глибокої моделі призводить до більшої тренувальної похибки.^[3] Під час тренування ваги пристосовуються приглушувати вищий за течією шарШаблон:Прояснити та підсилювати попередньо пропущений шар. У найпростішому випадку пристосовуються лише ваги для з'єднання сусіднього шару, без жодних явних ваг для вищого шару. Це працює найкраще, коли пропускають один нелінійний шар, або коли всі проміжні шари є лінійними. Якщо ні, то слід навчатися явної матриці ваг для пропускового з'єднання (слід використовувати HighwayNet).

Пропускання дієво спрощує мережу, використовуючи меншу кількість шарів на початкових етапах тренуванняШаблон:Прояснити. Це прискорює навчання, зменшуючи вплив зникання градієнтів, оскільки існує менше шарів для поширення. Потім мережа поступово відновлює пропущені шари під час навчання простору ознак. Під кінець навчання, коли всі шари розгортаються, вона залишається ближчою до магістраліШаблон:Прояснити, й відтак навчається швидше. Нейронна мережа без залишкових частин досліджує більше простору ознак. Це робить її вразливішою до збурень, які змушують її зіскакувати з магістралі, й вимагає додаткових тренувальних даних для надолужування.

Біологічний аналог

Мозок має структури, подібні до залишкових мереж, оскільки нейрони шостого шару кори отримують вхід із першого шару, пропускаючи проміжні шари.^[4] На рисунку це зіставлено з сигналами від апікального дендриту (3), що оминають шари, тоді як базальний дендрит (2) збирає сигнали з попереднього та/або того ж шару.^{[lower-alpha 1]}^[5] Подібні структури існують і для інших шарів.^[6] Скільки шарів у корі головного мозку є подібними до шарів у штучній нейронній мережі, не зрозуміло, як і не зрозуміло, чи всі області кори головного мозку мають однакову структуру, але на великих площах вони виглядають подібними.

Пряме поширення

Для одиночних пропусків шари може бути індексовано або як з $ℓ - 2$ до $ℓ$ , або як з $ℓ$ до $ℓ + 2$ . (Шрифт $ℓ$ використано для наочності, зазвичай його пишуть як просте l.) Ці дві системи індексування є зручними при описуванні пропусків як таких, що йдуть назад, та вперед. Оскільки сигнал проходить мережею вперед, простіше описувати пропуск як $ℓ + k$ із заданого рівня, але як правило навчання (зворотне поширення) простіше описувати, який шар збудження ви використовуєте повторно, як $ℓ - k$ , де $k - 1$ є числом пропуску.

Для заданої вагової матриці $W^{ℓ - 1, ℓ}$ для ваг з'єднань з шару $ℓ - 1$ до $ℓ$ та вагової матриці $W^{ℓ - 2, ℓ}$ для ваг з'єднань з шару $ℓ - 2$ до $ℓ$ прямим поширенням через передавальну функцію буде (відома як HighwayNet)

\begin{matrix} a^{ℓ} & := 𝐠 (W^{ℓ - 1, ℓ} \cdot a^{ℓ - 1} + b^{ℓ} + W^{ℓ - 2, ℓ} \cdot a^{ℓ - 2}) \\ := 𝐠 (Z^{ℓ} + W^{ℓ - 2, ℓ} \cdot a^{ℓ - 2}) \end{matrix}

де

a^{ℓ}

— збудження (виходи) нейронів у шарі

ℓ

,

𝐠

— передавальна функція шару

ℓ

,

W^{ℓ - 1, ℓ}

— вагова матриця для нейронів між шарами

ℓ - 1

та

ℓ

, а

Z^{ℓ} = W^{ℓ - 1, ℓ} \cdot a^{ℓ - 1} + b^{ℓ}

За відсутності явної матриці $W^{ℓ - 2, ℓ}$ (що є відомим як ResNet) пряме поширення крізь передавальну функцію спрощується до

a^{ℓ} := 𝐠 (Z^{ℓ} + a^{ℓ - 2})

Інший спосіб сформулювати це — підставити одиничну матрицю замість $W^{ℓ - 2, ℓ}$ , але це є справедливим лише коли розміри збігаються. Це дещо заплутано називають одиничним блоком (Шаблон:Lang-en), що означає, що збудження з шару $ℓ - 2$ передаються до шару $ℓ$ без зважування.

У корі головного мозку такі пропуски вперед здійснюються для декількох шарів. Зазвичай усі пропуски вперед починаються з одного й того ж шару, і послідовно з'єднуються з пізнішими шарами. У загальному випадку це буде виражено як (відоме як DenseNet)

a^{ℓ} := 𝐠 (Z^{ℓ} + \sum_{k = 2}^{K} W^{ℓ - k, ℓ} \cdot a^{ℓ - k})

.

Зворотне поширення

Під час навчання зворотним поширенням для нормального шляху

Δ w^{ℓ - 1, ℓ} := - η \frac{\partial E^{ℓ}}{\partial w^{ℓ - 1, ℓ}} = - η a^{ℓ - 1} \cdot δ^{ℓ}

і для шляхів пропусків (майже ідентично)

Δ w^{ℓ - 2, ℓ} := - η \frac{\partial E^{ℓ}}{\partial w^{ℓ - 2, ℓ}} = - η a^{ℓ - 2} \cdot δ^{ℓ}

.

В обох випадках

η

є темпом навчання (

η < 0)

,

δ^{ℓ}

є сигналом похибки нейронів на шарі

ℓ

, а

a_{i}^{ℓ}

є збудженням нейронів на шарі

ℓ

.

Якщо шлях пропуску має незмінні ваги (наприклад, одиничну матрицю, як вище), то вони не уточнюються. Якщо їх можливо уточнювати, то це правило є звичайним правилом уточнювання зворотного поширення.

У загальному випадку може бути $K$ вагових матриць шляхів пропуску, тож

Δ w^{ℓ - k, ℓ} := - η \frac{\partial E^{ℓ}}{\partial w^{ℓ - k, ℓ}} = - η a^{ℓ - k} \cdot δ^{ℓ}

Оскільки правила навчання є однаковими, вагові матриці можливо об'єднувати та навчати за один крок.

Виноски

Шаблон:Примітки

Примітки

Шаблон:Примітки

↑ Шаблон:Cite web Шаблон:Ref-en
↑ Шаблон:Cite web Шаблон:Ref-en
↑ Шаблон:Cite arXivHe, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-12-10). "Deep Residual Learning for Image Recognition". arXiv:1512.03385 [cs.CV]. Шаблон:Ref-en
↑ Шаблон:Cite journal Шаблон:Ref-en
↑ Шаблон:Cite journal Шаблон:Ref-en
↑ Шаблон:Cite journal Шаблон:Ref-en

Помилка цитування: Теги <ref> існують для групи під назвою «lower-alpha», але не знайдено відповідного тегу <references group="lower-alpha"/>

[1] Шаблон:Cite web Шаблон:Ref-en

[2] Шаблон:Cite web Шаблон:Ref-en

[:0-3] Шаблон:Cite arXivHe, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-12-10). "Deep Residual Learning for Image Recognition". arXiv:1512.03385 [cs.CV]. Шаблон:Ref-en

[4] Шаблон:Cite journal Шаблон:Ref-en

[6] Шаблон:Cite journal Шаблон:Ref-en

[7] Шаблон:Cite journal Шаблон:Ref-en

[1]

[2]

[3]

[4]

[lower-alpha 1]

[5]

[6]

Залишкова нейронна мережа

Зміст

Біологічний аналог

Пряме поширення

Зворотне поширення

Виноски

Примітки

Навігаційне меню

Залишкова нейронна мережа

Біологічний аналог

Пряме поширення

Зворотне поширення

Виноски

Примітки

Навігаційне меню

Пошук