ReLU

Зрі́заний ліні́йний ву́зол[1][2], іноді ви́прямлений ліні́йний ву́зол[3] (Шаблон:Lang-en[4]), або випрямля́ч[5][6] (Шаблон:Lang-en) у контексті штучних нейронних мереж є передавальною функцією, яка визначена таким чином:
- ,
де x вхідне значення нейрона. Вона є аналогом напівперіодичного випрямляча у схемотехніці. Ця передавальна функція була запроваджена для динамічних мереж Ганлозером (Шаблон:Lang-en) та іншими у 2000 році[7] з біологічним підґрунтям та математичним обґрунтуванням.[8] В 2011 році вперше було продемонстровано, як забезпечити краще навчання глибоких мереж,[9] на відміну від передавальних функцій, які широко використовувались до цього, а саме, логістичною функцією (яка була запозичена з теорії ймовірностей; дивись логістична регресія) і виявились більш практичними[10] ніж гіперболічний тангенс. ReLU є, Шаблон:As of, найбільш популярною передавальною функцією для глибоких нейронних мереж.[11][12]
Гладке наближення ReLU є гладкою функцією
яка називається softplus-функцією.[13] Похідною softplus є , тобто логістична функція.
ReLU часто використовується при глибокому навчанні в задачах комп'ютерного зору[9] та розпізнавання мовлення[14][15].
Варіації
ReLU з шумом
До ReLU можна додати гауссів шум, що дає ReLU з шумом[4]
- , з
ReLU з шумом успішно використовуються в задачах комп'ютерного зору в обмежених машинах Больцмана.[4]
Нещільна ReLU
Нещільна ReLU використовує невеличкий додатній градієнт, коли передавач не активний.[15]
Параметрична ReLU
Параметрична ReLU узагальнює нещільну ReLU, а саме додається параметр нещільності, який навчається разом з іншими параметрами нейронної мережі.[16]
Зауважте, що для , це еквівалентно
і тому таке відношення називають «максимальним виводом» (Шаблон:Lang-en) мережі.[16]
ELU
Експоненціально-лінійна ReLU робить середнє передавача ближчим до нуля, що прискорює навчання. Було показано, що ELU може отримати більш високу точність класифікації, ніж ReLU.[17]
є гіперпараметром, який налаштовується і — константа.
Переваги
- Біологічна правдоподібність: Одностороння на відміну від центрально симетричного гіперболічного тангенса.
- Розріджена активація: наприклад, у випадково ініціалізованій мережі, тільки близько 50 % прихованих елементів активуються (мають не нульове значення).
- Краще градієнтне поширення: рідше виникає проблема зникання градієнту у порівнянні з сигмоїдальною передавальною функцією, яка може виникнути в обох напрямках.[18]
- Швидкість обчислення: тільки порівняння, додавання та множення.
- Інваріантність відносно масштабування: для .
ReLU було використано для відокремлення специфічного збудження та неспецифічного інгібування у піраміді з нейронною абстракцією (Шаблон:Lang-en), яка була навчена керовано, щоб вирішувати декілька завдань комп'ютерного зору.[19] У 2011,[9] ReLU використовували як елемент нелінійності з метою показати, можливість глибокого навчання нейронної мережі без попереднього некерованого навчання. ReLU, на відміну від сигмоїда та подібних передавальних функцій, дозволяє швидше та ефективніше навчання глибоких нейронних мереж на великих та складних наборах даних.
Потенційні складнощі
- Не регулярна у нулі: проте похідна існує в усіх інших точках, також можна на власний розсуд задати значення у нулі — 0 або 1.
- Несиметрична
- Необмежена
- Наявність мертвих зон: може трапитись так, що нейрони будуть переведені у стан, в якому вони стануть неактивними для всіх вхідних значень. Для такого стану відсутнє зворотне поширення градієнту, яке проходить через нейрон і тому в такому стані нейроном потрапляє у незмінний стан і «вмирає». Це один з різновидів проблеми зникання градієнту. В деяких випадках велика кількість нейронів мережі може застигнути у мертвому стані, і справити ефект зменшення місткості моделі. Така проблема зазвичай виникає коли встановлено дуже велику швидкість навчання. Цей ефект можна послабити, якщо натомість використати нещільну ReLU.
Див. також
Примітки
Шаблон:Диференційовні обчислення
- ↑ Шаблон:Cite conference
- ↑ Шаблон:Cite web Шаблон:Webarchive
- ↑ Шаблон:Cite conference
- ↑ 4,0 4,1 4,2 Шаблон:Cite conference
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite conference
- ↑ Шаблон:Cite conference
- ↑ 9,0 9,1 9,2 Шаблон:Cite conference
- ↑ Шаблон:Cite encyclopedia
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite arXiv
- ↑ C. Dugas, Y. Bengio, F. Bélisle, C. Nadeau, R. Garcia, NIPS'2000, (2001), Incorporating Second-Order Functional Knowledge for Better Option Pricing Шаблон:Webarchive.
- ↑ Шаблон:Cite conference
- ↑ 15,0 15,1 Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Rectifier Nonlinearities Improve Neural Network Acoustic Models Шаблон:Webarchive
- ↑ 16,0 16,1 Шаблон:Cite arxiv
- ↑ Шаблон:Cite arxiv
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book