Передавальна функція штучного нейрона

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Не плутати Функція активації, передавальна функція або функція збудження (Шаблон:Lang-en[1][2][3][4][5], також excitation function, squashing function, transfer function[6]) штучного нейрона — залежність вихідного сигналу штучного нейрона від вхідного.

Зазвичай передавальна функція ϕ(x) відображає дійсні числа на інтервал (1,1) або (0,1)[1].

Більшість видів нейронних мереж для функції активації використовують сигмоїди[2]. ADALINE і самоорганізаційні карти використовують лінійні функції активації, а радіально базисні мережі використовують радіальні базисні функції[1].

Математично доведено, що тришаровий перцептрон з використанням сигмоїдної функції активації може апроксимувати будь-яку неперервну функцію з довільною точністю (Теорема Цибенка)[1].

Метод зворотного поширення помилки вимагає, щоб функція активації була неперервною, нелінійною, монотонно зростаючою, і диференційовною[1].

В задачі Шаблон:Нп класифікації нейрони останнього шару зазвичай використовують softmax як функцію активації[3].

У хемометриці — функція, яка використовується в методі нейронної сітки для перетворення у вузлах вхідних даних з будь-якої області значень (зокрема неперервних) у чітко окреслений ряд значень (напр., в 0 чи 1).[7]

Порівняння передавальних функцій

Деякі бажані властивості передавальної функції включають:

  • Нелінійна — коли передавальна функція нелінійна, то, як доведено, двошарова нейронна мережа є універсальною апроксимацією функцій.[8] Тотожна передавальна функція не має такої властивості. Коли декілька шарів використовують тотожну передавальну функцію, тоді вся мережа еквівалентна одношаровій моделі.
  • Неперервна диференційовність — ця властивість бажана (RELU не є неперервно диференційовною і має неоднозначне рішення для оптимізації заснованій на градієнті) для використання методів оптимізації заснованих на градієнті. Передавальна функція двійковий крок не диференційовна у 0, але диференційовна в усіх інших значення, що є проблемою для методів заснованих на градієнті.[9]
  • Область визначення.
  • Монотонність.
  • Гладка функція з монотонною похідною.
  • Наближення до тотожної функції f(x)=x в початку координат.

У наступній таблиці порівнюються деякі передавальні функції від однієї змінної Шаблон:Mvar з попереднього шару:

Назва Графік Рівняння Похідна (по x) Область Порядок гладкості Монотонність Монотонність похідної Наближення до Тотожної функції в початку координат
Тотожна f(x)=x f(x)=1 (,) C Шаблон:Yes Шаблон:Yes Шаблон:Yes
Двійковий крок f(x)={0for x<01for x0 f(x)={0for x0?for x=0 {0,1} C1 Шаблон:Yes Шаблон:No Шаблон:No
Логістична (a.k.a. Сігмоїда або М'який крок) f(x)=σ(x)=11+exШаблон:Ref f(x)=f(x)(1f(x)) (0,1) C Шаблон:Yes Шаблон:No Шаблон:No
TanH f(x)=tanh(x)=(exex)(ex+ex) f(x)=1f(x)2 (1,1) C Шаблон:Yes Шаблон:No Шаблон:Yes
ArcTan f(x)=tan1(x) f(x)=1x2+1 (π2,π2) C Шаблон:Yes Шаблон:No Шаблон:Yes
Softsign[10][11] f(x)=x1+|x| f(x)=1(1+|x|)2 (1,1) C1 Шаблон:Yes Шаблон:No Шаблон:Yes
Inverse square root unit (ISRU)[12] f(x)=x1+αx2 f(x)=(11+αx2)3 (1α,1α) C Шаблон:Yes Шаблон:No Шаблон:Yes
Випрямлена лінійна (Rectified linear unit, ReLU)[13] f(x)={0for x<0xfor x0 f(x)={0for x<01for x0 [0,) C0 Шаблон:Yes Шаблон:Yes Шаблон:No
Leaky rectified linear unit (Leaky ReLU)[14] f(x)={0.01xfor x<0xfor x0 f(x)={0.01for x<01for x0 (,) C0 Шаблон:Yes Шаблон:Yes Шаблон:No
Parameteric rectified linear unit (PReLU)[15] f(α,x)={αxfor x<0xfor x0 f(α,x)={αfor x<01for x0 (,)Шаблон:Ref C0 Шаблон:Depends Шаблон:Yes Шаблон:Depends
Randomized leaky rectified linear unit (RReLU)[16] f(α,x)={αxfor x<0xfor x0Шаблон:Ref f(α,x)={αfor x<01for x0 (,) C0 Шаблон:Yes Шаблон:Yes Шаблон:No
Exponential linear unit (ELU)[17] f(α,x)={α(ex1)for x<0xfor x0 f(α,x)={f(α,x)+αfor x<01for x0 (α,) {C1when α=1C0otherwise  Шаблон:Depends Шаблон:Depends Шаблон:Depends
Scaled exponential linear unit (SELU)[18] f(α,x)=λ{α(ex1)for x<0xfor x0

з λ=1.0507 та α=1.67326

f(α,x)=λ{α(ex)for x<01for x0 (λα,) C0 Шаблон:Yes Шаблон:No Шаблон:No
S-shaped rectified linear activation unit (SReLU)[19] ftl,al,tr,ar(x)={tl+al(xtl)for xtlxfor tl<x<trtr+ar(xtr)for xtr
tl,al,tr,ar are parameters.
f'tl,al,tr,ar(x)={alfor xtl1for tl<x<trarfor xtr (,) C0 Шаблон:No Шаблон:No Шаблон:No
Inverse square root linear unit (ISRLU)[12] f(x)={x1+αx2for x<0xfor x0 f(x)={(11+αx2)3for x<01for x0 (1α,) C2 Шаблон:Yes Шаблон:Yes Шаблон:Yes
Adaptive piecewise linear (APL)[20] f(x)=max(0,x)+s=1Saismax(0,x+bis) f(x)=H(x)s=1SaisH(x+bis)Шаблон:Ref (,) C0 Шаблон:No Шаблон:No Шаблон:No
SoftPlus[21] f(x)=ln(1+ex) f(x)=11+ex (0,) C Шаблон:Yes Шаблон:Yes Шаблон:No
Bent identity f(x)=x2+112+x f(x)=x2x2+1+1 (,) C Шаблон:Yes Шаблон:Yes Шаблон:Yes
Sigmoid-weighted linear unit (SiLU)[22] (a.k.a. Swish[23]) f(x)=xσ(x)Шаблон:Ref f(x)=f(x)+σ(x)(1f(x))Шаблон:Ref [0.28,) C Шаблон:No Шаблон:No Шаблон:No
SoftExponential[24] f(α,x)={ln(1α(x+α))αfor α<0xfor α=0eαx1α+αfor α>0 f(α,x)={11α(α+x)for α<0eαxfor α0 (,) C Шаблон:Yes Шаблон:Yes Шаблон:Depends
Синусоїда[25] f(x)=sin(x) f(x)=cos(x) [1,1] C Шаблон:No Шаблон:No Шаблон:Yes
Sinc f(x)={1for x=0sin(x)xfor x0 f(x)={0for x=0cos(x)xsin(x)x2for x0 [.217234,1] C Шаблон:No Шаблон:No Шаблон:No
Гауссіан f(x)=ex2 f(x)=2xex2 (0,1] C Шаблон:No Шаблон:No Шаблон:No
Шаблон:NoteТут, Шаблон:Mvar це функція Гевісайда.
Шаблон:NoteШаблон:Mvar є стохастичною змінною вибраною з нормального розподілу під час навчання і зафіксована як очікуване значення розподілу до часу тестування.
Шаблон:NoteШаблон:NoteШаблон:NoteТут, σ — логістична функція.
Шаблон:Note α>0 виконується для всього інтервалу.

Наступна таблиця містить передавальні функції від декількох змінних:

Назва Рівняння Похідна(ні) Область Порядок гладкості
Softmax fi(x)=exij=1Jexj    for Шаблон:Mvar = 1, …, Шаблон:Mvar fi(x)xj=fi(x)(δijfj(x))Шаблон:Ref (0,1) C
Maxout[26] f(x)=maxixi fxj={1for j=argmaxixi0for jargmaxixi (,) C0

Шаблон:Note Тут, δij — символ Кронекера.

Див. також

Примітки

Шаблон:Reflist

Шаблон:Диференційовні обчислення

  1. 1,0 1,1 1,2 1,3 1,4 Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою KeLin-Du-2014 не вказано текст
  2. 2,0 2,1 Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою Keller-2016 не вказано текст
  3. 3,0 3,1 Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою Tarassenko-1998 не вказано текст
  4. Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою Anthony-2001 не вказано текст
  5. Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою Nielsen-NN-DL не вказано текст
  6. Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою Stegemann-Buenfeld-1999 не вказано текст
  7. Глосарій термінів з хімії // Й. Опейда, О. Швайка. Ін-т фізико-органічної хімії та вуглехімії ім. Л. М. Литвиненка НАН України, Донецький національний університет. — Донецьк: Вебер, 2008. — 758 с. — ISBN 978-966-335-206-0
  8. Шаблон:Cite book
  9. Шаблон:Cite book
  10. Шаблон:Cite web
  11. Шаблон:Citation
  12. 12,0 12,1 Шаблон:Cite arxiv
  13. Шаблон:Citation
  14. Шаблон:Cite journal
  15. Шаблон:Cite arxiv
  16. Шаблон:Cite arxiv
  17. Шаблон:Cite arxiv
  18. Шаблон:Cite arxiv
  19. Шаблон:Cite arxiv
  20. Шаблон:Cite arxiv
  21. Шаблон:Cite web
  22. Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning
  23. Searching for Activation Functions
  24. Шаблон:Cite journal
  25. Шаблон:Cite arxiv
  26. Шаблон:Cite journal