Swish функція

Матеріал з testwiki
Версія від 21:24, 13 березня 2023, створена imported>Vity OKM
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

Swish функція це математична функція, що описується виразом:

swish(x):=x×sigmoid(βx)=x1+eβx.[1][2]

де β є константою або параметром, який залежить від типу моделі.

Похідна функції f(x)=f(x)+σ(x)(1f(x)).

Застосування

Застосовується в якості функції активації штучного нейрона. У 2017 році, провівши аналіз даних ImageNet, дослідники з Google стверджували, що використання функції swish як функції активації в штучних нейронних мережах покращує продуктивність порівняно з функціями ReLU та сигмоподібної форми[1][2]. Вважається, що однією з причин покращення є те, що функція swish допомагає полегшити проблему зникаючого градієнта під час зворотного поширення[3].

Див. також

Примітки

Шаблон:Reflist

Шаблон:Бібліоінформація

  1. 1,0 1,1 Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою Ramachandran-Zoph-Le_2017_v1 не вказано текст
  2. 2,0 2,1 Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою Ramachandran-Zoph-Le_2017_v2 не вказано текст
  3. Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою Sefiks_2018 не вказано текст