Вентильний рекурентний вузол

Ве́нтильні рекуре́нтні вузли́ (ВРВ, Шаблон:Lang-en) — це вентильний механізм у рекурентних нейронних мережах, представлений 2014 року.^[1] Вони подібні до довгої короткочасної пам'яті з вентилем забування,^[2] але мають менше параметрів, оскільки не мають вентиля виходу.^[3]

Було виявлено, що їхня продуктивність на моделюванні поліфонічної музики та мовленнєвого сигналу аналогічна продуктивності ДКЧП.^[4]

Однак, як показали Гейл Вейз (Шаблон:Lang-en), Іов Голдберг (Шаблон:Lang-en) та Еран Яхав (Шаблон:Lang-en), ДКЧП «суттєво сильніше» ВРВ, бо може виконувати необмежений підрахунок, неможливий для ВРВ.^[5] Ось чому ВРВ не може вивчити прості мови, з якими впоралась ДКЧП.^[5]

Аналогічно, як показали Денні Бритз (Шаблон:Lang-en), Анна Голді (Шаблон:Lang-en, Мінь-Тханг Луонг (Шаблон:Lang-en) і Куок Лей (Шаблон:Lang-en) з Google Brain, вузли ДКЧП незмінно перевершують вузли ВРВ у «передовому широкомасштабному аналізі варіацій архітектури для нейронного машинного перекладу».

Архітектура

Символ $\circ$ позначає добуток Адамара. Початкове значення $h_{0} = 0$ .

Повний рекурентний вузол

Повний рекурентний вузол працює наступним чином. На вхід подаються значення вектору входу $x_{t}$ та значення виходу $h_{t - 1}$ (при $t = 0$ , вектор виходу $h_{0} = 0$ ). По ним обчислюється претендент на нове значення виходу — вектор вузла скидання (Шаблон:Lang-en) $r_{t}$ , який обчислюється як функція активації (зазвичай сигмоїд) від матричного виразу по параметрам $W$ , $U$ та $b$ . Незалежно, подібним чином, обчислюється вектор вузла уточнення (Шаблон:Lang-en) $z_{t}$ . Цей вектор містить значення, які визначають, чи варто залишити значення зі старого вектору, чи взяти нове значення. Фактично, це набір «вентилів» (Шаблон:Lang-en), які «пропускають» або старе, або нове значення. Далі обчислюється вектор виходу $h_{t}$ , в якому з ймовірністю $z_{t}$ береться старе значення з вектору $h_{t - 1}$ , або з ймовірністю $(1 - z_{t})$ обчислюється нове значення.^[6]

Формули для обчислень наступні:

\begin{matrix} z_{t} & = σ_{g} (W_{z} x_{t} + U_{z} h_{t - 1} + b_{z}) \\ r_{t} & = σ_{g} (W_{r} x_{t} + U_{r} h_{t - 1} + b_{r}) \\ h_{t} & = z_{t} \circ h_{t - 1} + (1 - z_{t}) \circ σ_{h} (W_{h} x_{t} + U_{h} (r_{t} \circ h_{t - 1}) + b_{h}) \end{matrix}

Змінні

$x_{t}$ : вектор входу
$h_{t}$ : вектор виходу
$z_{t}$ : вектор вузла уточнення
$r_{t}$ : вектор вузла скидання
$W$ , $U$ та $b$ : матриці та вектор параметрів

Функції активації

$σ_{g}$ : В оригіналі є сигмоїдною функцією.
$σ_{h}$ : В оригіналі є гіперболічним тангенсом.

Примітки

Шаблон:Примітки

[1] Шаблон:Cite arXiv

[lstm1999-2] Шаблон:Cite journal

[MyUser_Wildml.com_May_18_2016c-3] Шаблон:Cite web Шаблон:Ref-en

[MyUser_Arxiv.org_May_18_2016c-4] Шаблон:Cite arXiv Шаблон:Ref-en

[weiss2018-5] 5,0 ^5,1 Шаблон:Cite arXiv

[6] Шаблон:Citation

[1]

[2]

[3]

[4]

[5]

[6]

Вентильний рекурентний вузол

Архітектура

Повний рекурентний вузол

Примітки

Навігаційне меню

Пошук