Вентильний рекурентний вузол

Матеріал з testwiki
Версія від 19:25, 3 червня 2022, створена imported>InternetArchiveBot (Виправлено джерел: 1; позначено як недійсні: 0.) #IABot (v2.0.8.8)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

Ве́нтильні рекуре́нтні вузли́ (ВРВ, Шаблон:Lang-en) — це вентильний механізм у рекурентних нейронних мережах, представлений 2014 року.[1] Вони подібні до довгої короткочасної пам'яті з вентилем забування,[2] але мають менше параметрів, оскільки не мають вентиля виходу.[3]

Було виявлено, що їхня продуктивність на моделюванні поліфонічної музики та мовленнєвого сигналу аналогічна продуктивності ДКЧП.[4]

Однак, як показали Гейл Вейз (Шаблон:Lang-en), Іов Голдберг (Шаблон:Lang-en) та Еран Яхав (Шаблон:Lang-en), ДКЧП «суттєво сильніше» ВРВ, бо може виконувати необмежений підрахунок, неможливий для ВРВ.[5] Ось чому ВРВ не може вивчити прості мови, з якими впоралась ДКЧП.[5]

Аналогічно, як показали Денні Бритз (Шаблон:Lang-en), Анна Голді (Шаблон:Lang-en, Мінь-Тханг Луонг (Шаблон:Lang-en) і Куок Лей (Шаблон:Lang-en) з Google Brain, вузли ДКЧП незмінно перевершують вузли ВРВ у «передовому широкомасштабному аналізі варіацій архітектури для нейронного машинного перекладу».

Архітектура

Символ позначає добуток Адамара. Початкове значення h0=0.

Повний рекурентний вузол

Повний рекурентний вузол.

Повний рекурентний вузол працює наступним чином. На вхід подаються значення вектору входу xt та значення виходу ht1 (при t=0, вектор виходу h0=0). По ним обчислюється претендент на нове значення виходу — вектор вузла скидання (Шаблон:Lang-en) rt, який обчислюється як функція активації (зазвичай сигмоїд) від матричного виразу по параметрам W, U та b. Незалежно, подібним чином, обчислюється вектор вузла уточнення (Шаблон:Lang-en) zt. Цей вектор містить значення, які визначають, чи варто залишити значення зі старого вектору, чи взяти нове значення. Фактично, це набір «вентилів» (Шаблон:Lang-en), які «пропускають» або старе, або нове значення. Далі обчислюється вектор виходу ht, в якому з ймовірністю zt береться старе значення з вектору ht1, або з ймовірністю (1zt) обчислюється нове значення.[6]

Формули для обчислень наступні:

zt=σg(Wzxt+Uzht1+bz)rt=σg(Wrxt+Urht1+br)ht=ztht1+(1zt)σh(Whxt+Uh(rtht1)+bh)

Змінні

  • xt: вектор входу
  • ht: вектор виходу
  • zt: вектор вузла уточнення
  • rt: вектор вузла скидання
  • W, U та b: матриці та вектор параметрів

Функції активації

Примітки

Шаблон:Примітки