Глибока мережа переконань

Матеріал з testwiki
Версія від 18:42, 30 листопада 2023, створена imported>RarBot (Виправив відсутній параметри джерел: vauthors, вилучив: df)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

Шаблон:Short description

Схематичний огляд глибокої мережі переконань. Стрілки подають спрямовані з'єднання в графовій моделі, яку подає ця мережа.

Шаблон:Машинне навчання

У машинному навчанні глибо́ка мере́жа перекона́нь[1] (ГМП, Шаблон:Lang-en, також іноді глиби́нна мере́жа перекона́нь) — це породжувальна графова модель або, інакше, клас глибоких нейронних мереж, що складено з кількох шарів латентних змінних («прихованих вузлів»), зі з'єднаннями між шарами, але не між вузлами всередині кожного шару.[2]

При тренуванні на наборі прикладів без керування ГМП може навчатися ймовірнісно відбудовувати свої входи. Шари тоді діють як виявлячі ознак.[2] Після цього етапу навчання ГМП можливо тренувати далі з керуванням для виконання класифікування.[3]

ГМП можливо розглядати як композицію простих некерованих мереж, таких як обмежені машини Больцмана (ОМБ)[2] або автокодувальники,[4] в якій прихований шар кожної підмережі слугує видимим шаром для наступної. ОМБ — це неорієнтована породжувальна модель на основі енергії з «видимим» шаром входу та прихованим шаром і зв'язками між шарами, але не всередині них. Така композиція веде до швидкої пошарової процедури некерованого тренування, де контрастове розходження застосовують по черзі до кожної підмережі, починаючи з «найнижчої» пари шарів (найнижчий видимий шар — це тренувальний набір).

Спостереження[3] щодо того, що ГМП можливо тренувати жадібно, по одному шару за раз, привело до створення одного з перших дієвих алгоритмів глибокого навчання.[5]Шаблон:Rp Загалом існує багато привабливих втілень та використань ГМП у реальних застосуваннях та сценаріях (наприклад, електроенцефалографії,[6] Шаблон:Нп[7][8][9]).

Тренування

Обмежена машина Больцмана (ОМБ) з повноз'єднаними видимими та прихованими вузлами. Зауважте, що з'єднань прихований-прихований та видимий-видимий немає.

Метод тренування ОМБ, запропонований Джефрі Гінтоном для використання в тренуванні моделей «Шаблон:Нп», називають контрастовим розходженням (КР, Шаблон:Lang-en).[10] КР забезпечує наближення методу максимальної правдоподібності, застосовувати який для навчання ваг було би ідеально.[11][12] Під час тренування однієї ОМБ уточнювання ваг виконують градієнтним спуском за таким рівнянням: wij(t+1)=wij(t)+ηlog(p(v))wij

де p(v) — ймовірність видимого вектора, задана як p(v)=1ZheE(v,h). Z це Шаблон:Нп (яку використовують для нормування), а E(v,h) — функція енергії, приписаної станові мережі. Нижча енергія вказує на те, що мережа має «бажанішу» конфігурацію. Градієнт log(p(v))wij має простий вигляд vihjdatavihjmodel, де p подають усереднення відносно розподілу p. Проблема виникає у вибиранні vihjmodel, оскільки воно вимагає розширеного навперемінного Шаблон:Нп. КР замінює цей крок виконанням альтернативного ґіббзового вибирання для n кроків (значення n=1 працюють добре). Після n кроків дані вибирають, і цю вибірку використовують замість vihjmodel. Процедура КР працює наступним чином:[11]

  1. Встановити видимі вузли у значення тренувального вектора.
  2. Уточнити приховані вузли паралельним чином, враховуючи видимі вузли: p(hj=1V)=σ(bj+iviwij). σ — сигмоїдна функція, а bj — зміщення hj.
  3. Уточнити видимі вузли паралельним чином, враховуючи приховані вузли: p(vi=1H)=σ(ai+jhjwij). ai — зміщення vi. Це називають етапом «відбудовування».
  4. Переуточнити приховані вузли паралельним чином, враховуючи відбудовані видимі вузли, використовуючи те саме рівняння, що й у кроці 2.
  5. Виконати уточнення ваг: Δwijvihjdatavihjreconstruction.

Щойно ОМБ натреновано, поверх неї «накладають» іншу ОМБ, беручи її вхід з останнього натренованого рівня. Новий видимий шар встановлюють у значення тренувального вектора, а значення для вузлів у вже навчених шарах встановлюють з використанням поточних ваг і зміщень. Потім нову ОМБ тренують за описаною вище процедурою. Весь цей процес повторюють, доки не буде досягнуто бажаного критерію зупинки.[13]

Хоч наближення КР до максимальної правдоподібності й грубе (не слідує градієнтові жодної функції), воно емпірично ефективне.[11]

Див. також

Примітки

Шаблон:Reflist

Посилання