Глибока мережа переконань

У машинному навчанні глибо́ка мере́жа перекона́нь^[1] (ГМП, Шаблон:Lang-en, також іноді глиби́нна мере́жа перекона́нь) — це породжувальна графова модель або, інакше, клас глибоких нейронних мереж, що складено з кількох шарів латентних змінних («прихованих вузлів»), зі з'єднаннями між шарами, але не між вузлами всередині кожного шару.^[2]

При тренуванні на наборі прикладів без керування ГМП може навчатися ймовірнісно відбудовувати свої входи. Шари тоді діють як виявлячі ознак.^[2] Після цього етапу навчання ГМП можливо тренувати далі з керуванням для виконання класифікування.^[3]

ГМП можливо розглядати як композицію простих некерованих мереж, таких як обмежені машини Больцмана (ОМБ)^[2] або автокодувальники,^[4] в якій прихований шар кожної підмережі слугує видимим шаром для наступної. ОМБ — це неорієнтована породжувальна модель на основі енергії з «видимим» шаром входу та прихованим шаром і зв'язками між шарами, але не всередині них. Така композиція веде до швидкої пошарової процедури некерованого тренування, де контрастове розходження застосовують по черзі до кожної підмережі, починаючи з «найнижчої» пари шарів (найнижчий видимий шар — це тренувальний набір).

Спостереження^[3] щодо того, що ГМП можливо тренувати жадібно, по одному шару за раз, привело до створення одного з перших дієвих алгоритмів глибокого навчання.^[5]Шаблон:Rp Загалом існує багато привабливих втілень та використань ГМП у реальних застосуваннях та сценаріях (наприклад, електроенцефалографії,^[6] Шаблон:Нп^[7]^[8]^[9]).

Тренування

Метод тренування ОМБ, запропонований Джефрі Гінтоном для використання в тренуванні моделей «Шаблон:Нп», називають контрастовим розходженням (КР, Шаблон:Lang-en).^[10] КР забезпечує наближення методу максимальної правдоподібності, застосовувати який для навчання ваг було би ідеально.^[11]^[12] Під час тренування однієї ОМБ уточнювання ваг виконують градієнтним спуском за таким рівнянням: $w_{i j} (t + 1) = w_{i j} (t) + η \frac{\partial \log (p (v))}{\partial w_{i j}}$

де $p (v)$ — ймовірність видимого вектора, задана як $p (v) = \frac{1}{Z} \sum_{h} e^{- E (v, h)}$ . $Z$ це Шаблон:Нп (яку використовують для нормування), а $E (v, h)$ — функція енергії, приписаної станові мережі. Нижча енергія вказує на те, що мережа має «бажанішу» конфігурацію. Градієнт $\frac{\partial \log (p (v))}{\partial w_{i j}}$ має простий вигляд $⟨ v_{i} h_{j} ⟩_{data} - ⟨ v_{i} h_{j} ⟩_{model}$ , де $⟨ \dots ⟩_{p}$ подають усереднення відносно розподілу $p$ . Проблема виникає у вибиранні $⟨ v_{i} h_{j} ⟩_{model}$ , оскільки воно вимагає розширеного навперемінного Шаблон:Нп. КР замінює цей крок виконанням альтернативного ґіббзового вибирання для $n$ кроків (значення $n = 1$ працюють добре). Після $n$ кроків дані вибирають, і цю вибірку використовують замість $⟨ v_{i} h_{j} ⟩_{model}$ . Процедура КР працює наступним чином:^[11]

Встановити видимі вузли у значення тренувального вектора.
Уточнити приховані вузли паралельним чином, враховуючи видимі вузли: $p (h_{j} = 1 ∣ V) = σ (b_{j} + \sum_{i} v_{i} w_{i j})$ . $σ$ — сигмоїдна функція, а $b_{j}$ — зміщення $h_{j}$ .
Уточнити видимі вузли паралельним чином, враховуючи приховані вузли: $p (v_{i} = 1 ∣ H) = σ (a_{i} + \sum_{j} h_{j} w_{i j})$ . $a_{i}$ — зміщення $v_{i}$ . Це називають етапом «відбудовування».
Переуточнити приховані вузли паралельним чином, враховуючи відбудовані видимі вузли, використовуючи те саме рівняння, що й у кроці 2.
Виконати уточнення ваг: $Δ w_{i j} \propto ⟨ v_{i} h_{j} ⟩_{data} - ⟨ v_{i} h_{j} ⟩_{reconstruction}$ .

Щойно ОМБ натреновано, поверх неї «накладають» іншу ОМБ, беручи її вхід з останнього натренованого рівня. Новий видимий шар встановлюють у значення тренувального вектора, а значення для вузлів у вже навчених шарах встановлюють з використанням поточних ваг і зміщень. Потім нову ОМБ тренують за описаною вище процедурою. Весь цей процес повторюють, доки не буде досягнуто бажаного критерію зупинки.^[13]

Хоч наближення КР до максимальної правдоподібності й грубе (не слідує градієнтові жодної функції), воно емпірично ефективне.^[11]

Див. також

Примітки

Шаблон:Reflist

Посилання

[1] Шаблон:Cite thesis

[scholar-2] 2,0 ^2,1 ^2,2 Шаблон:Cite journal

[hinton06-3] 3,0 ^3,1 Шаблон:Cite journal

[4] Шаблон:Cite conference

[5] Шаблон:Cite journal

[6] Шаблон:Cite journal

[7] Шаблон:Cite journal

[8] Шаблон:Cite journal

[9] Шаблон:Cite journal

[POE-10] Шаблон:Cite journal

[RBMTRAIN2-11] 11,0 ^11,1 ^11,2 Шаблон:Cite journal

[RBMTutorial-12] Шаблон:Cite journal

[BENGIODEEP-13] Шаблон:Cite journal

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

Глибока мережа переконань

Зміст

Тренування

Див. також

Примітки

Посилання

Навігаційне меню

Глибока мережа переконань

Тренування

Див. також

Примітки

Посилання

Навігаційне меню

Пошук