Обмежена машина Больцмана

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Short description Шаблон:Машинне навчання

Схема обмеженої машини Больцмана з трьома видимими вузлами та чотирма прихованими вузлами (без упереджених вузлів).

Обме́жена маши́на Бо́льцмана (ОМБ, Шаблон:Lang-en) — це породжувальна стохастична штучна нейронна мережа, здатна навчатися розподілу ймовірностей над набором її входів.

ОМБ було спочатку винайдено під назвою Гармоніум (Шаблон:Lang-en — фісгармонія) Шаблон:Нп 1986 року,[1] а популярності вони набули після винайдення Джефрі Гінтоном зі співавторами у середині 2000-х років алгоритмів швидкого навчання для них. ОМБ знайшли застосування у зниженні розмірності,[2] класифікації,[3] колаборативній фільтрації,[4] навчанні ознак,[5] тематичному моделюванні[6] та навіть Шаблон:Нп.[7][8] Їх можна тренувати як керованим, так і некерованим чином, залежно від завдання.

Як випливає з їхньої назви, ОМБ є варіантом машин Больцмана, з тим обмеженням, що їхні нейрони мусять формувати двочастковий граф: пара вузлів з кожної з двох груп вузлів (що, як правило, називають «видимим» та «прихованим» вузлами відповідно) можуть мати симетричне з'єднання між ними, але з'єднань між вузлами в межах групи не існує. На противагу, «необмежені» машини Больцмана можуть мати з'єднання між прихованими вузлами. Це обмеження уможливлює ефективніші алгоритми тренування, ніж доступні для загального класу машин Больцмана, зокрема, алгоритм контра́стового розхо́дження (Шаблон:Lang-en) на основі градієнтного спуску.[9]

Обмежені машини Больцмана можливо також застосовувати в мережах глибокого навчання. Зокрема, глибокі мережі переконань можуть утворюватися «складанням» ОМБ та, можливо, тонким настроюванням отримуваної глибокої мережі за допомогою градієнтного спуску та зворотного поширення.[10]

Структура

Стандартний тип ОМБ має бінарновозначні (булеві) приховані та видимі вузли, і складається з матриці Шаблон:H:title W розміру m×n. Кожен ваговий елемент (wi,j) цієї матриці пов'язано зі з'єднанням між Шаблон:H:title (вхідним) вузлом vi та Шаблон:H:title вузлом hj. Крім того, є вагові коефіцієнти Шаблон:H:title (Шаблон:H:title) ai для vi та bj для hj. З урахуванням цих ваг та упереджень, енергію конфігурації (пари булевих векторів) Шаблон:Math визначають як

E(v,h)=iaivijbjhjijviwi,jhj

або, в матричному записі,

E(v,h)=aTvbThvTWh.

Ця функція енергії аналогічна функції енергії мережі Гопфілда. Як і з загальними машинами Больцмана, спільний розподіл імовірності для видимих та прихованих векторів визначають у термінах функції енергії наступним чином:[11]

P(v,h)=1ZeE(v,h)

де Z є Шаблон:Нп, визначеною як сума eE(v,h) над усіма можливими конфігураціями, що можливо інтерпретувати як Шаблон:Нп для забезпечення того, щоби ймовірності давали в сумі 1. Відособлена ймовірність видимого вектора є сумою P(v,h) над усіма можливими конфігураціями прихованого шару,[11]

P(v)=1Z{h}eE(v,h),

і навпаки. Оскільки графова структура в основі ОМБ двочасткова (тобто, без з'єднань усередині шарів), збудження прихованих вузлів є Шаблон:Нп для заданих збуджень видимих вузлів. І навпаки, збудження видимих вузлів є взаємно незалежними для заданих збуджень прихованих вузлів.[9] Тобто, для m видимих вузлів та n прихованих вузлів умовною ймовірністю конфігурації видимих вузлів Шаблон:Mvar для заданої конфігурації прихованих вузлів Шаблон:Mvar є

P(v|h)=i=1mP(vi|h).

І навпаки, умовною ймовірністю Шаблон:Mvar для заданої Шаблон:Mvar є

P(h|v)=j=1nP(hj|v).

Імовірності окремих збуджень задаються як

P(hj=1|v)=σ(bj+i=1mwi,jvi) та P(vi=1|h)=σ(ai+j=1nwi,jhj)

де σ позначає логістичну сигмоїду.

Незважаючи на те, що приховані вузли є бернуллієвими, видимі вузли обмеженої машини Больцмана можуть бути багатозначними.Шаблон:Clarify В такому випадку логістична функція для видимих вузлів замінюється нормованою експоненційною функцією (Шаблон:Lang-en)

P(vik=1|h)=exp(aik+ΣjWijkhj)Σk=1Kexp(aik+ΣjWijkhj)

де K є кількістю дискретних значень, які мають видимі значення. Вони застосовуються в тематичному моделюванні[6] та рекомендаційних системах.[4]

Співвідношення з іншими моделями

Обмежені машини Больцмана є особливим випадком машин Больцмана та марковських випадкових полів.[12][13] Їхня графова модель відповідає моделі факторного аналізу.[14]

Алгоритм тренування

Обмежені машини Больцмана тренуються максимізувати добуток ймовірностей, призначених певному тренувальному наборові V (матриця, кожен рядок якої розглядається як видимий вектор v),

argmaxWvVP(v)

або, рівноцінно, максимізувати математичне сподівання логарифмічної ймовірності тренувального зразка v, вибраного випадково з V:[12][13]

argmaxW𝔼[logP(v)]

Алгоритмом, що найчастіше застосовують для тренування ОМБ, тобто для оптимізації матриці вагових коефіцієнтів W, є алгоритм контрастового розходження (КР, Шаблон:Lang-en), що належить Гінтонові, первинно розроблений для тренування моделей Шаблон:Нп (Шаблон:Lang-en).[15][16] Цей алгоритм здійснює Шаблон:Нп, і використовується всередині процедури градієнтного спуску (подібного до того, як зворотне поширення використовується всередині такої процедури при тренуванні нейронних мереж прямого поширення) для обчислення уточнення вагових коефіцієнтів.

Елементарну, однокрокову процедуру контрастового розходження (КР-1, Шаблон:Lang-en) для єдиного зразка може бути описано таким чином:

  1. Взяти тренувальний зразок Шаблон:Mvar, обчислити ймовірності прихованих вузлів, та вибрати вектор прихованих збуджень Шаблон:Mvar з цього розподілу ймовірності.
  2. Обчислити зовнішній добуток Шаблон:Mvar та Шаблон:Mvar, і назвати це позитивним градієнтом.
  3. Спираючись на Шаблон:Mvar, вибрати відбудову видимих вузлів Шаблон:Mvar, а потім перевибрати з неї приховані збудження Шаблон:Mvar. (крок вибірки за Ґіббзом)
  4. Обчислити зовнішній добуток Шаблон:Mvar та Шаблон:Mvar, і назвати це негативним градієнтом.
  5. Покласти уточненням вагової матриці W різницю позитивного та негативного градієнтів, помножену на певний темп навчання: ΔW=ϵ(vh𝖳vh'𝖳).
  6. Уточнити упередження Шаблон:Mvar та Шаблон:Mvar аналогічно: Δa=ϵ(vv), Δb=ϵ(hh).

Практичну настанову з тренування ОМБ, написану Гінтоном, можна знайти на його домашній сторінці.[11]

Складена обмежена машина Больцмана

Шаблон:Незрозуміло Шаблон:Недостатньо джерел у розділі Шаблон:Див. також

  • Відмінність між складеними обмеженими машинами Больцмана (Шаблон:Lang-en) та ОМБ полягає в тому, що ОМБ має бічні з’єднання всередині шару, які заборонено для того, щоби зробити аналіз піддатливим. З іншого боку, складена больцманова машина складається з поєднання некерованої тришарової мережі з симетричними вагами та керованого тонко настроюваного верхнього шару для розпізнавання трьох класів.
  • Використання складеної больцманової машини призначене для розуміння природної мови, Шаблон:Нп, створення зображень та класифікування. Ці функції тренуються некерованим попереднім тренуванням та/або керованим тонким настроюванням. На відміну від неорієнтованого симетричного верхнього шару, з двоспрямованим несиметричним шаром для підключення до ОМБ. Обмежені больцманові з'єднання є тришаровим з асиметричними вагами, а дві мережі об'єднано в одну.
  • Складена больцманова машина має спільні риси з ОМБ, нейрон для складеної больцманової машини це стохастичний бінарний нейрон Гопфілда, такий же, як і в обмеженій машині Больцмана. Енергію як для складеної больцманової машини, так і для ОМБ, задають ґіббзовою мірою ймовірності E=12i,jwijsisj+iθisi. Процес тренування обмежених больцманових машин подібний до ОМБ. Обмежені больцманові машини тренують пошарово та наближують стан рівноваги 3-сегментним проходом, не виконуючи зворотного поширення. Обмежені больцманові машини використовують як кероване, так і некероване тренування на різних ОБМ для попереднього тренування для класифікування та розпізнавання. Тренування використовує контрастове розходження з ґіббзовим вибиранням: Δwij = e*(pij - p'ij)
  • Перевага обмеженої больцманової машини полягає у виконанні нелінійного перетворення, тому її легко розширити, що може дати ієрархічний шар ознак. Слабкість полягає у складності обчислень цілочислових та дійснозначних нейронів. Вона не слідує градієнтові будь-якої функції, тож наближення контрастового розходження до максимальної правдоподібності є імпровізованим.[11]

Література

Див. також

Примітки

Шаблон:Примітки

Посилання