Стохастична градієнтна динаміка Ланжевена

Стохастична градієнтна динаміка Ланжевена (SGLD) — це метод оптимізації та вибірки, що складається з характеристик стохастичного градієнтного спуску, Шаблон:Нп, і динаміки Ланжевена, математичного розширення моделей молекулярної динаміки. Подібно до стохастичного градієнтного спуску, SGLD — це ітеративний алгоритм оптимізації, який використовує мінібатчування для створення стохастичного оцінювача градієнта, який використовується в SGD для оптимізації диференційованої цільової функції.^[1] На відміну від традиційного SGD, SGLD можна використовувати для байєсівського навчання як метод вибірки. SGLD можна розглядати як динаміку Ланжевена, застосовану до апостеріорних розподілів, але ключова відмінність полягає в тому, що члени градієнта правдоподібності є мінібатчними, як у SGD. SGLD, як і динаміка Ланжевена, створює вибірки з апостеріорного розподілу параметрів на основі доступних даних. Вперше описаний Веллінгом і Техом у 2011 році, цей метод має застосування в багатьох контекстах, які потребують оптимізації, і найбільш помітно використовується в задачах машинного навчання.

Формальне означення

Нехай задано деякий вектор параметрів $θ$ , його апріорний розподіл $p (θ)$ , і набір точок даних $X = {x_{i}}_{i = 1}^{N}$ , динаміка Ланжевена утворює вибірку з апостеріорного розподілу $p (θ ∣ X) \propto p (θ) \prod_{i = 1}^{N} p (x_{i} ∣ θ)$ шляхом оновлення ланцюжка:

Δ θ_{t} = \frac{ε_{t}}{2} (\nabla \log p (θ_{t}) + \sum_{i = 1}^{N} \nabla \log p (x_{t_{i}} ∣ θ_{t})) + η_{t} .

Стохастична градієнтна динаміка Ланжевена використовує модифіковану процедуру оновлення з мінібатченими членами правдоподібності:

Δ θ_{t} = \frac{ε_{t}}{2} (\nabla \log p (θ_{t}) + \frac{N}{n} \sum_{i = 1}^{n} \nabla \log p (x_{t_{i}} ∣ θ_{t})) + η_{t},

де $n < N$ є додатним цілим числом, $η_{t} \sim 𝒩 (0, ε_{t})$ гаусівський шум, $p (x ∣ θ)$ правдоподібность даних, задана вектором параметрів $θ$ , і розміри кроку $ε_{t}$ задовольняють наступні умови:

\sum_{t = 1}^{\infty} ε_{t} = \infty, \sum_{t = 1}^{\infty} ε_{t}^{2} < \infty .

Для початкових ітерацій алгоритму кожне оновлення параметра імітує стохастичний градієнтний спуск; однак, коли алгоритм наближається до локального мінімуму або максимуму, градієнт стискається до нуля, і ланцюжок виробляє вибірки, що оточують максимальний апостериорний режим, що дозволяє зробити апостериорне висновування. Цей процес генерує приблизну вибірку з апостеріору шляхом балансування дисперсії введеного шуму Гауса та обчислення стохастичного градієнта.

Застосування

SGLD застосовний у будь-якому контексті оптимізації, для якого бажано швидко отримати апостериорну вибірку замість максимального апостериорного режиму. При цьому метод підтримує обчислювальну ефективність стохастичного градієнтного спуску порівняно з традиційним градієнтним спуском, надаючи додаткову інформацію щодо околиці критичної точки цільової функції. На практиці SGLD можна використовувати для навчання байєсівських нейронних мереж у глибокому навчанні, завдань, у яких метод надає розподіл за параметрами моделі. Вводячи інформацію про дисперсію цих параметрів, SGLD характеризує можливість узагальнення цих моделей на певних етапах навчання.^[2] Крім того, отримання вибірки із апостеріорного розподілу дозволяє кількісно визначити невизначеність за допомогою довірчих інтервалів, що є неможливим за допомогою традиційного стохастичного градієнтного спуску.

Варіанти та відповідні алгоритми

Якщо градієнтні обчислення є точними, SGLD зводиться до алгоритму Ланжевена Монте-Карло,^[3] вперше згаданного в літературі теорії ґраткового поля. Цей алгоритм також є модифікацією алгоритму Шаблон:Нп, що складається з пропозиції єдиного кроку перекрокування, замість серії кроків.^[4] Оскільки SGLD можна сформулювати як модифікацію як стохастичного градієнтного спуску, так і методів MCMC, метод лежить на перетині алгоритмів оптимізації та вибірки; метод зберігає здатність SGD швидко сходитися до регіонів з низькою вартістю, одночасно надаючи вибірку для полегшення апостериорного висновування.

Врахування послаблених обмежень на розмір кроку $ε_{t}$ таких, що не наближаються до нуля асимптотично, SGLD не в змозі створити вибірку, для якої коефіцієнт відхилення Метрополіса Гастінгса дорівнює нулю, і, таким чином, крок відхилення MH стає необхідним.^[1] Отриманий алгоритм, який отримав назву "скоригований за Метрополісом алгоритм Ланжевена", ^[5] вимагає наступного кроку:

\frac{p (𝜽^{t} ∣ 𝜽^{t + 1}) p^{*} (𝜽^{t})}{p (𝜽^{t + 1} ∣ 𝜽^{t}) p^{*} (𝜽^{t + 1})} < u, u \sim 𝒰 [0, 1],

де $p (θ^{t} ∣ θ^{t + 1})$ є нормальним розподілом з центром в один крок градієнтного спуску від $θ^{t}$ та $p (θ)$ – наш цільовий розподіл.

Швидкості перемішування та алгоритмічна збіжність

Останні дослідження вивели верхню межу часу змішування як для традиційного алгоритму Ланжевена, так і для скоригованого за Метрополісом алгоритма Ланжевена.^[5] Опубліковані в Ma et al., 2018, ці межі визначають швидкість, з якою алгоритми збігаються до справжнього апостеріорного розподілу, формально визначеного як:

τ (ε; p^{0}) = \min {k ∣ {‖ p^{k} - p^{*} ‖}_{V} \leq ε},

де $ε \in (0, 1)$ є довільним допуском до помилок, $p^{0}$ є деяким початковим розподілом, $p^{*}$ є апостеріорним розподілом, і $| | * | |_{T V}$ є загальною нормою варіації . За деяких умов регулярності $L$ -ліпшицевої гладкої цільової функції $U (x)$ яка є $m$ -сильно опуклою за межами області радіуса $R$ з числом обумовленості $κ = \frac{L}{m}$ , маємо оцінки меж швидкості перемішування:

τ_{U L A} (ε, p^{0}) \leq 𝒪 (e^{32 L R^{2}} κ^{2} \frac{d}{ε^{2}} \ln (\frac{d}{ε^{2}})),

τ_{M A L A} (ε, p^{0}) \leq 𝒪 (e^{16 L R^{2}} κ^{3 / 2} d^{1 / 2} {(d \ln κ + \ln (\frac{1}{ε}))}^{3 / 2}),

де $τ_{U L A}$ і $τ_{M A L A}$ стосуються швидкості перемішування нескоригованого алгоритму Ланжевена та скоригованого за Метрополісом алгоритму Ланжевена відповідно. Ці межі важливі, оскільки вони показують, що обчислювальна складність є поліноміальною за розмірністю $d$ за умовою, що $L R^{2}$ перебуває в $𝒪 (\log d)$ .

Див. також

Список літератури

[:0-1] 1,0 ^1,1 Шаблон:Cite journal

[2] Шаблон:Cite arXiv

[3] Шаблон:Cite book

[4] Шаблон:Cite book

[:1-5] 5,0 ^5,1 Шаблон:Cite arXiv

[1]

[2]

[3]

[4]

[5]

Стохастична градієнтна динаміка Ланжевена

Зміст

Формальне означення

Застосування

Варіанти та відповідні алгоритми

Швидкості перемішування та алгоритмічна збіжність

Див. також

Список літератури

Навігаційне меню

Стохастична градієнтна динаміка Ланжевена

Формальне означення

Застосування

Варіанти та відповідні алгоритми

Швидкості перемішування та алгоритмічна збіжність

Див. також

Список літератури

Навігаційне меню

Пошук