Математика штучних нейронних мереж

Шаблон:Main

Штучна нейронна мережа (ШНМ, Шаблон:Lang-en) поєднує біологічні принципи з передовою статистикою для розв'язування задач у таких областях як розпізнавання образів та ігровий процес. ШНМ приймають базову модель нейронних аналогів, з'єднаних один з одним різними способами.

Структура

Нейрон

Нейрон з міткою $j$ , що отримує вхід $p_{j} (t)$ від нейронів-попередників, містить наступні складові:^[1]

збудження (Шаблон:Lang-en) $a_{j} (t)$ , стан нейрона, що залежить від дискретного часового параметра,
необов'язковий поріг (Шаблон:Lang-en) $θ_{j}$ , що лишається незмінним, якщо не змінюється навчанням,
функцію збудження (Шаблон:Lang-en) $f$ , яка обчислює нове збудження в заданий час $t + 1$ виходячи з $a_{j} (t)$ , $θ_{j}$ та чистого входу $p_{j} (t)$ , породжуючи відношення

a_{j} (t + 1) = f (a_{j} (t), p_{j} (t), θ_{j}),

та функцію виходу (Шаблон:Lang-en) $f_{out}$ , яка обчислює вихід зі збудження

o_{j} (t) = f_{out} (a_{j} (t)) .

Функція виходу часто просто тотожна функція.

Нейрон входу (Шаблон:Lang-en) не має попередників, і слугує інтерфейсом входу для всієї мережі. Так само, нейрон виходу (Шаблон:Lang-en) не має наступників, й отже, слугує інтерфейсом виходу всієї мережі.

Функція поширення

Функція поширення (Шаблон:Lang-en) обчислює вхід $p_{j} (t)$ до нейрона $j$ з виходів $o_{i} (t)$ , і зазвичай має вигляд^[1]

p_{j} (t) = \sum_{i} o_{i} (t) w_{i j} .

Зміщення

Може бути додано член зміщення (Шаблон:Lang-en), що змінює її вигляд на такий:^[2]

p_{j} (t) = \sum_{i} o_{i} (t) w_{i j} + w_{0 j},

де

w_{0 j}

— це зміщення.

Нейронні мережі як функції

Шаблон:See also

Нейромережні моделі можливо розглядати як такі, що визначають функцію, яка бере вхід (спостереження) та видає вихід (рішення) $f : X \to Y$ або розподіл над $X$ або над $X$ та $Y$ . Іноді моделі тісно пов'язані з певним правилом навчання. Загальне використання фрази «модель ШНМ» насправді є визначенням класу таких функцій (де членів класу отримують варіюванням параметрів, ваг з'єднань або особливостей архітектури, таких як кількість нейронів, кількість шарів або їхня зв'язність).

З математичної точки зору мережну функцію нейрона $f (x)$ визначають як композицію інших функцій $g_{i} (x)$ , які можливо розкласти далі на інші функції. Це можливо зручно подавати у вигляді мережної структури зі стрілками, що зображують залежності між функціями. Широко вживаний тип композиції — нелінійна зважена сума, де $f (x) = K (\sum_{i} w_{i} g_{i} (x))$ , де $K$ (що зазвичай називають передавальною функцією, також Шаблон:Lang-en^[3]) — це деяка наперед визначена функція, наприклад, гіперболічний тангенс, сигмоїдна функція, нормована експоненційна функція (Шаблон:Lang-en) або випрямляльна функція (Шаблон:Lang-en). Важливою характеристикою передавальної функції є те, що вона забезпечує плавний перехід за зміни значень входу, тобто невелика зміна входу призводить до невеликої зміни виходу. Далі йдеться про набір функцій $g_{i}$ як вектор $g = (g_{1}, g_{2}, \dots, g_{n})$ .

Цей рисунок зображує такий розклад $f$ , із залежностями між змінними, показаними стрілками. Їх можливо тлумачити двояко.

Перший погляд — функційний: вхід $x$ перетворюється на тривимірний вектор $h$ , який відтак перетворюється на 2-вимірний вектор $g$ , який остаточно перетворюється на $f$ . Цей погляд найчастіше зустрічається в контексті оптимізації.

Другий погляд — імовірнісний: випадкова змінна $F = f (G)$ залежить від випадкової змінної $G = g (H)$ , що залежить від $H = h (X)$ , яка залежить від випадкової величини $X$ . Цей погляд найчастіше зустрічається в контексті графових моделей.

Ці два погляди здебільшого рівнозначні. В кожному разі для цієї конкретної архітектури складові окремих шарів незалежні одна від одної (наприклад, складові $g$ не залежать одна від одної за заданого їхнього входу $h$ ). Це, природно, уможливлює якусь міру паралелізму у втіленні.

Такі мережі як попередня зазвичай називають мережами прямого поширення, оскільки їхній граф є орієнтованим ациклічним графом. Мережі з циклами зазвичай називають рекурентними. Такі мережі зазвичай зображують у спосіб, показаний у верхній частині малюнка, де $f$ показано як залежну від самої себе. Проте не показано часову залежність, що мається на увазі.

Зворотне поширення

Алгоритми тренування зворотним поширенням поділяють на три категорії:

найшвидшого спуску (зі змінним темпом навчання та імпульсом, Шаблон:Нп);
квазіньютонові (Бройдена — Флетчера — Гольдфарба — Шанно, однокрокової хорди);
Левенберга — Марквардта та спряженого градієнта (уточнення Флетчера — Рівза, уточнення Поляка — Ріб'єра, перезапуск Павелла — Біла, масштабований спряжений градієнт).^[4]

Алгоритм

Нехай $N$ — мережа з $e$ з'єднань, $m$ входів та $n$ виходів.

Нижче $x_{1}, x_{2}, \dots$ позначують вектори в $ℝ^{m}$ , $y_{1}, y_{2}, \dots$ — вектори в $ℝ^{n}$ , а $w_{0}, w_{1}, w_{2}, \dots$ — вектори в $ℝ^{e}$ . Їх називають входами (Шаблон:Lang-en), виходами (Шаблон:Lang-en) та вагами (Шаблон:Lang-en) відповідно.

Мережа відповідає функції $y = f_{N} (w, x)$ , яка, за заданих ваг $w$ , відображує вхід $x$ до виходу $y$ .

У керованім навчанні послідовність тренувальних прикладів $(x_{1}, y_{1}), \dots, (x_{p}, y_{p})$ створює послідовність ваг $w_{0}, w_{1}, \dots, w_{p}$ , починаючи з деяких початкових ваг $w_{0}$ , зазвичай обираних випадково.

Ці ваги обчислюють по черзі: спочатку обчислюють $w_{i}$ , використовуючи лише $(x_{i}, y_{i}, w_{i - 1})$ для $i = 1, \dots, p$ . Тоді виходом цього алгоритму стає $w_{p}$ , даючи нову функцію $x \mapsto f_{N} (w_{p}, x)$ . Обчислення однакове на кожному кроці, тож описано лише випадок $i = 1$ .

$w_{1}$ обчислюють з $(x_{1}, y_{1}, w_{0})$ , розглядаючи змінну ваг $w$ та застосовуючи градієнтний спуск до функції $w \mapsto E (f_{N} (w, x_{1}), y_{1})$ для пошуку локального мінімуму, починаючи з $w = w_{0}$ .

Це робить $w_{1}$ мінімізувальною вагою, знайденою градієнтним спуском.

Псевдокод навчання

Щоби втілити наведений вище алгоритм, необхідні явні формули для градієнта функції $w \mapsto E (f_{N} (w, x), y)$ , де функція $E (y, y^{'}) = | y - y^{'} |^{2}$ .

Поширення

Поширення охоплює наступні етапи:

Пряме поширення крізь мережу для породження значень виходу
Розрахунок витрат (Шаблон:Lang-en, члену похибки, Шаблон:Lang-en)
Поширення збуджень виходу крізь мережу у зворотному напрямку з використанням тренувального цільового образу для породження дельт (різниць між цільовими та фактичними значеннями виходу) всіх нейронів виходу та прихованих нейронів.

Уточнювання ваг

Для кожної ваги:

Помножити дельту виходу ваги на збудження входу, щоби знайти градієнт ваги.
Відняти відношення (відсоток) градієнта ваги від неї.

Темп навчання (Шаблон:Lang-en) — це відношення (відсоток), яке впливає на швидкість і якість навчання. Що більше це відношення, то швидше тренується нейрон, але що це відношення менше, то точніше навчання. Знак градієнта ваги вказує, чи змінюється похибка прямо, чи обернено до ваги. Тож вагу необхідно оновлювати в протилежному напрямку, «спускаючись» з градієнта.

Навчання повторюють (на нових пакетах), доки мережа не запрацює адекватно.

Псевдокод

Псевдокод для алгоритму стохастичного градієнтного спуску для навчання тришарової мережі (один прихований шар):

встановити початкові значення ваг мережі (часто малі випадкові значення)
робити
  для кожного тренувального прикладу під назвою пр. зробити
    передбачення = вихід нейронної мережі(мережа, пр.) // прямий прохід
    факт = результат вчителя(пр.)
    обчислити похибку (передбачення - факт) на вузлах виходу
    Шаблон:Nobr // зворотний прохід
    Шаблон:Nobr // продовження зворотного проходу
    уточнити ваги мережі // шар входу оцінкою похибки не змінюється
поки рівень похибки не стане прийнятно низьким
повернути мережу

Рядки, позначені як «зворотний прохід», може бути втілено за допомогою алгоритму зворотного поширення, який обчислює градієнт похибки мережі щодо змінюваних ваг мережі.^[5]

Примітки

Шаблон:Примітки

↑ ^1,0 ^1,1 Шаблон:Cite book Шаблон:Ref-de
↑ Шаблон:Cite journal Шаблон:Ref-en
↑ Шаблон:Cite web Шаблон:Ref-en
↑ Шаблон:Cite conference Шаблон:Ref-en
↑ Werbos, Paul J. (1994). The Roots of Backpropagation. From Ordered Derivatives to Neural Networks and Political Forecasting. New York, NY: John Wiley & Sons, Inc. Шаблон:Ref-en

[Zell1994ch5.2-1] 1,0 ^1,1 Шаблон:Cite book Шаблон:Ref-de

[DAWSON1998-2] Шаблон:Cite journal Шаблон:Ref-en

[3] Шаблон:Cite web Шаблон:Ref-en

[4] Шаблон:Cite conference Шаблон:Ref-en

[5] Werbos, Paul J. (1994). The Roots of Backpropagation. From Ordered Derivatives to Neural Networks and Political Forecasting. New York, NY: John Wiley & Sons, Inc. Шаблон:Ref-en

[1]

[2]

[3]

[4]

[5]

Математика штучних нейронних мереж

Зміст

Структура

Нейрон

Функція поширення

Зміщення

Нейронні мережі як функції

Зворотне поширення

Алгоритм

Псевдокод навчання

Поширення

Уточнювання ваг

Псевдокод

Примітки

Навігаційне меню

Математика штучних нейронних мереж

Структура

Нейрон

Функція поширення

Зміщення

Нейронні мережі як функції

Зворотне поширення

Алгоритм

Псевдокод навчання

Поширення

Уточнювання ваг

Псевдокод

Примітки

Навігаційне меню

Пошук