Мережа радіальних базисних функцій

Мережа радіально базисних функцій (Шаблон:Lang-en) у математичному моделюванні — це штучна нейронна мережа, яка використовує радіальні базисні функції у якості функції активації. Виходом мережі є лінійна комбінація радіальних базисних функцій входу та параметрів нейрона. Мережі радіальних базисних функцій мають багато застосувань, зокрема, такі як Шаблон:Нп, прогнозування часових рядів, задачі класифікації та керування системою. Вони були вперше сформульовані у статті 1988 року Брумхедом і Лоу, обидва дослідники з Шаблон:Нп.^[1]^[2]^[3]

Архітектура мережі

Мережі радіально базисних функцій (RBF) зазвичай мають три шари: вхідний шар, прихований шар з нелінійною RBF функцією активації та лінійний вихідний рівень. Вхід можна моделювати як вектор дійсних чисел $𝐱 \in ℝ^{n}$ . Вихід мережі тоді, є скалярною функцією вхідного вектора, $φ : ℝ^{n} \to ℝ$ , і має вигляд

φ (𝐱) = \sum_{i = 1}^{N} a_{i} ρ (| | 𝐱 - 𝐜_{i} | |)

де $N$ — кількість нейронів у прихованому шарі, $𝐜_{i}$ є центральним вектором для нейрона $i$ , та $a_{i}$ — це вага нейрона $i$ в лінійному виході нейронів. Функції, які залежать лише від відстані від центру вектора, є радіально симетричними щодо цього вектора, отже, називаються радіальною базисною функцією. У базовій формі всі входи пов'язані з кожним прихованим нейроном. За норму, як правило, обирається Евклідова відстань (хоча відстань Махаланобіса, загалом, більш пасує), та радіальна базисна функція зазвичай вважається розподілом Ґауса

ρ (‖ 𝐱 - 𝐜_{i} ‖) = \exp [- β {‖ 𝐱 - 𝐜_{i} ‖}^{2}]

.

Гаусові базисні функції близькі до центрального вектора в тому сенсі, що

\lim_{| | x | | \to \infty} ρ (‖ 𝐱 - 𝐜_{i} ‖) = 0

тобто зміна параметрів одного нейрона має лише невеликий ефект для вхідних значень, що знаходяться далеко від центру цього нейрона.

Завдяки гнучким умовам на форму функції активації, RBF мережі є універсальними апроксиматорами на компактному просторі $ℝ^{n}$ . Це означає, що мережа RBF з достатньою кількістю прихованих нейронів може апроксимувати будь-яку неперервну функцію на замкненій обмеженій множині з довільною точністю.

Параметри $a_{i}$ , $𝐜_{i}$ , та $β_{i}$ визначаються так, щоб оптимізують відповідність між $φ$ і даними.

Нормалізація

Шаблон:Multiple image

Нормалізована архітектура

Окрім вищезгаданої ненормалізованої архітектури, мережі RBF можуть бути нормалізовані. У цьому випадку є відображення

φ (𝐱) \overset{d e f}{=} \frac{\sum_{i = 1}^{N} a_{i} ρ (‖ 𝐱 - 𝐜_{i} ‖)}{\sum_{i = 1}^{N} ρ (‖ 𝐱 - 𝐜_{i} ‖)} = \sum_{i = 1}^{N} a_{i} u (‖ 𝐱 - 𝐜_{i} ‖)

де

u (‖ 𝐱 - 𝐜_{i} ‖) \overset{d e f}{=} \frac{ρ (‖ 𝐱 - 𝐜_{i} ‖)}{\sum_{j = 1}^{N} ρ (‖ 𝐱 - 𝐜_{j} ‖)}

відома як «нормована радіально-базисна функція».

Теоретична мотивація для нормалізації

Існує теоретичне обґрунтування цієї архітектури у випадку стохастичного потоку даних. Припустимо, що апроксимація Шаблон:Нп для спільної щільності ймовірностей

P (𝐱 \land y) = \frac{1}{N} \sum_{i = 1}^{N} ρ (‖ 𝐱 - 𝐜_{i} ‖) σ (| y - e_{i} |)

де ваги $𝐜_{i}$ та $e_{i}$ є зразками даних, і нам потрібно, щоб ядра нормалізувались

\int ρ (‖ 𝐱 - 𝐜_{i} ‖) d^{n} 𝐱 = 1

і

\int σ (| y - e_{i} |) d y = 1

.

Щільність ймовірностей у вхідному та вихідному просторах є

P (𝐱) = \int P (𝐱 \land y) d y = \frac{1}{N} \sum_{i = 1}^{N} ρ (‖ 𝐱 - 𝐜_{i} ‖)

і

Очікування у введеного на вхід $𝐱$

φ (𝐱) \overset{d e f}{=} E (y ∣ 𝐱) = \int y P (y ∣ 𝐱) d y

де

P (y ∣ 𝐱)

умовна ймовірність y при заданому $𝐱$ . Умовна ймовірність пов'язана з ймовірністю теоремою Баєса.

P (y ∣ 𝐱) = \frac{P (𝐱 \land y)}{P (𝐱)}

який дає

φ (𝐱) = \int y \frac{P (𝐱 \land y)}{P (𝐱)} d y

.

Це стає

φ (𝐱) = \frac{\sum_{i = 1}^{N} e_{i} ρ (‖ 𝐱 - 𝐜_{i} ‖)}{\sum_{i = 1}^{N} ρ (‖ 𝐱 - 𝐜_{i} ‖)} = \sum_{i = 1}^{N} e_{i} u (‖ 𝐱 - 𝐜_{i} ‖)

коли виконується інтегрування.

Локальні лінійні моделі

Іноді зручно розширювати архітектуру, щоб включити локальні лінійні моделі. У цьому випадку архітектури зводяться до першого порядку,

φ (𝐱) = \sum_{i = 1}^{N} (a_{i} + 𝐛_{i} \cdot (𝐱 - 𝐜_{i})) ρ (‖ 𝐱 - 𝐜_{i} ‖)

і

φ (𝐱) = \sum_{i = 1}^{N} (a_{i} + 𝐛_{i} \cdot (𝐱 - 𝐜_{i})) u (‖ 𝐱 - 𝐜_{i} ‖)

в ненормалізованих та нормалізованих випадках, відповідно. Тут визначаються ваги $𝐛_{i}$ . Можливі також вирази більш високого порядку від лінійних термів. Цей результат можна записати як

φ (𝐱) = \sum_{i = 1}^{2 N} \sum_{j = 1}^{n} e_{i j} v_{i j} (𝐱 - 𝐜_{i})

де

e_{i j} = {\begin{matrix} a_{i}, & if i \in [1, N] \\ b_{i j}, & if i \in [N + 1, 2 N] \end{matrix}

і

v_{i j} (𝐱 - 𝐜_{i}) \overset{d e f}{=} {\begin{matrix} δ_{i j} ρ (‖ 𝐱 - 𝐜_{i} ‖), & if i \in [1, N] \\ (x_{i j} - c_{i j}) ρ (‖ 𝐱 - 𝐜_{i} ‖), & if i \in [N + 1, 2 N] \end{matrix}

в ненормалізованому випадку і

v_{i j} (𝐱 - 𝐜_{i}) \overset{d e f}{=} {\begin{matrix} δ_{i j} u (‖ 𝐱 - 𝐜_{i} ‖), & if i \in [1, N] \\ (x_{i j} - c_{i j}) u (‖ 𝐱 - 𝐜_{i} ‖), & if i \in [N + 1, 2 N] \end{matrix}

в нормалізованому. Тут $δ_{i j}$ є дельто-функцією Кронекера і визначається як

δ_{i j} = {\begin{matrix} 1, & if i = j \\ 0, & if i \neq j \end{matrix}

.

Навчання

Мережі RBF, як правило, тренуються з пар вхідних і цільових значень $𝐱 (t), y (t)$ , $t = 1, \dots, T$ , за двохетапним алгоритмом. На першому етапі обирається центр вектору $𝐜_{i}$ RBF функції у прихованому шарі. Цей етап виконується кількома способами; центри можуть бути випадково відібрані з деякого набору прикладів, або їх можна визначити за допомогою кластеризації методом к–середніх. Зауважте, що цей крок не керований. Другий крок просто відповідає лінійній моделі з коефіцієнтами $w_{i}$ до виходів прихованого шару з відношенням до деякої цільової функції. Загальна цільова функція, принаймні для регресії/оцінки функції, є функцією найменших квадратів:

K (𝐰) \overset{d e f}{=} \sum_{t = 1}^{T} K_{t} (𝐰)

де

K_{t} (𝐰) \overset{d e f}{=} [y (t) - φ (𝐱 (t), 𝐰)]^{2}

.

Ми маємо явне включення залежності від ваг. Мінімізація цільової функції найменших квадратів за оптимального вибору ваг оптимізує точність підгонки.

Є випадки, коли потрібно оптимізувати багато цілей, таких як гладкість, а також точність. У цьому випадку корисно оптимізувати регуляризовану цільову функцію, таку як

H (𝐰) \overset{d e f}{=} K (𝐰) + λ S (𝐰) \overset{d e f}{=} \sum_{t = 1}^{T} H_{t} (𝐰)

де

S (𝐰) \overset{d e f}{=} \sum_{t = 1}^{T} S_{t} (𝐰)

і

H_{t} (𝐰) \overset{d e f}{=} K_{t} (𝐰) + λ S_{t} (𝐰)

де оптимізація S максимізує гладкість та $λ$ відома, як регуляризація.

Третій, не обов'язковий етап зворотного поширення помилки, може бути виконаний для точного настроювання всіх параметрів мережі RBF.^[3]

Інтерполяція

RBF мережі можуть бути використані для інтерполяції функції $y : ℝ^{n} \to ℝ$ коли значення цих функцій відомі на кінцевому числі точок: $y (𝐱_{i}) = b_{i}, i = 1, \dots, N$ . Взяття відомих точок $𝐱_{i}$ щоб бути центрами радіальних базисних функцій і оцінювати значення основних функцій в тих самих точках $g_{i j} = ρ (| | 𝐱_{j} - 𝐱_{i} | |)$ ваги можуть бути знайдені з рівняння

[\begin{matrix} g_{11} & g_{12} & \dots & g_{1 N} \\ g_{21} & g_{22} & \dots & g_{2 N} \\ ⋮ & ⋱ & ⋮ \\ g_{N 1} & g_{N 2} & \dots & g_{N N} \end{matrix}] [\begin{matrix} w_{1} \\ w_{2} \\ ⋮ \\ w_{N} \end{matrix}] = [\begin{matrix} b_{1} \\ b_{2} \\ ⋮ \\ b_{N} \end{matrix}]

Може бути доведено, що інтерполяція матриці у вищенаведеному рівнянні є несингулярною, якщо точки $𝐱_{i}$ відрізняються, а отже ваги $w$ можуть бути знайдені за допомогою простої лінійної алгебри:

𝐰 = 𝐆^{- 1} 𝐛

Апроксимація функції

Якщо мета полягає не в тому, щоб виконувати жорстку інтерполяцію, а натомість більш загальну Шаблон:Нп або класифікацію, оптимізація дещо складніша, оскільки для центрів немає очевидного вибору. Тренування, як правило, виконуються в два етапи, спочатку фіксуючи ширину та центри, а потім ваги. Це можна виправдати, розглядаючи різну природу нелінійних прихованих нейронів у порівнянні з лінійним вихідним нейроном.

Підготовка центрів базисних функцій

Центри базисних функцій можуть бути випадково відібрані серед вхідних екземплярів або отримані в рамках ортогонального алгоритму навчання найменшої квадрату або знайдені за допомогою кластерізації зразків та вибору кластеризації як центрів.

Ширина RBF, як правило, закріплена за тим самим значенням, яке пропорційно максимальній відстані між вибраними центрами.

Псевдообернене рішення для лінійної ваги

Після того, як центри $c_{i}$ зафіксовані, ваги, що мінімізують похибку на виході, обчислюються за допомогою лінійного псевдооберненого рішення:

𝐰 = 𝐆^{+} 𝐛

,

де записи G є значеннями радіальних базисних функцій, оцінених в точках $x_{i}$ : $g_{j i} = ρ (| | x_{j} - c_{i} | |)$ .

Існування цього лінійного рішення означає, що на відміну від багатошарових персептронних (MLP) мереж, RBF мережі мають унікальний локальний мінімум (коли центри фіксуються).

Метод градієнтного спуску навчання лінійних ваг

Інший можливий алгоритм тренування — градієнтний спуск.Під час тренування градієнтного спуску ваги коригуються на кожному кроці, рухаючи їх у напрямку, протилежному градієнту об'єктивної функції (таким чином, можна знайти мінімум об'єктивної функції),

𝐰 (t + 1) = 𝐰 (t) - ν \frac{d}{d 𝐰} H_{t} (𝐰)

де $ν$ це «навчальний параметр».

Для випадку тренування лінійних ваг, $a_{i}$ , алгоритм стає

a_{i} (t + 1) = a_{i} (t) + ν [y (t) - φ (𝐱 (t), 𝐰)] ρ (‖ 𝐱 (t) - 𝐜_{i} ‖)

в ненормалізованому випадку і

a_{i} (t + 1) = a_{i} (t) + ν [y (t) - φ (𝐱 (t), 𝐰)] u (‖ 𝐱 (t) - 𝐜_{i} ‖)

в нормалізованому.

Для локальної лінійної архітектури навчання градієнт-спуском є

e_{i j} (t + 1) = e_{i j} (t) + ν [y (t) - φ (𝐱 (t), 𝐰)] v_{i j} (𝐱 (t) - 𝐜_{i})

Тренування оператора проектування лінійних ваг

Для випадку тренування лінійних ваг, $a_{i}$ та $e_{i j}$ , алгоритм стає

a_{i} (t + 1) = a_{i} (t) + ν [y (t) - φ (𝐱 (t), 𝐰)] \frac{ρ (‖ 𝐱 (t) - 𝐜_{i} ‖)}{\sum_{i = 1}^{N} ρ^{2} (‖ 𝐱 (t) - 𝐜_{i} ‖)}

в ненормалізованому випадку і

a_{i} (t + 1) = a_{i} (t) + ν [y (t) - φ (𝐱 (t), 𝐰)] \frac{u (‖ 𝐱 (t) - 𝐜_{i} ‖)}{\sum_{i = 1}^{N} u^{2} (‖ 𝐱 (t) - 𝐜_{i} ‖)}

в нормалізованому і

e_{i j} (t + 1) = e_{i j} (t) + ν [y (t) - φ (𝐱 (t), 𝐰)] \frac{v_{i j} (𝐱 (t) - 𝐜_{i})}{\sum_{i = 1}^{N} \sum_{j = 1}^{n} v_{i j}^{2} (𝐱 (t) - 𝐜_{i})}

в локально-лінійному випадку.

Для однієї базової функції тренування оператора проєкції зводиться до метода Ньютона.

Приклади

Логістична карта

Основні властивості радіально-базисних функцій можна проілюструвати простим математичним відображенням, логістичне відображення, яке відображає інтервал одиниці на себе. Він може бути використаний для створення зручного прототипу потоку даних. Логістичне відображення може бути використане для вивчення Шаблон:Нп, прогнозування часових рядів і теорії керування. Відображення походить з поля популяційна динаміка і стало прототипом для хаосу часових рядів. Відображення в повністю хаотичному режимі дається

x (t + 1) \overset{d e f}{=} f [x (t)] = 4 x (t) [1 - x (t)]

,

де t — індикатор часу. Значення х у момент t+1 є параболічною параболічною функцією х від часу t. Це рівняння представляє основну геометрію хаосу часових рядів, що породжуються логістичною картою.

Покоління часових рядів з цього рівняння є Шаблон:Нп; ідентифікація основної динаміки або фундаментального рівняння логістичної карти з примірників часових рядів. Мета — знайти оцінку

x (t + 1) = f [x (t)] \approx φ (t) = φ [x (t)]

для f.

Апроксимація функції

Ненормовані радіально базисні функції

Архітектурою є

φ (𝐱) \overset{d e f}{=} \sum_{i = 1}^{N} a_{i} ρ (‖ 𝐱 - 𝐜_{i} ‖)

де

ρ (‖ 𝐱 - 𝐜_{i} ‖) = \exp [- β {‖ 𝐱 - 𝐜_{i} ‖}^{2}] = \exp [- β {(x (t) - c_{i})}^{2}]

.

Примітки

Шаблон:Reflist

[1] Шаблон:Cite techreport

[2] Шаблон:Cite journal

[schwenker-3] 3,0 ^3,1 Шаблон:Cite journal

[1]

[2]

[3]

Мережа радіальних базисних функцій

Зміст

Архітектура мережі

Нормалізація

Нормалізована архітектура

Теоретична мотивація для нормалізації

Локальні лінійні моделі

Навчання

Інтерполяція

Апроксимація функції

Підготовка центрів базисних функцій

Псевдообернене рішення для лінійної ваги

Метод градієнтного спуску навчання лінійних ваг

Тренування оператора проектування лінійних ваг

Приклади

Логістична карта

Апроксимація функції

Ненормовані радіально базисні функції

Примітки

Навігаційне меню

Мережа радіальних базисних функцій

Архітектура мережі

Нормалізація

Нормалізована архітектура

Теоретична мотивація для нормалізації

Локальні лінійні моделі

Навчання

Інтерполяція

Апроксимація функції

Підготовка центрів базисних функцій

Псевдообернене рішення для лінійної ваги

Метод градієнтного спуску навчання лінійних ваг

Тренування оператора проектування лінійних ваг

Приклади

Логістична карта

Апроксимація функції

Ненормовані радіально базисні функції

Примітки

Навігаційне меню

Пошук