Softmax

В математиці, функція Softmax, або ж нормована експоненційна функція^[1]Шаблон:Rp — це узагальнення логістичної функції, що «стискує» Шаблон:Mvar-вимірний вектор $𝐳$ із довільним значеннями компонент до Шаблон:Mvar-вимірного вектора $σ (𝐳)$ з дійсними значеннями компонент в області [0, 1] що в сумі дають одиницю. Функція задається наступним чином:

σ : ℝ^{K} \to [0, 1]^{K}

σ (𝐳)_{j} = \frac{e^{z_{j}}}{\sum_{k = 1}^{K} e^{z_{k}}}

for j = 1, …, K.

В теорії ймовірності, результат софтмакс-функції може використовуватись для того щоб представити категорійний розподіл, тобто розподіл ймовірності при Шаблон:Mvar різних можливих варіантах. Функція софтмакс використовується в різних методах Шаблон:Нп, таких, як наприклад Шаблон:Нп (також відома як софтмакс-регресія)^[1], багатокласовий лінійний розділювальний аналіз, наївний баєсів класифікатор, і штучні нейронні мережі.^[2]

Інтерпретації

Згладжений arg max

Шаблон:See alsoНазва «softmax» вводить в оману — функція не є згладженим максимумом (гладке наближення до функції максимуму), а є скоріше гладким наближенням до функції arg max — аргумента максимального значення функції. Насправді, термін «softmax» також використовується для тісно пов'язаної Шаблон:Нп, яка є згладженим максимумом. З цієї причини дехто вважає кращим більш точний термін «softargmax», але термін «softmax» є прийнятим у машинному навчанні.Шаблон:Sfn У цьому розділі використовується термін «softargmax», щоб підкреслити цю інтерпретацію.

Теорія ймовірностей

У теорії ймовірностей значення функції softargmax можна використовувати для представлення категорійного розподілу, тобто розподілу ймовірностей для Шаблон:Mvar різних можливих результатів.

Статистична механіка

У статистичній механіці функція Softargmax відома як розподіл Больцмана (або розподіл Гіббса):^[3]Шаблон:Rpнабір індексів $1, \dots, k$ — мікростани системи; входи $z_{i}$ — енергії цих станів; знаменник відомий як статистична сума, часто позначається як Шаблон:Mvar ; а коефіцієнт Шаблон:Mvar називається термодинамічна бета, або обернена температура.

Застосування

Функція softmax використовується в різних Шаблон:Нп, таких як: Шаблон:Нп (також відома як softmax регресія)^[4]Шаблон:Rp^[5], багатокласовий лінійний дискримінантний аналіз, наївних баєсівих класифікаторах та штучних нейронних мережах.^[2] Зокрема, у мультиноміальній логістичній регресії та лінійному дискримінантному аналізі вхідними даними функції є результати Шаблон:Mvar різних лінійних функцій, а прогнозована ймовірність для Шаблон:Mvar-го класу з урахуванням вектора вибірки Шаблон:Math і вектора ваги Шаблон:Math є:

$P (y = j ∣ 𝐱) = \frac{e^{𝐱^{𝖳} 𝐰_{j}}}{\sum_{k = 1}^{K} e^{𝐱^{𝖳} 𝐰_{k}}}$

Це можна розглядати як композицію Шаблон:Mvar лінійних функцій $𝐱 \mapsto 𝐱^{𝖳} 𝐰_{1}, \dots, 𝐱 \mapsto 𝐱^{𝖳} 𝐰_{K}$ і функції softmax (де $𝐱^{𝖳} 𝐰$ позначає внутрішній добуток $𝐱$ і $𝐰$ ). Операція еквівалентна застосуванню лінійного оператора, визначеного за допомогою $𝐰$ до векторів $𝐱$ , перетворюючи таким чином вхідний, можливо, багатовимірний, вектор аргументів на вектор у Шаблон:Mvar -вимірному просторі $ℝ^{K}$ .

Нейронні мережі

Функція softmax часто використовується в останньому шарі класифікаторів на основі нейронних мереж. Такі мережі зазвичай навчаються за допомогою перехресної ентропії, що дає нелінійний варіант поліноміальної логістичної регресії.

Оскільки функція переводить вектор $𝐪$ і певний індекс $i$ в дійсне число, то похідна повинна враховувати ще й індекс:

\frac{\partial}{\partial q_{k}} σ (𝐪, i) = σ (𝐪, i) (δ_{i k} - σ (𝐪, k)) .

Цей вираз є симетричним відносно індексів $i$ та $k$ , тому він також може бути виражений як

\frac{\partial}{\partial q_{k}} σ (𝐪, i) = σ (𝐪, k) (δ_{i k} - σ (𝐪, i)) .

Тут для простоти використовується символ Кронекера (похідна від сигмоїдної функції виражається через саму функцію).

Якщо функція масштабується за допомогою параметра $β$ , то ці вирази потрібно помножити на $β$ .

Див. Шаблон:Нп для ймовірнісної моделі, яка використовує функцію активації softmax.

Навчання з підкріпленням

У сфері навчання з підкріпленням функція softmax може використовуватися для перетворення значень у ймовірності дії. Зазвичай використовується наступна функція:^[6]

P_{t} (a) = \frac{\exp (q_{t} (a) / τ)}{\sum_{i = 1}^{n} \exp (q_{t} (i) / τ)},

де цінність дії $q_{t} (a)$ відповідає очікуваній винагороді за наступну дію $a$ , а $τ$ називається параметром температури (натяк на статистичну механіку). Для високих температур ( $τ \to \infty$ ), всі дії мають майже однакову ймовірність, а чим нижча температура, тим більше очікувана винагорода впливає на ймовірність обирання дії. Для низької температури ( $τ \to 0^{+}$ ), ймовірність дії з найбільшою очікуваною винагородою наближається до 1.

Властивості

Геометрично функція softmax відображає векторний простір $ℝ^{K}$ на межі $(K - 1)$ -вимірного симплекса, зменшуючи розмірність на одиницю (діапазоном значень стає $(K - 1)$ -вимірний симплекс в $K$ -вимірному просторі), через лінійне обмеження, що сума елементів вихідного вектору дорівнює 1, що означає, що він лежить на гіперплощині.

По головній діагоналі $(x, x, \dots, x),$ softmax стає просто рівномірним розподілом, $(1 / n, \dots, 1 / n)$ : рівні ваги дають рівні ймовірності.

Загалом, softmax є інваріантним щодо зсуву на одне й те саме значення в кожній координаті: додавання $𝐜 = (c, \dots, c)$ до вектору вхідних значень $𝐳$ дає $σ (𝐳 + 𝐜) = σ (𝐳)$ , оскільки softmax множить кожен показник на один і той же коефіцієнт, $e^{c}$ (тому що $e^{z_{i} + c} = e^{z_{i}} \cdot e^{c}$ ), тобто співвідношення не змінюється:

$σ (𝐳 + 𝐜)_{j} = \frac{e^{z_{j} + c}}{\sum_{k = 1}^{K} e^{z_{k} + c}} = \frac{e^{z_{j}} \cdot e^{c}}{\sum_{k = 1}^{K} e^{z_{k}} \cdot e^{c}} = σ (𝐳)_{j} .$

Геометрично, softmax є постійним уздовж діагоналей: це відповідає тому, що вихідне значення softmax не залежить від зсуву вхідних значень. Можна нормалізувати вхідні бали, якщо сума дорівнює нулю (відняти середнє: $𝐜$ , де $c = \frac{1}{n} \sum z_{i}$ ), тоді softmax відображає гіперплощину точок, сума яких дорівнює нулю, $\sum z_{i} = 0$ , до відкритого симплекса додатних значень, сума яких дорівнює 1: $\sum σ (𝐳)_{i} = 1$ , аналогічно тому, як експонента відображає 0 на 1, $e^{0} = 1$ .

Але softmax не є інваріантним відносно масштабування. Наприклад, $σ ((0, 1)) = (1 / (1 + e), e / (1 + e))$ але

σ ((0, 2)) = (1 / (1 + e^{2}), e^{2} / (1 + e^{2})) .

Функція softmax — це градієнт функції Шаблон:Нп — згладженого максимуму.

\frac{\partial}{\partial z_{i}} LSE (𝐳) = \frac{\exp z_{i}}{\sum_{j = 1}^{K} \exp z_{j}} = σ (𝐳)_{i}, for i = 1, \dots, K, 𝐳 = (z_{1}, \dots, z_{K}) \in ℝ^{K},

де функція LogSumExp визначена як $LSE (z_{1}, \dots, z_{n}) = \log (\exp (z_{1}) + \dots + \exp (z_{n}))$ .

Приклад

Якщо ми візьмемо вектор вхідних значень [1, 2, 3, 4, 1, 2, 3], то softmax цього вектору буде дорівнювати [0,024, 0,064, 0,175, 0,475, 0,024, 0,064, 0,175]. Результат застосування функції має найбільшу вагу там, де «4» у векторі вхідних даних. Це і є найчастішою метою застосування функції — відокремлення найбільших значень і придушення значень, що значно нижчі за максимальне. Але варто зауважити: softmax не є інваріантним відносно масштабування, тому якби вхідні дані були [0,1, 0,2, 0,3, 0,4, 0,1, 0,2, 0,3] (сума чого становить 1,6), softmax став би [0,125, 0,138, 0,153, 0,169, 0,153 0,125, 0,138, 0,153]. Це показує, що для значень від 0 до 1 softmax фактично деакцентує максимальне значення (зверніть увагу, що 0,169 не тільки менше 0,475, це також менше, ніж початкове відношення 0,4/1,6=0,25).

Коду мовою Python для обчислення для цього прикладу:

>>> import numpy as np
>>> a = [1.0, 2.0, 3.0, 4.0, 1.0, 2.0, 3.0]
>>> np.exp(a) / np.sum(np.exp(a)) 
array([0.02364054, 0.06426166, 0.1746813, 0.474833, 0.02364054,
       0.06426166, 0.1746813])

Примітки

Шаблон:Reflist

Шаблон:Перекласти

Шаблон:Диференційовні обчислення

↑ ^1,0 ^1,1 Шаблон:Cite book
↑ ^2,0 ^2,1 ai-faq What is a softmax activation function? Шаблон:Webarchive
↑ Шаблон:Cite book
↑ Шаблон:Cite book
↑ Шаблон:Cite web
↑ Sutton, R. S. and Barto A. G. Reinforcement Learning: An Introduction. The MIT Press, Cambridge, MA, 1998. Softmax Action Selection Шаблон:Webarchive

[bishop-1] 1,0 ^1,1 Шаблон:Cite book

[:0-2] 2,0 ^2,1 ai-faq What is a softmax activation function? Шаблон:Webarchive

[3] Шаблон:Cite book

[bishop2-4] Шаблон:Cite book

[5] Шаблон:Cite web

[6] Sutton, R. S. and Barto A. G. Reinforcement Learning: An Introduction. The MIT Press, Cambridge, MA, 1998. Softmax Action Selection Шаблон:Webarchive

[1]

[2]

[3]

[4]

[5]

[6]

Softmax

Зміст

Інтерпретації

Згладжений arg max

Теорія ймовірностей

Статистична механіка

Застосування

Нейронні мережі

Навчання з підкріпленням

Властивості

Приклад

Примітки

Навігаційне меню

Softmax

Інтерпретації

Згладжений arg max

Теорія ймовірностей

Статистична механіка

Застосування

Нейронні мережі

Навчання з підкріпленням

Властивості

Приклад

Примітки

Навігаційне меню

Пошук