Завісні втрати

Матеріал з testwiki
Перейти до навігації Перейти до пошуку
Графік завісних втрат (синій, вимірюється вертикально) проти 0-1 втрат (вимірюється вертикально; не правильна класифікація позначена зеленим: Шаблон:Math) для Шаблон:Math та змінна Шаблон:Mvar (вимірюється горизонтально). Бачимо, що завісні втрати штрафують передбачення Шаблон:Math, відповідно до розділення в опорній веторній машині.

Завісні втрати (Шаблон:Lang-en) у машинному навчанні — це функція втрат, яка використовується для навчання класифікаторів.[1] Завісні втрати використовують для максимальної розділової класифікації, здебільшого для опорних векторних машин (ОВМ). Для поміченого виходу Шаблон:Math та оцінки класифікатора Шаблон:Mvar, завісна втрата передбачення Шаблон:Mvar визначається як

(y)=max(0,1ty).

Варто зауважити, що тут Шаблон:Mvar є «сирим» значенням функції прийняття рішення у класифікаторі, а не міткою класу. Наприклад, в лінійних ОВМ y=𝐰𝐱+b, де (𝐰,b) є параметрами гіперплощини та 𝐱 — точка, яку потрібно класифікувати.

Зрозуміло, що коли Шаблон:Mvar та Шаблон:Mvar мають однаковий знак (що означає, що Шаблон:Mvar вказує на правильний клас) та |y|1, тоді завісні втрати (y)=0, а коли вони мають різні знаки, то (y) зростає лінійно від Шаблон:Mvar (одностороння помилка). На рисунку пояснюється, чому завісні втрати дають кращу оцінку втрат ніж функція нуль-один.

Узагальнення

Хоч є поширеною практикою узагальнення бінарних ОВМ на Шаблон:Нп ОВМ у режимі один з усіх або один в один,[2] також можливе узагальнення з використанням завісної функції. Було запропоновано декілька різних багатокласових завісних втрат.[3] Наприклад, Крамер та Сінгер[4] дали таке визначення у випадку лінійного класифікатора:[5]

(y)=max(0,1+maxty𝐰t𝐱𝐰y𝐱).

Тут y — мітка цілі, 𝐰t та 𝐰y — параметри моделі.

Вестон і Воткінс дали подібне визначення, але з сумою замість максимуму:[6][3]

(y)=tymax(0,1+𝐰t𝐱𝐰y𝐱).

При структуровому передбачуванні завісні втрати можуть бути поширені на структуровані вихідні простори. Шаблон:Нп з масштабуванням розділення використовує наступний варіант, де Шаблон:Math позначає параметри ОВМ, Шаблон:Math — передбачення ОВМ, Шаблон:Mvar додає функцію ознак та Шаблон:Math є відстанню Геммінга:

(𝐲)=max(0,Δ(𝐲,𝐭)+𝐰,ϕ(𝐱,𝐲)𝐰,ϕ(𝐱,𝐭))=max(0,maxy𝒴(Δ(𝐲,𝐭)+𝐰,ϕ(𝐱,𝐲))𝐰,ϕ(𝐱,𝐭)).

Оптимізація

Завісні втрати є опуклою функцією, отже, опуклі оптимізатори, що використовуються у машинному навчанні, можуть працювати з ними. Це не диференційовна функція, проте вона має субградієнт відносно параметрів моделі Шаблон:Math лінійної ОВМ з функцією оцінки y=𝐰𝐱, який буде

wi={txiif ty<10otherwise
Креслення трьох варіантів завісних втрат як функції Шаблон:Math: «звичайний» варіант (синій), його квадрат (зелений), і кусково гладкий варіант Ренні та Сребро (червоний).

Однак, оскільки похідна завісних втрат при ty=1 невизначена, то гладкий варіант, запропонований Ренні та Сребро, є більш бажаним для оптимізації[7]

(y)={12tyifty0,12(1ty)2if0<ty1,0if1ty

або квадратично гладкий

γ(y)={12γmax(0,1ty)2ifty1γ1γ2tyotherwise

запропонований Чангом.[8] Модифікований варіант Шаблон:Нп L є спеціальним випадком цієї функції втрат з γ=2, зокрема, L(t,y)=42(y).

Примітки

Шаблон:Reflist