Завісні втрати

Завісні втрати (Шаблон:Lang-en) у машинному навчанні — це функція втрат, яка використовується для навчання класифікаторів.[1] Завісні втрати використовують для максимальної розділової класифікації, здебільшого для опорних векторних машин (ОВМ). Для поміченого виходу Шаблон:Math та оцінки класифікатора Шаблон:Mvar, завісна втрата передбачення Шаблон:Mvar визначається як
Варто зауважити, що тут Шаблон:Mvar є «сирим» значенням функції прийняття рішення у класифікаторі, а не міткою класу. Наприклад, в лінійних ОВМ , де є параметрами гіперплощини та — точка, яку потрібно класифікувати.
Зрозуміло, що коли Шаблон:Mvar та Шаблон:Mvar мають однаковий знак (що означає, що Шаблон:Mvar вказує на правильний клас) та , тоді завісні втрати , а коли вони мають різні знаки, то зростає лінійно від Шаблон:Mvar (одностороння помилка). На рисунку пояснюється, чому завісні втрати дають кращу оцінку втрат ніж функція нуль-один.
Узагальнення
Хоч є поширеною практикою узагальнення бінарних ОВМ на Шаблон:Нп ОВМ у режимі один з усіх або один в один,[2] також можливе узагальнення з використанням завісної функції. Було запропоновано декілька різних багатокласових завісних втрат.[3] Наприклад, Крамер та Сінгер[4] дали таке визначення у випадку лінійного класифікатора:[5]
Тут — мітка цілі, та — параметри моделі.
Вестон і Воткінс дали подібне визначення, але з сумою замість максимуму:[6][3]
При структуровому передбачуванні завісні втрати можуть бути поширені на структуровані вихідні простори. Шаблон:Нп з масштабуванням розділення використовує наступний варіант, де Шаблон:Math позначає параметри ОВМ, Шаблон:Math — передбачення ОВМ, Шаблон:Mvar додає функцію ознак та Шаблон:Math є відстанню Геммінга:
Оптимізація
Завісні втрати є опуклою функцією, отже, опуклі оптимізатори, що використовуються у машинному навчанні, можуть працювати з ними. Це не диференційовна функція, проте вона має субградієнт відносно параметрів моделі Шаблон:Math лінійної ОВМ з функцією оцінки , який буде

Однак, оскільки похідна завісних втрат при невизначена, то гладкий варіант, запропонований Ренні та Сребро, є більш бажаним для оптимізації[7]
або квадратично гладкий
запропонований Чангом.[8] Модифікований варіант Шаблон:Нп є спеціальним випадком цієї функції втрат з , зокрема, .