Мінімізація емпіричного ризику

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Машинне навчання Мініміза́ція емпіри́чного ри́зику (МЕР, Шаблон:Lang-en) — це принцип у теорії статистичного навчання, який визначає сімейство алгоритмів навчання, і застосовується для отримування теоретичних меж продуктивності алгоритмів навчання.

Передумови

Розгляньмо наступну ситуацію, яка є загальною постановкою для багатьох задач керованого навчання. Ми маємо два простори об'єктів, X та Y, і хотіли би навчитися функції  h:XY (яку часто називають гіпотезою, Шаблон:Lang-en), яка видає об'єкт yY для заданого xX. Для здійснення цього ми маємо у своєму розпорядження тренувальний набір (Шаблон:Lang-en) із невеликої кількості зразків  (x1,y1),,(xm,ym), де xiX є входом, а yiY є відповідним відгуком, який ми хотіли би отримувати від  h(xi).

Висловлюючись формальніше, ми припускаємо, що існує спільний розподіл імовірності P(x,y) над X та Y, і що тренувальний набір складається з m зразків  (x1,y1),,(xm,ym), взятих н. о. р. із P(x,y). Зауважте, що припущення про спільний розподіл імовірності дозволяє нам моделювати невизначеність у передбаченнях (наприклад, від шуму в даних), оскільки y є не детермінованою функцією x, а радше випадковою змінною з умовним розподілом P(y|x) для зафіксованого x.

Ми також припускаємо, що нам було надано невід'ємну дійснозначну функцію втрат L(y^,y), яка вимірює, наскільки передбачення гіпотези y^ відрізняється від справжнього виходу y. Тоді Шаблон:Нп, пов'язаний із гіпотезою h(x), визначається як математичне сподівання функції втрат:

R(h)=𝐄[L(h(x),y)]=L(h(x),y)dP(x,y).

В теорії зазвичай використовується функція втрат 0-1: L(y^,y)=I(y^y), де I() є індикаторним позначенням.

Кінцевою метою алгоритму навчання є знайти гіпотезу h* серед зафіксованого класу функцій , для якої ризик R(h) є мінімальним:

h*=argminhR(h).

Мінімізація емпіричного ризику

В загальному випадку ризик R(h) не може бути обчислено, оскільки розподіл P(x,y) не є відомим алгоритмові навчання (цю ситуацію називають Шаблон:Нпні). Проте ми можемо обчислювати наближення, яке називається емпіричним ризиком (Шаблон:Lang-en), шляхом усереднення функції втрат на тренувальному наборі:

Remp(h)=1mi=1mL(h(xi),yi).

Принцип емпіричної мінімізації ризику стверджує[1], що алгоритм навчання повинен вибрати таку гіпотезу h^, яка мінімізує емпіричний ризик:

h^=argminhRemp(h).

Таким чином, алгоритм навчання, визначений принципом МЕР, полягає у розв'язання наведеної вище задачі оптимізації.

Властивості

Шаблон:Expand section

Обчислювальна складність

Відомо, що мінімізація емпіричного ризику для задачі класифікації з функцією втрат 0-1 є NP-складною задачею, навіть для таких відносно простих класів функцій, як лінійні класифікатори.[2] Проте вона може розв'язуватися ефективно, коли мінімальний емпіричний ризик є нульовим, тобто дані є лінійно роздільними.

На практиці алгоритми машинного навчання впоруються з цим, або застосовуючи опуклу оптимізацію до функції втрат 0-1 (як у заві́сних втратах для ОВМ), що простіше оптимізувати, або формулюючи припущення про розподіл P(x,y) (і відтак перестаючи бути алгоритмами агностичного навчання, до яких застосовується наведений вище результат).

Примітки

Шаблон:Примітки

Література

  1. V. Vapnik (1992). Principles of Risk Minimization for Learning Theory. Шаблон:Webarchive
  2. V. Feldman, V. Guruswami, P. Raghavendra and Yi Wu (2009). Agnostic Learning of Monomials by Halfspaces is Hard. Шаблон:Webarchive (Див. саму працю та посилання в ній) Шаблон:Ref-en