Компроміс зсуву та дисперсії

Шаблон:Машинне навчання Шаблон:Multiple image

У статистиці та машинному навчанні, компромі́с (або диле́ма) зсу́ву та диспе́рсії (Шаблон:Lang-en) — це задача одночасної мінімізації двох джерел похибки, які перешкоджають алгоритмам керованого навчання робити узагальнення на основі їхніх тренувальних наборів:

Зсув (Шаблон:Lang-en) — це похибка, викликана помилковими припущеннями в алгоритмі навчання. Великий зсув може спричиняти нездатність алгоритму знаходити доречні взаємозв'язки між ознаками та цільовими виходами (недонавчання).
Дисперсія (Шаблон:Lang-en) — це похибка від чутливості до малих флуктуацій в тренувальному наборі. Висока дисперсія може спричиняти перенавчання: моделювання випадкового Шаблон:Нп в тренувальних даних замість моделювання бажаних виходів.

Ро́зклад на зсув та диспе́рсію (Шаблон:Lang-en) — це спосіб аналізувати очікувану похибку узагальнення алгоритму навчання по відношенню до тієї чи іншої задачі як суму трьох членів: зсуву, дисперсії, та величини, що називається незнижуваною похибкою (Шаблон:Lang-en), яка виникає внаслідок шуму в самій задачі.

Цей компроміс застосовується до всіх видів керованого навчання: класифікації, регресії (узгодження функцій)^[1]^[2] та навчання структурованого виходу. Його також залучали для пояснення дієвості евристик у людському навчанні.

Задача

Компроміс зсуву та дисперсії є центральною задачею в керованому навчанні. В ідеалі потрібно обирати модель, яка і закономірності в своїх тренувальних даних схоплює добре, але й добре узагальнює їх для ще не бачених даних. На жаль, зазвичай неможливо робити те і друге одночасно. Методи навчання з високою дисперсією можуть бути здатними добре представляти свої тренувальні набори, але перебувають під загрозою перенавчання зашумлених або нехарактерних тренувальних даних. На противагу їм, алгоритми з великим зсувом зазвичай видають простіші моделі, не схильні до перенавчання, але можуть недопідлаштовуватися до своїх тренувальних даних, виявляючись нездатними схопити важливі закономірності.

Моделі з малим зсувом зазвичай є складнішими (наприклад, регресійними многочленами високого порядку), що дозволяє їм представляти тренувальний набір точніше. Проте в процесі вони можуть також представляти й велику складову Шаблон:Нп, присутню в тренувальному наборі, роблячи свої передбачення менш точними — незважаючи на свою додану складність. З іншого боку, моделі з великим зсувом схильні бути відносно простими (регресійними многочленами низького порядку, або навіть лінійними), але можуть видавати передбачення з нижчою дисперсією при застосуванні поза межами тренувального набору.

Розклад квадратичної помилки на зсув та дисперсію

Припустімо, що в нас є тренувальний набір, який складається з набору точок $x_{1}, \dots, x_{n}$ та дійсних значень $y_{i}$ , пов'язаних з кожною із точок $x_{i}$ . Ми виходимо з того, що існує функційний, але зашумлений взаємозв'язок $y = f (x) + ε$ , в якому шум $ε$ має нульове середнє значення та дисперсію $σ^{2}$ .

Нам треба знайти функцію $\hat{f} (x; D)$ , що якомога краще наближує справжню функцію $f (x)$ засобами якогось алгоритму навчання на навчальній вибірці $D = {(x_{1}, y_{1}) \dots, (x_{n}, y_{n})}$ . Ми робимо «якомога краще» точним поняттям, вимірюючи середньоквадратичну похибку $y$ відносно $\hat{f} (x; D)$ : ми хочемо, щоби $(y - \hat{f} (x; D))^{2}$ було мінімальним, як для $x_{1}, \dots, x_{n}$ , так і для точок за межами нашої вибірки. Звісно, ми не можемо сподіватися зробити це досконало, оскільки $y_{i}$ містять шум $ε$ ; це означає, що ми мусимо бути готові допустити незнижувану похибку в будь-якій функції, яку б ми не придумали.

Пошук $\hat{f}$ , яка узагальнюється на точки за межами тренувального набору, може бути здійснено за допомогою будь-якого із багатьох алгоритмів, що застосовуються для керованого навчання. Виявляється, що яку би функцію $\hat{f}$ ми не обрали, ми можемо розкласти математичне сподівання її похибки на небаченому зразкові $x$ наступним чином:^[3]Шаблон:Rp^[4]Шаблон:Rp

E_{D, ε} [(y - \hat{f} (x; D))^{2}] = ({Bias}_{D} [\hat{f} (x; D)])^{2} + {Var}_{D} [\hat{f} (x; D)] + σ^{2} .

Де

{Bias}_{D} [\hat{f} (x; D)] = E_{D} [\hat{f} (x; D)] - f (x),

а

{Var}_{D} [\hat{f} (x; D)] = E_{D} [(E_{D} [\hat{f} (x; D)] - \hat{f} (x; D))^{2}] .

Математичне сподівання пробігає різні варіанти вибору тренувального набору $D = {(x_{1}, y_{1}) \dots, (x_{n}, y_{n})}$ , всі вибрані з одного й того ж (умовного) розподілу $P (x, y)$ . Ці три члени представляють:

квадрат зсуву методу навчання, що можна розглядати як похибку, спричинену спрощувальними припущеннями, вбудованих до цього методу. Наприклад, при наближуванні нелінійної функції $f (x)$ із застосуванням методу навчання для лінійних моделей в оцінках $\hat{f} (x)$ буде присутня похибка внаслідок припущення лінійності;
дисперсію методу навчання, або, інтуїтивно, наскільки сильно метод навчання $\hat{f} (x)$ рухатиметься навколо свого середнього значення;
незнижувану похибку $σ^{2}$ . Оскільки всі три члени є невід'ємними, вона формує обмеження знизу для математичного сподівання похибки на небачених зразках.^[3]Шаблон:Rp

Що складнішою є модель $\hat{f} (x)$ , то більше точок даних вона схоплюватиме, і то меншим буде зсув. Проте, складність робитиме так, що модель більше «рухатиметься», щоби захопити точки даних, і відтак її дисперсія буде вищою.

Виведення

Виведення розкладу на зсув та дисперсію для квадратичних помилок відбувається наступним чином.^[5]^[6] Для зручності позначення введімо скорочення $f = f (x)$ та $\hat{f} = \hat{f} (x; D)$ та опустимо індекс $D$ . По-перше, зауважте, що для будь-якої випадкової змінної $X$ ми маємо

Var [X] = E [X^{2}] - E [X]^{2} .

Перегрупувавши, отримуємо

E [X^{2}] = Var [X] + E [X]^{2} .

Оскільки $f$ є детермінованою,

E [f] = f .

З цього, за умови $y = f + ε$ та $E [ε] = 0$ (оскільки $ε$ — це шум), випливає, що $E [y] = E [f + ε] = E [f] = f .$

Також, оскільки $Var [ε] = σ^{2},$

Var [y] = E [(y - E [y])^{2}] = E [(y - f)^{2}] = E [(f + ε - f)^{2}] = E [ε^{2}] = Var [ε] + E [ε]^{2} = σ^{2} + 0^{2} = σ^{2} .

Отже, оскільки $ε$ та $\hat{f}$ є незалежними, ми можемо записати, що

\begin{matrix} E [(y - \hat{f})^{2}] & = E [(f + ε - \hat{f})^{2}] \\ = E [(f + ε - \hat{f} + E [\hat{f}] - E [\hat{f}])^{2}] \\ = E [(f - E [\hat{f}])^{2}] + E [ε^{2}] + E [(E [\hat{f}] - \hat{f})^{2}] + 2 E [(f - E [\hat{f}]) ε] + 2 E [ε (E [\hat{f}] - \hat{f})] + 2 E [(E [\hat{f}] - \hat{f}) (f - E [\hat{f}])] \\ = (f - E [\hat{f}])^{2} + E [ε^{2}] + E [(E [\hat{f}] - \hat{f})^{2}] + 2 (f - E [\hat{f}]) E [ε] + 2 E [ε] E [E [\hat{f}] - \hat{f}] + 2 E [E [\hat{f}] - \hat{f}] (f - E [\hat{f}]) \\ = (f - E [\hat{f}])^{2} + E [ε^{2}] + E [(E [\hat{f}] - \hat{f})^{2}] \\ = (f - E [\hat{f}])^{2} + Var [ε] + Var [\hat{f}] \\ = Bias [\hat{f}]^{2} + Var [ε] + Var [\hat{f}] \\ = Bias [\hat{f}]^{2} + σ^{2} + Var [\hat{f}] . \end{matrix}

Остаточно, функція втрат середньо-квадратичної похибки MSE (або від'ємна лог-функція правдомодібності) отримується шляхом взяття математичного сподівання $x \sim P$ :

MSE = E_{x} {{Bias}_{D} [\hat{f} (x; D)]^{2} + {Var}_{D} [\hat{f} (x; D)]} + σ^{2} .

Застосування до класифікації

Розклад на зсув та дисперсію спершу було сформульованого для регресії методом найменших квадратів. Можливо знайти подібний розклад і для випадку класифікації за втрат 0-1 (коефіцієнт помилок класифікації).^[7]^[8] Як альтернатива, якщо задачу класифікації може бути перефразовано як імовірнісну класифікацію, то математичне сподівання квадрату похибки передбачуваних імовірностей по відношенню до справжніх імовірностей може бути розкладено, як і раніше.^[9]

Підходи

Зниження розмірності та обирання ознак можуть знижувати дисперсію шляхом спрощення моделей. Аналогічно, зниженню дисперсії сприяє більший тренувальний набір. Додавання ознак (провісників) сприяє зниженню зсуву, ціною введення додаткової дисперсії. Алгоритми навчання зазвичай мають деякі налагоджувані параметри, які контролюють зсув та дисперсію, наприклад:

(Шаблон:Нп) лінійні моделі може бути регуляризовано, щоби знизити їхню дисперсію ціною збільшення їхнього зсуву.^[10]
У штучних нейронних мережах дисперсія збільшується, а зсув зменшується з числом прихованих вузлів.^[1] Як і в УЛМ, зазвичай застосовується регуляризація.
В моделях k-найближчих сусідів велике значення Шаблон:Mvar призводить до великого зсуву та низької дисперсії (див. нижче).
У навчанні з прикладів регуляризація може досягатися варіюванням суміші прототипів та екземплярів.^[11]
У деревах рішень глибина дерева визначає дисперсію. Зазвичай, для контролю дисперсії дерева рішень підрізують.^[3]Шаблон:Rp

Одним зі шляхів розв'язання цієї дилеми є застосування Шаблон:Нп та ансамблевого навчання.^[12]^[13] Наприклад, підсилювання багато «слабких» моделей (із великим зсувом) поєднує в ансамбль, який має менший зсув, ніж окремі моделі, тоді як натяжкове агрегування поєднує «сильні» системи навчання таким чином, що знижує їхню дисперсію.

k-найближчі сусіди

У випадку [[Метод k-найближчих сусідів|регресії Шаблон:Mvar-найближчих сусідів]] існує вираз замкненого вигляду, який ставить у відповідність розклад на зсув та дисперсію до параметру Шаблон:Mvar:^[4]Шаблон:Rp

E [(y - \hat{f} (x))^{2}] = {(f (x) - \frac{1}{k} \sum_{i = 1}^{k} f (N_{i} (x)))}^{2} + \frac{σ^{2}}{k} + σ^{2}

де $N_{1} (x), \dots, N_{k} (x)$ є Шаблон:Mvar найближчими сусідами Шаблон:Mvar у тренувальному наборі. Зсув (перший член) є монотонно зростаючою функцією від Шаблон:Mvar, тоді як дисперсія (другий член) при збільшенні Шаблон:Mvar спадає. Справді, за «розсудливих припущень» зсув оцінки першого-найближчого сусіда (1-НС, Шаблон:Lang-en) зникає повністю, оскільки розмір тренувальної вибірки наближується до нескінченності.^[1]

Застосування до людського навчання

В той час як дилему зсуву та дисперсії широко обговорювали в контексті машинного навчання, її розглядали і в контексті людського пізнання, перш за все Шаблон:Нп зі співробітниками в контексті навчених евристик. Вони переконували (див. посилання нижче), що людський мозок розв'язує цю дилему в випадку зазвичай розріджених, погано виражених тренувальних наборів, забезпечених досвідом, шляхом обрання евристики сильного зсуву/низької дисперсії. Це віддзеркалює той факт, що підхід нульового зсуву має погану узагальнюваність на нові ситуації, а також нерозсудливо припускає точне знання справжнього стану світу. Отримувані в результаті евристики є відносно простими, але дають кращі висновки в ширшому розмаїтті ситуацій.^[14]

Шаблон:Нп та ін.^[1] переконують, що дилема зсуву та дисперсії означає, що таких здібностей, як узагальнене розпізнавання об'єктів, не може бути навчено з нуля, що вони вимагають певної міри «жорсткої розводки», яка потім налаштовується досвідом. Причиною цього є те, що безмодельні підходи до отримання висновків для уникнення високої дисперсії вимагають непрактично великих тренувальних наборів.

Див. також

Шаблон:Div col

Шаблон:Div col end

Примітки

Шаблон:Примітки

Посилання

Шаблон:Cite web Шаблон:Ref-en

↑ ^1,0 ^1,1 ^1,2 ^1,3 Шаблон:Cite journal Шаблон:Ref-en
↑ Bias–variance decomposition, In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. pp. 100-101 Шаблон:Ref-en
↑ ^3,0 ^3,1 ^3,2 Шаблон:Cite book Шаблон:Ref-en
↑ ^4,0 ^4,1 Шаблон:Cite book Шаблон:Ref-en
↑ Шаблон:Cite web Шаблон:Ref-en
↑ Шаблон:Cite web Шаблон:Ref-en
↑ Шаблон:Cite conference Шаблон:Ref-en
↑ Шаблон:Cite journal Шаблон:Ref-en
↑ Шаблон:Cite book Шаблон:Ref-en
↑ Шаблон:Cite book Шаблон:Ref-en
↑ Шаблон:Cite journal Шаблон:Ref-en
↑ Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal, Locally Weighted Regression for Control. In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. p. 615 Шаблон:Ref-en
↑ Scott Fortmann-Roe. Understanding the Bias–Variance Tradeoff Шаблон:Webarchive. 2012. Шаблон:Ref-en
↑ Шаблон:Cite journal Шаблон:Ref-en

[geman-1] 1,0 ^1,1 ^1,2 ^1,3 Шаблон:Cite journal Шаблон:Ref-en

[2] Bias–variance decomposition, In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. pp. 100-101 Шаблон:Ref-en

[islr-3] 3,0 ^3,1 ^3,2 Шаблон:Cite book Шаблон:Ref-en

[ESL-4] 4,0 ^4,1 Шаблон:Cite book Шаблон:Ref-en

[5] Шаблон:Cite web Шаблон:Ref-en

[6] Шаблон:Cite web Шаблон:Ref-en

[7] Шаблон:Cite conference Шаблон:Ref-en

[8] Шаблон:Cite journal Шаблон:Ref-en

[9] Шаблон:Cite book Шаблон:Ref-en

[10] Шаблон:Cite book Шаблон:Ref-en

[11] Шаблон:Cite journal Шаблон:Ref-en

[12] Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal, Locally Weighted Regression for Control. In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. p. 615 Шаблон:Ref-en

[13] Scott Fortmann-Roe. Understanding the Bias–Variance Tradeoff Шаблон:Webarchive. 2012. Шаблон:Ref-en

[14] Шаблон:Cite journal Шаблон:Ref-en

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]