Рання зупинка

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Рання зупинка є формою регуляризації, яка використовується для уникнення перенавчання у процесі машинного навчання за допомогою ітераційного методу, такого як градієнтний спуск. Такі методи оновлюють поточний стан так, щоб він краще відповідав навчальним даним з кожною ітерацією. До певного моменту це покращує продуктивність на даних розташованих поза навчальним набором. Але в якийсь момент поліпшення пристосування до навчальних даних вже відбувається за рахунок посилення похибки узагальнення. Правила ранньої зупинки дають вказівки щодо того, скільки ітерацій можна виконати до того, як почнеться перенавчання. Правила ранньої зупинки застосовувалися в багатьох різних методах машинного навчання, з різним теоретичним обґрунтуванням.

Тло

У цьому розділі представлені деякі основні концепції машинного навчання, необхідні для опису методів ранньої зупинки.

Перенавчання

На зображенні показано проблему перенавчання в машинному навчанні. Червоні точки являють собою дані для навчальних наборів. Зелена лінія відображає справжній функціональний зв'язок, а синя лінія показує функцію, яка була вивчена. Така ситуація називається перенавчанням.

Шаблон:Main Алгоритми машинного навчання тренують модель на скінченному наборі навчальних даних. Під час навчання модель оцінюється щодо того, наскільки добре вона прогнозує спостереження, на тих даних, які є в навчальному наборі. Загалом, мета машинного навчання полягає в тому, щоб створити модель, яка узагальнює, тобто робить прогнози на спостереженнях, які раніше не траплялись. Перенавчання відбувається тоді, коли модель добре вписується в дані тренувального набору, одночасно з тим має велику помилку узагальнення.

Регуляризація

Шаблон:Main Регуляризація, в контексті машинного навчання, відноситься до процесу зміни алгоритму навчання з метою запобігання перенавчання. Це, як правило, передбачає накладання певного обмеження гладкості на вивчену модель[1]. Ця гладкість може бути затребувана явно, коли фіксується кількість параметрів у моделі, або через зміну функції втрат, як у регуляризації Тихонова. Регуляція Тихонова, разом з Шаблон:Нп і багатьма іншими схемами регуляризації, відноситься до спектральної регуляризації, регуляризації, яка характеризується застосуванням фільтра. До цього класу методів належить і рання зупинка.

Методи градієнтного спуску

Шаблон:Main Методи градієнтного спуску — ітераційні методи оптимізації першого порядку. Кожна ітерація оновлює приблизне рішення задачі оптимізації, роблячи крок у від'ємному напрямку градієнта цільової функції. Вибираючи відповідний розмір кроку, такий метод може збігатись до локального мінімуму цільової функції. Градієнтний спуск використовується в машинному навчанні через визначення функції втрат, яка відображає помилку на навчальному наборі, а потім відбувається мінімізація функції.

Ранні зупинки на основі аналітичних результатів

Рання зупинка може бути використана для регуляризації Шаблон:Нп задач регресії, які виникають в машинному навчанні. Для заданого простору вхідних даних X, простору виводу Y і зразків, які взяті з невідомої ймовірнісної міри ρ на Z=X×Y, метою таких задач є наближення функцією регресії fρ, яка задається як

fρ(x)=Yydρ(y|x),xX,

де ρ(y|x) є умовним розподілом на x індукованим ρ[2].

Один загальний вибір для апроксимації функції регресії полягає у використанні функцій з Шаблон:Нп[2]. Ці простори можуть мати нескінченну кількість вимірів, які містять рішення, що відповідають перенавчанню на навчальних наборах довільного розміру. Таким чином, регуляризація особливо важлива для цих методів. Один із способів регулювання непараметричних задач регресії полягає в застосуванні правила ранньої зупинки до ітераційної процедури, такої як спуск градієнта.

Правила ранньої зупинки, запропоновані для цих задач, ґрунтуються на аналізі верхніх меж похибки узагальнення як функції числа ітерації. Вони дають приписи щодо кількості ітерацій для запуску, які можна обчислити до початку процесу розв'язання[3][4].

Рання зупинка у процесі підсилення

Підсилення відноситься до сімейства алгоритмів, в яких множина слабких учнів (учні, які лише злегка корелюють зі справжнім процесом) об'єднуються для отримання сильного учня. Було показано, що для декількох алгоритмів підсилення (включаючи Шаблон:Нп) регуляризація за допомогою ранньої зупинки може забезпечити гарантії спроможності, тобто, результат отриманий при підсиленні наближається до справжнього рішення, оскільки кількість зразків прямує до нескінченності[5][6][7].

L2-посилення

Методи підсилення мають тісні зв'язки з методами градієнтного спуску, описаними вище, і можуть розглядатися як метод підсилення, заснований на L2 втратах: LШаблон:SubBoost[3].

Рання зупинка на основі перевірки

Ці правила ранньої зупинки працюють, розбиваючи оригінальний навчальний набір на новий навчальний набір і набір перевірки. Помилка набору перевірки використовується як посередник для помилки узагальнення при визначенні початку перенавчання. Ці методи найчастіше використовуються у навчанні нейронних мереж. Пречелт дає наступний підсумок наївної реалізації ранньої зупинки на базі відстороненого набору наступним чином: Шаблон:Quotation

Більш складною за формою є використання перехресного затверджування — численні розбиття даних на навчальний набір і перевірочний набір — замість одного поділу на навчальний і перевірочний набір. Навіть ця проста процедура ускладнюється на практиці тим, що помилка перевірки може коливатися під час навчання, утворюючи декілька локальних мінімумів. Таке ускладнення призвело до створення багатьох ad hoc правил для вирішення питання про початок перенавчання[8].

Див. також

Примітки

Шаблон:Reflist