Регуляризація (математика)

Матеріал з testwiki
Версія від 13:01, 6 травня 2023, створена imported>Olexa Riznyk (Регуляризація Тихонова: вікіфікація)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку
Обидві функції точно описують експериментальні точки з нульовою похибкою. Навчена модель може бути схильна вибирати зелену функцію, що може бути ближчою до справжньої невідомої функції розподілу, за допомогою λ, ваги регуляризуючого виразу.

Регуляризація, в математиці і статистиці, а також в задачах машинного навчання і Шаблон:Нп, означає додавання деякої додаткової інформації, щоб знайти рішення некоректно поставленої задачі, або щоб уникнути перенавчання.

Використання регуляризації для класифікації

Регуляризацію використовують у задачах класифікації. Емпіричне навчання класифікаторів на скінченному набору даних завжди є недостатньо визначеною задачею, бо в загальному випадку ми намагаємось вивести функцію від довільного x по декільком заданим прикладам x1,x2,...xn.

Загалом регуляризуючий вираз R(f) додається до функції втрат:

minfi=1nV(f(x^i),y^i)+λR(f),

де V — функція, що визначає похибку передбачення f(x) для значень y, (наприклад, квадрати похибок), а параметр λ визначає важливість доданка для регуляризації. Зазвичай R(f) визначається як штраф за складність функції f. Зокрема, поняття складності включає обмеження на гладкість та на норму векторного простору.[1]

Фактично, процедура регуляризації є спробою застосувати лезо Оккама до рішення (див. малюнок вище). З точки зору баєсового висновування, багато технік регуляризації є накладанням обмежень на апріорний вигляд розподілу параметрів моделі.

Узагальнення

Шаблон:Main Регуляризація може використовуватись як спосіб покращення узагальнення для моделі у машинному навчанні.

Основна задача машинного навчання полягає в тому, щоб знайти функцію, сумарна похибка передбачень якої для всіх можливих значень була б мінімальною. Очікувана похибкаfn виражається як:

I[fn]=X×YV(fn(x),y)ρ(x,y)dxdy

Зазвичай в таких задачах лише частина усіх можливих даних, частково зашумлених, є доступною для навчання. Таким чином, очікувана похибка є необчислюваною величиною, і найкраще наближення — це емпірична похибка, що вираховується на базі N доступних зразків:

IS[fn]=1ni=1NV(fn(x^i),y^i)

Без обмежень складності функціонального простору, в якому проводиться пошук, модель може бути навчена так, щоб відповідна їй функція проходила через кожну точку наявних даних xi. Але якщо значення xi містять шум, то модель може "страждати" від перенавчання і видавати погані значення очікуваних помилок. Регуляризація вводить штраф за включення зайвих областей функціонального простору, що використовується для побудови моделі і це може покращити узагальнення.

Регуляризація Тихонова

Шаблон:Falseredirect

При навчанні лінійною функцією, такою як f(x)=wx, в якій w шуканий вектор, L2-норма функції втрат відповідає регуляризації Шаблон:Нп. Ця, одна з найбільш використовуваних форм регуляризації, виражається як:

minwi=1nV(x^iw,y^i)+λw22

У випадку загальної функції, ми беремо норму функції у її Шаблон:Нп:

minfi=1nV(f(x^i),y^i)+λf2

Оскільки норма L2 диференційовна, то проблема навчання з використанням регуляризації Тихонова, може бути розв'язана градієнтним спуском.

Регуляризація Тихонова для методу найменших квадратів

Навчання з функцією втрат, вираженою методом найменших квадратів і регуляризація Тихонова можна розв'язати аналітично. 

minw1n(X^wY^)2+λw22
w=2nX^T(X^wY^)+2λw необхідна умова екстремуму
0=X^T(X^wY^)+nλw
w=(X^TX^+λnI)1(X^TY^)

Відповідно до оптимізаційної задачи, інші значення w будуть давати більші значення для функції втрат. Це можна перевірити за допомогою другої похідної ww.

Цей алгоритм потребує O(d3+nd2) часу для тренування. Доданками тут є час на пошук зворотньої матриці і на обчислення XTX, відповідно. Перевірка займає час O(nd).

Рання зупинка

Рання зупинка може бути розглянута як регуляризація в часі. Загалом, такі методики як градієнтний спуск, мають тенденцію до створення все більш і більш складних функцій з часом. За допомогою регуляризації в часі складність моделі може контролюватися. 

На практиці, для впровадження цієї методики, використовується додатковий валідаційний масив даних, статистично незалежний від того, що використовується для тренування. Модель тренується до тих пір, доки результативність на валідаційному масиві не перестає зростати. Після цього модель тестується на тестовому масиві.

Див. також

Примітки

Шаблон:Reflist

Посилання

Шаблон:AI-stub

Шаблон:Диференційовні обчислення Шаблон:ВП-портали