Теорія Вапника — Червоненкіса

Матеріал з testwiki
Версія від 20:39, 16 березня 2025, створена imported>Olexa Riznyk (Введення: уточнення, вікіфікація)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

Шаблон:Машинне навчання

Теорію Вапника — Червоненкіса (Шаблон:Lang-en, відому також як ВЧ-теорія, Шаблон:Lang-en) було розроблено протягом 1960–1990 років Володимиром Вапником та Шаблон:Нп. Ця теорія є різновидом Шаблон:Нп, яка намагається пояснювати процес навчання зі статистичної точки зору.

ВЧ-теорія пов'язана з теорією статистичного навчання та з Шаблон:Нп. До Шаблон:Нп ВЧ-теорію застосовували, серед інших, Шаблон:Нп та Володимир Вапник.

Введення

ВЧ-теорія охоплює щонайменше чотири частини (як пояснено в «Природі теорії статистичного навчання»Шаблон:Ref):

  • Теорію спроможності процесів навчання
  • Неасимптотичну теорію темпу збіжності процесів навчання
    • Наскільки швидким є темп збіжності процесу навчання?
  • Теорію керування узагальнювальною спроможністю процесів навчання
  • Теорію побудови машин, які вчаться
    • Як можна будувати алгоритми, які керують узагальнювальною спроможністю?

ВЧ-теорія є однією з основних підгалузей теорії статистичного навчання. Одним із її головних застосувань у теорії статистичного навчання є забезпечення умов узагальнення для алгоритмів навчання. З цієї точки зору ВЧ-теорія пов'язана зі Шаблон:Нп, яка є альтернативним підходом для характеризування узагальнення.

Крім того, ВЧ-теорія та ВЧ-розмірність відіграють важливу роль у теорії Шаблон:Нп у випадку процесів, індексованих за ВЧ-класами. Можливо, вони є найважливішими застосуваннями ВЧ-теорії, вони застосовуються в доведенні узагальнення. Буде представлено кілька методик, які широко використовуються в емпіричних процесах та ВЧ-теорії. Обговорення в основному ґрунтується на книзі «Слабка збіжність та емпіричні процеси: із застосуваннями до статистики».Шаблон:Ref

Огляд ВЧ-теорії в емпіричних процесах

Довідка про емпіричні процеси

Нехай X1,,Xn є випадковими елементами, визначеними на вимірному просторі (𝒳,𝒜). Для міри Шаблон:Mvar встановімо:

Qf=fdQ

Питання вимірності тут ігноруватимуться, технічні деталі див. у Шаблон:Ref. Покладімо, що є класом вимірних функцій f:𝒳𝐑, і визначмо

Q=sup{|Qf| : f}.

Визначмо емпіричну міру

n=n1i=1nδXi,

де Шаблон:Mvar в даному випадку відповідає Шаблон:Нп. Емпірична міра породжує відображення 𝐑, що задається як

fnf

Тепер припустімо, що Шаблон:Mvar є справжнім розподілом, що лежить в основі даних, який є невідомим. Теорія емпіричних процесів спрямована на ідентифікацію класів , для яких виконуються такі твердження, як наступні:

nP0,
𝔾n=n(nP)𝔾,in ()

В першому випадку називається Шаблон:Нп (Шаблон:Lang-en), а в другому (за припущення x,sup\nolimits f|f(x)Pf|<) клас називається донскеровим (Шаблон:Lang-en), або Шаблон:Mvar-донскеровим. Очевидно, що клас Донскера є класом Гливенка — Кантеллі в теорії ймовірностей, якщо застосувати теорему Слуцького.

Ці твердження справедливі для єдиної f згідно стандартних доводів ЗВЧ та ЦГТ в умовах регулярності, а складність в емпіричних процесах виникає тому, що робляться спільні твердження для всіх f. Тоді, інтуїтивно, множина не може бути занадто великою, і, як виявляється, дуже важливу роль відіграє геометрія .

Одним зі способі вимірювання того, наскільки великою є множина функцій , є застосування так званих Шаблон:Нп. Число покриття

N(ε,,)

є мінімальним числом куль {g:gf<ε}, необхідних для покриття множини (тут, очевидно, припускається існування норми на , на основі якої це робиться). Ентропія є логарифмом числа покриття.

Нижче наведено дві достатні умови, за яких може бути доведено, що множина є Гливенка — Кантеллі, або донскеровою.

Клас є Шаблон:Mvar-Гливенка — Кантеллі, якщо він є Шаблон:Mvar-мірним такою обгорткою Шаблон:Mvar, що PF< та виконується

ε>0sup\nolimits QN(εFQ,,L1(Q))<.

Наступна умова є версією славетної Шаблон:Нп. Якщо є таким класом функцій, що

0sup\nolimits QlogN(εFQ,2,,L2(Q))dε<

то є Шаблон:Mvar-донскеровим для будь-якої такої міри ймовірності Шаблон:Mvar, що PF2<. В крайньому інтегралі цей запис означає

fQ,2=(|f|2dQ)12.

Симетрування

Більшість обґрунтувань того, як обмежувати емпіричні процеси, покладаються на симетрування, максимальні та концентричні нерівності, та зчеплювання. Симетрування зазвичай є першим кроком цих доведень, і оскільки воно використовується в багатьох доведеннях машинного навчання із обмеження функцій емпіричних втрат (включно із доведенням ВЧ-нерівності, що обговорюється в наступному розділі), його представлено тут.

Розгляньмо емпіричний процес

f(nP)f=1ni=1n(f(Xi)Pf)

Виявляється, що існує зв'язок між цим емпіричним, та наступним симетрованим процесом:

fn0=1ni=1nεif(Xi)

Цей симетрований процес є процесом Радемахера, обумовленим даними Xi. Отже, згідно Шаблон:Нп, він є субґаусовим процесом.

Лема (симетрування). Для будь-якої неспадної опуклої Шаблон:Math та класу вимірних функцій ,

𝔼Φ(nP)𝔼Φ(2n0)

Доведення леми симетрування покладається на введення незалежних копій первинних змінних Xi (які іноді називають вибіркою-привидом) та заміну виразу під математичним сподіванням в лівій частині нерівності цими копіями. Після застосування нерівності Єнсена може бути введено інші знаки (звідси й назва — симетрування) без зміни математичного сподівання. Нижче наведено доведення, через його повчальний характер.

Типовий спосіб доведення емпіричних ЦГТ спочатку застосовує симетрування для передачі емпіричного процесу до n0, а потім здійснює доведення обумовлено даними, використовуючи той факт, що процеси Радемахера є простими процесами з гарними властивостями.

ВЧ-зв'язок

Виявляється, існує чарівний зв'язок між деякими комбінаторними властивостями множини , та числами ентропії. Числа рівномірного покриття можуть контролюватися поняттям класів множин Вапника — Червоненкіса (Шаблон:Lang-en), або, коротше, ВЧ-множин (Шаблон:Lang-en).

Розгляньмо набір 𝒞 підмножин вибіркового простору 𝒳. Кажуть, що 𝒞 вихоплює (Шаблон:Lang-en) певну підмножину W скінченної множини S={x1,,xn}𝒳, якщо W=SC для деякого C𝒞. Кажуть, що 𝒞 роздрібнює (Шаблон:Lang-en) Шаблон:Mvar, якщо він вихоплює кожну з її Шаблон:Math підмножин. ВЧ-індекс (Шаблон:Lang-en, подібний до ВЧ-розмірності + 1 для відповідним чином вибраної класифікаторної множини) V(𝒞) набору 𝒞 — це найменше Шаблон:Mvar, для якого жодна множина розміру Шаблон:Mvar не роздрібнюється набором 𝒞.

Далі, Шаблон:Нп стверджує, що число Δn(𝒞,x1,,xn) підмножин, вихоплюваних ВЧ-класом 𝒞, задовольняє

maxx1,,xnΔn(𝒞,x1,,xn)j=0V(𝒞)1(nj)(neV(𝒞)1)V(𝒞)1

Що є поліноміальним числом O(nV(𝒞)1) підмножин, а не експоненційним. Інтуїтивно це означає, що зі скінченності ВЧ-індексу випливає, що 𝒞 має явно спрощену структуру.

Подібне обмеження може бути показано (з іншим сталим, незмінним співвідношенням) для так званих ВЧ-підграфікових класів (Шаблон:Lang-en). Для функції f:𝒳𝐑 Шаблон:Нп є така підмножина 𝒳×𝐑, що {(x,t):t<f(x)}. Набір називається ВЧ-підграфіковим класом, якщо всі підграфіки формують ВЧ-клас.

Розгляньмо множину індикаторних функцій 𝒞={1C:C𝒞} в L1(Q) для дискретного емпіричного типу міри Шаблон:Mvar (або, рівнозначно, для будь-якої міри ймовірності Шаблон:Mvar). Тоді може бути показано, що, на диво, для r1

N(ε,𝒞,Lr(Q))KV(𝒞)(4e)V(𝒞)εr(V(𝒞)1)

Далі розгляньмо симетричну опуклу оболонку множини : sconv, яка є набором функцій вигляду i=1mαifi з i=1m|αi|1. Тоді якщо

N(εFQ,2,,L2(Q))CεV

то наступне є вірним для опуклої оболонки :

logN(εFQ,2,sconv,L2(Q))Kε2VV+2

Важливим наслідком цього факту є те, що

2VV+2>2,

чого якраз достатньо для того, щоби інтеграл ентропії сходився, і відтак клас sconv був Шаблон:Mvar-донскеровим.

Нарешті, розглядається приклад ВЧ-підграфікового класу. Будь-який векторний простір вимірних функцій f:𝒳𝐑, який має скінченну розмірність, є ВЧ-підграфіком індексу, меншого або рівного dim()+2.

Існують узагальнення поняття ВЧ-підграфових класів, наприклад, існує поняття псевдорозмірності. Зацікавлені читачі можуть подивитися Шаблон:Ref.

ВЧ-нерівність

Розглядається подібна постановка, звичніша для машинного навчання. Нехай 𝒳 є простором ознак, а 𝒴={0,1}. Функція f:𝒳𝒴 називається класифікатором. Нехай є множиною класифікаторів. Подібно до попереднього розділу, визначмо коефіцієнт роздрібнювання (Шаблон:Lang-en, відомий також як функція росту, Шаблон:Lang-en):

S(,n)=maxx1,,xn|{(f(x1),,f(xn)),f}|

Зауважте, що існує взаємно однозначне відображення між кожною з функцій в , та множиною, на якій ця функція дорівнює 1. Отже, ми можемо визначити 𝒞 як набір підмножин, отриманий з наведеного вище відображення для кожної f. Таким чином, з точки зору попереднього розділу, коефіцієнт роздрібнювання в точності дорівнює

maxx1,,xnΔn(𝒞,x1,,xn).

З цієї рівності разом із Шаблон:Нп випливає, що S(,n) має бути поліноміальним в Шаблон:Mvar, для достатньо великого Шаблон:Mvar, за умови, що набір 𝒞 має скінченний ВЧ-індекс.

Нехай Dn={(X1,Y1),,(Xn,Ym)} є спостережуваним набором даних. Припустімо, що ці дані породжено невідомим розподілом імовірності PXY. Визначмо R(f)=P(f(X)Y) як очікувані втрати 0/1. Звісно, оскільки PXY є загалом невідомим, ми не маємо доступу до R(f). Проте емпіричний ризик (Шаблон:Lang-en), заданий як

R^n(f)=1ni=1n𝕀(f(Xi)Yi)

безумовно, може бути оцінено. Тоді маємо наступну теорему:

Теорема (ВЧ-нерівність)

Для бінарної класифікації та функції втрат 0/1 ми маємо наступні обмеження узагальнення:

P(supf|R^n(f)R(f)|>ε)8S(,n)enε2/32𝔼[supf|R^n(f)R(f)|]2logS(,n)+log2n

Іншими словами, ВЧ-нерівність каже, що при збільшенні вибірки, за умови, що має скінченну ВЧ-розмірність, емпіричний ризик 0/1 стає добрим замінником очікуваного ризику 0/1. Зауважте, що обидві праві частини цих двох нерівностей збігатимуться до 0 за умови, що S(,n) зростає поліноміально в Шаблон:Mvar.

Очевидним є зв'язок між цією системою та системою емпіричних процесів. Тут ми маємо справу з видозміненим емпіричним процесом

|R^nR|

але не дивно, що ідеї є однаковими. Доведення (першої частини) ВЧ-нерівності спирається на симетрування, а потім здійснює доведення, обумовлене даними, із застосуванням концентричних нерівностей (зокрема, Шаблон:Нп). Зацікавлений читач може перевірити теореми 12.4 та 12.5 книги Шаблон:Ref.

Джерела

Література

Посилання