Теорія Вапника — Червоненкіса
Теорію Вапника — Червоненкіса (Шаблон:Lang-en, відому також як ВЧ-теорія, Шаблон:Lang-en) було розроблено протягом 1960–1990 років Володимиром Вапником та Шаблон:Нп. Ця теорія є різновидом Шаблон:Нп, яка намагається пояснювати процес навчання зі статистичної точки зору.
ВЧ-теорія пов'язана з теорією статистичного навчання та з Шаблон:Нп. До Шаблон:Нп ВЧ-теорію застосовували, серед інших, Шаблон:Нп та Володимир Вапник.
Введення
ВЧ-теорія охоплює щонайменше чотири частини (як пояснено в «Природі теорії статистичного навчання»Шаблон:Ref):
- Теорію спроможності процесів навчання
- Якими є (необхідні та достатні) умови спроможності процесу навчання на основі принципу мінімізації емпіричного ризику?
- Неасимптотичну теорію темпу збіжності процесів навчання
- Наскільки швидким є темп збіжності процесу навчання?
- Теорію керування узагальнювальною спроможністю процесів навчання
- Як можна керувати темпом збіжності (узагальнювальною спроможністю) процесу навчання?
- Теорію побудови машин, які вчаться
- Як можна будувати алгоритми, які керують узагальнювальною спроможністю?
ВЧ-теорія є однією з основних підгалузей теорії статистичного навчання. Одним із її головних застосувань у теорії статистичного навчання є забезпечення умов узагальнення для алгоритмів навчання. З цієї точки зору ВЧ-теорія пов'язана зі Шаблон:Нп, яка є альтернативним підходом для характеризування узагальнення.
Крім того, ВЧ-теорія та ВЧ-розмірність відіграють важливу роль у теорії Шаблон:Нп у випадку процесів, індексованих за ВЧ-класами. Можливо, вони є найважливішими застосуваннями ВЧ-теорії, вони застосовуються в доведенні узагальнення. Буде представлено кілька методик, які широко використовуються в емпіричних процесах та ВЧ-теорії. Обговорення в основному ґрунтується на книзі «Слабка збіжність та емпіричні процеси: із застосуваннями до статистики».Шаблон:Ref
Огляд ВЧ-теорії в емпіричних процесах
Довідка про емпіричні процеси
Нехай є випадковими елементами, визначеними на вимірному просторі . Для міри Шаблон:Mvar встановімо:
Питання вимірності тут ігноруватимуться, технічні деталі див. у Шаблон:Ref. Покладімо, що є класом вимірних функцій , і визначмо
Визначмо емпіричну міру
де Шаблон:Mvar в даному випадку відповідає Шаблон:Нп. Емпірична міра породжує відображення , що задається як
Тепер припустімо, що Шаблон:Mvar є справжнім розподілом, що лежить в основі даних, який є невідомим. Теорія емпіричних процесів спрямована на ідентифікацію класів , для яких виконуються такі твердження, як наступні:
- рівномірний закон великих чисел:
- рівномірна центральна гранична теорема:
В першому випадку називається Шаблон:Нп (Шаблон:Lang-en), а в другому (за припущення ) клас називається донскеровим (Шаблон:Lang-en), або Шаблон:Mvar-донскеровим. Очевидно, що клас Донскера є класом Гливенка — Кантеллі в теорії ймовірностей, якщо застосувати теорему Слуцького.
Ці твердження справедливі для єдиної згідно стандартних доводів ЗВЧ та ЦГТ в умовах регулярності, а складність в емпіричних процесах виникає тому, що робляться спільні твердження для всіх . Тоді, інтуїтивно, множина не може бути занадто великою, і, як виявляється, дуже важливу роль відіграє геометрія .
Одним зі способі вимірювання того, наскільки великою є множина функцій , є застосування так званих Шаблон:Нп. Число покриття
є мінімальним числом куль , необхідних для покриття множини (тут, очевидно, припускається існування норми на , на основі якої це робиться). Ентропія є логарифмом числа покриття.
Нижче наведено дві достатні умови, за яких може бути доведено, що множина є Гливенка — Кантеллі, або донскеровою.
Клас є Шаблон:Mvar-Гливенка — Кантеллі, якщо він є Шаблон:Mvar-мірним такою обгорткою Шаблон:Mvar, що та виконується
Наступна умова є версією славетної Шаблон:Нп. Якщо є таким класом функцій, що
то є Шаблон:Mvar-донскеровим для будь-якої такої міри ймовірності Шаблон:Mvar, що . В крайньому інтегралі цей запис означає
- .
Симетрування
Більшість обґрунтувань того, як обмежувати емпіричні процеси, покладаються на симетрування, максимальні та концентричні нерівності, та зчеплювання. Симетрування зазвичай є першим кроком цих доведень, і оскільки воно використовується в багатьох доведеннях машинного навчання із обмеження функцій емпіричних втрат (включно із доведенням ВЧ-нерівності, що обговорюється в наступному розділі), його представлено тут.
Розгляньмо емпіричний процес
Виявляється, що існує зв'язок між цим емпіричним, та наступним симетрованим процесом:
Цей симетрований процес є процесом Радемахера, обумовленим даними . Отже, згідно Шаблон:Нп, він є субґаусовим процесом.
Лема (симетрування). Для будь-якої неспадної опуклої Шаблон:Math та класу вимірних функцій ,
Доведення леми симетрування покладається на введення незалежних копій первинних змінних (які іноді називають вибіркою-привидом) та заміну виразу під математичним сподіванням в лівій частині нерівності цими копіями. Після застосування нерівності Єнсена може бути введено інші знаки (звідси й назва — симетрування) без зміни математичного сподівання. Нижче наведено доведення, через його повчальний характер.
Введімо «вибірку-привід» як незалежні копії . Для фіксованих значень маємо:
Отже, згідно нерівності Єнсена,
Взяття математичного сподівання по відношенню до дає
Зауважте, що додавання знаку мінусу перед членом не змінює правої частини нерівності, оскільки вона є симетричною функцією від та . Отже, права частина нерівності залишається такою ж і за «збурення знаку»:
для будь-яких . Отже,
Нарешті, застосування першої нерівності трикутника, а потім опуклості , дає
Де два крайні вирази в правій частині нерівності є однаковими, що завершує доведення.
Типовий спосіб доведення емпіричних ЦГТ спочатку застосовує симетрування для передачі емпіричного процесу до , а потім здійснює доведення обумовлено даними, використовуючи той факт, що процеси Радемахера є простими процесами з гарними властивостями.
ВЧ-зв'язок
Виявляється, існує чарівний зв'язок між деякими комбінаторними властивостями множини , та числами ентропії. Числа рівномірного покриття можуть контролюватися поняттям класів множин Вапника — Червоненкіса (Шаблон:Lang-en), або, коротше, ВЧ-множин (Шаблон:Lang-en).
Розгляньмо набір підмножин вибіркового простору . Кажуть, що вихоплює (Шаблон:Lang-en) певну підмножину скінченної множини , якщо для деякого . Кажуть, що роздрібнює (Шаблон:Lang-en) Шаблон:Mvar, якщо він вихоплює кожну з її Шаблон:Math підмножин. ВЧ-індекс (Шаблон:Lang-en, подібний до ВЧ-розмірності + 1 для відповідним чином вибраної класифікаторної множини) набору — це найменше Шаблон:Mvar, для якого жодна множина розміру Шаблон:Mvar не роздрібнюється набором .
Далі, Шаблон:Нп стверджує, що число підмножин, вихоплюваних ВЧ-класом , задовольняє
Що є поліноміальним числом підмножин, а не експоненційним. Інтуїтивно це означає, що зі скінченності ВЧ-індексу випливає, що має явно спрощену структуру.
Подібне обмеження може бути показано (з іншим сталим, незмінним співвідношенням) для так званих ВЧ-підграфікових класів (Шаблон:Lang-en). Для функції Шаблон:Нп є така підмножина , що . Набір називається ВЧ-підграфіковим класом, якщо всі підграфіки формують ВЧ-клас.
Розгляньмо множину індикаторних функцій в для дискретного емпіричного типу міри Шаблон:Mvar (або, рівнозначно, для будь-якої міри ймовірності Шаблон:Mvar). Тоді може бути показано, що, на диво, для
Далі розгляньмо симетричну опуклу оболонку множини : , яка є набором функцій вигляду з . Тоді якщо
то наступне є вірним для опуклої оболонки :
Важливим наслідком цього факту є те, що
чого якраз достатньо для того, щоби інтеграл ентропії сходився, і відтак клас був Шаблон:Mvar-донскеровим.
Нарешті, розглядається приклад ВЧ-підграфікового класу. Будь-який векторний простір вимірних функцій , який має скінченну розмірність, є ВЧ-підграфіком індексу, меншого або рівного .
Візьмімо точок . Вектори
є векторами підпростору Шаблон:Math з розмірністю Шаблон:Math. Візьмімо Шаблон:Math, вектор, ортогональний до цього підпростору. Тоді
Розгляньмо множину . Цю множину не може бути вихоплено, оскільки, якби існувала якась функція , така що , то це означало би, що ліва частина рівності є строго додатною, а права — недодатною.
Існують узагальнення поняття ВЧ-підграфових класів, наприклад, існує поняття псевдорозмірності. Зацікавлені читачі можуть подивитися Шаблон:Ref.
ВЧ-нерівність
Розглядається подібна постановка, звичніша для машинного навчання. Нехай є простором ознак, а . Функція називається класифікатором. Нехай є множиною класифікаторів. Подібно до попереднього розділу, визначмо коефіцієнт роздрібнювання (Шаблон:Lang-en, відомий також як функція росту, Шаблон:Lang-en):
Зауважте, що існує взаємно однозначне відображення між кожною з функцій в , та множиною, на якій ця функція дорівнює 1. Отже, ми можемо визначити як набір підмножин, отриманий з наведеного вище відображення для кожної . Таким чином, з точки зору попереднього розділу, коефіцієнт роздрібнювання в точності дорівнює
- .
З цієї рівності разом із Шаблон:Нп випливає, що має бути поліноміальним в Шаблон:Mvar, для достатньо великого Шаблон:Mvar, за умови, що набір має скінченний ВЧ-індекс.
Нехай є спостережуваним набором даних. Припустімо, що ці дані породжено невідомим розподілом імовірності . Визначмо як очікувані втрати 0/1. Звісно, оскільки є загалом невідомим, ми не маємо доступу до . Проте емпіричний ризик (Шаблон:Lang-en), заданий як
безумовно, може бути оцінено. Тоді маємо наступну теорему:
Теорема (ВЧ-нерівність)
Для бінарної класифікації та функції втрат 0/1 ми маємо наступні обмеження узагальнення:
Іншими словами, ВЧ-нерівність каже, що при збільшенні вибірки, за умови, що має скінченну ВЧ-розмірність, емпіричний ризик 0/1 стає добрим замінником очікуваного ризику 0/1. Зауважте, що обидві праві частини цих двох нерівностей збігатимуться до 0 за умови, що зростає поліноміально в Шаблон:Mvar.
Очевидним є зв'язок між цією системою та системою емпіричних процесів. Тут ми маємо справу з видозміненим емпіричним процесом
але не дивно, що ідеї є однаковими. Доведення (першої частини) ВЧ-нерівності спирається на симетрування, а потім здійснює доведення, обумовлене даними, із застосуванням концентричних нерівностей (зокрема, Шаблон:Нп). Зацікавлений читач може перевірити теореми 12.4 та 12.5 книги Шаблон:Ref.
Джерела
- Шаблон:NoteШаблон:Cite book Шаблон:Ref-en
- Шаблон:Cite book Шаблон:Ref-en
- Шаблон:Note Шаблон:Cite book Шаблон:Ref-en
- Шаблон:NoteШаблон:Cite book Шаблон:Ref-en
- Див. джерела у статтях Шаблон:Нп, Шаблон:Нп, роздрібнена множина.
- Шаблон:NoteШаблон:Cite book Шаблон:Ref-en
- Шаблон:Cite paper Шаблон:Ref-en
- Шаблон:Cite paper Шаблон:Ref-en