Теорія Вапника — Червоненкіса

Шаблон:Машинне навчання

Теорію Вапника — Червоненкіса (Шаблон:Lang-en, відому також як ВЧ-теорія, Шаблон:Lang-en) було розроблено протягом 1960–1990 років Володимиром Вапником та Шаблон:Нп. Ця теорія є різновидом Шаблон:Нп, яка намагається пояснювати процес навчання зі статистичної точки зору.

ВЧ-теорія пов'язана з теорією статистичного навчання та з Шаблон:Нп. До Шаблон:Нп ВЧ-теорію застосовували, серед інших, Шаблон:Нп та Володимир Вапник.

Введення

ВЧ-теорія охоплює щонайменше чотири частини (як пояснено в «Природі теорії статистичного навчання»Шаблон:Ref):

Теорію спроможності процесів навчання
- Якими є (необхідні та достатні) умови спроможності процесу навчання на основі принципу мінімізації емпіричного ризику?
Неасимптотичну теорію темпу збіжності процесів навчання
- Наскільки швидким є темп збіжності процесу навчання?
Теорію керування узагальнювальною спроможністю процесів навчання
- Як можна керувати темпом збіжності (узагальнювальною спроможністю) процесу навчання?
Теорію побудови машин, які вчаться
- Як можна будувати алгоритми, які керують узагальнювальною спроможністю?

ВЧ-теорія є однією з основних підгалузей теорії статистичного навчання. Одним із її головних застосувань у теорії статистичного навчання є забезпечення умов узагальнення для алгоритмів навчання. З цієї точки зору ВЧ-теорія пов'язана зі Шаблон:Нп, яка є альтернативним підходом для характеризування узагальнення.

Крім того, ВЧ-теорія та ВЧ-розмірність відіграють важливу роль у теорії Шаблон:Нп у випадку процесів, індексованих за ВЧ-класами. Можливо, вони є найважливішими застосуваннями ВЧ-теорії, вони застосовуються в доведенні узагальнення. Буде представлено кілька методик, які широко використовуються в емпіричних процесах та ВЧ-теорії. Обговорення в основному ґрунтується на книзі «Слабка збіжність та емпіричні процеси: із застосуваннями до статистики».Шаблон:Ref

Огляд ВЧ-теорії в емпіричних процесах

Довідка про емпіричні процеси

Нехай $X_{1}, \dots, X_{n}$ є випадковими елементами, визначеними на вимірному просторі $(𝒳, 𝒜)$ . Для міри Шаблон:Mvar встановімо:

Q f = \int f d Q

Питання вимірності тут ігноруватимуться, технічні деталі див. у Шаблон:Ref. Покладімо, що $ℱ$ є класом вимірних функцій $f : 𝒳 \to 𝐑$ , і визначмо

‖ Q ‖_{ℱ} = \sup {| Q f | : f \in ℱ} .

Визначмо емпіричну міру

ℙ_{n} = n^{- 1} \sum_{i = 1}^{n} δ_{X_{i}},

де Шаблон:Mvar в даному випадку відповідає Шаблон:Нп. Емпірична міра породжує відображення $ℱ \to 𝐑$ , що задається як

f \mapsto ℙ_{n} f

Тепер припустімо, що Шаблон:Mvar є справжнім розподілом, що лежить в основі даних, який є невідомим. Теорія емпіричних процесів спрямована на ідентифікацію класів $ℱ$ , для яких виконуються такі твердження, як наступні:

рівномірний закон великих чисел:

‖ ℙ_{n} - P ‖_{ℱ} \to 0,

рівномірна центральна гранична теорема:

𝔾_{n} = \sqrt{n} (ℙ_{n} - P) ⇝ 𝔾, in ℓ^{\infty} (ℱ)

В першому випадку $ℱ$ називається Шаблон:Нп (Шаблон:Lang-en), а в другому (за припущення $\forall x, \sup_{f \in ℱ} | f (x) - P f | < \infty$ ) клас $ℱ$ називається донскеровим (Шаблон:Lang-en), або Шаблон:Mvar-донскеровим. Очевидно, що клас Донскера є класом Гливенка — Кантеллі в теорії ймовірностей, якщо застосувати теорему Слуцького.

Ці твердження справедливі для єдиної $f$ згідно стандартних доводів ЗВЧ та ЦГТ в умовах регулярності, а складність в емпіричних процесах виникає тому, що робляться спільні твердження для всіх $f \in ℱ$ . Тоді, інтуїтивно, множина $ℱ$ не може бути занадто великою, і, як виявляється, дуже важливу роль відіграє геометрія $ℱ$ .

Одним зі способі вимірювання того, наскільки великою є множина функцій $ℱ$ , є застосування так званих Шаблон:Нп. Число покриття

N (ε, ℱ, ‖ \cdot ‖)

є мінімальним числом куль ${g : ‖ g - f ‖ < ε}$ , необхідних для покриття множини $ℱ$ (тут, очевидно, припускається існування норми на $ℱ$ , на основі якої це робиться). Ентропія є логарифмом числа покриття.

Нижче наведено дві достатні умови, за яких може бути доведено, що множина $ℱ$ є Гливенка — Кантеллі, або донскеровою.

Клас $ℱ$ є Шаблон:Mvar-Гливенка — Кантеллі, якщо він є Шаблон:Mvar-мірним такою обгорткою Шаблон:Mvar, що $P^{*} F < \infty$ та виконується

\forall ε > 0 \sup_{Q} N (ε ‖ F ‖_{Q}, ℱ, L_{1} (Q)) < \infty .

Наступна умова є версією славетної Шаблон:Нп. Якщо $ℱ$ є таким класом функцій, що

\int_{0}^{\infty} \sup_{Q} \sqrt{\log N (ε ‖ F ‖_{Q, 2}, ℱ, L_{2} (Q))} d ε < \infty

то $ℱ$ є Шаблон:Mvar-донскеровим для будь-якої такої міри ймовірності Шаблон:Mvar, що $P^{*} F^{2} < \infty$ . В крайньому інтегралі цей запис означає

‖ f ‖_{Q, 2} = {(\int | f |^{2} d Q)}^{\frac{1}{2}}

.

Симетрування

Більшість обґрунтувань того, як обмежувати емпіричні процеси, покладаються на симетрування, максимальні та концентричні нерівності, та зчеплювання. Симетрування зазвичай є першим кроком цих доведень, і оскільки воно використовується в багатьох доведеннях машинного навчання із обмеження функцій емпіричних втрат (включно із доведенням ВЧ-нерівності, що обговорюється в наступному розділі), його представлено тут.

Розгляньмо емпіричний процес

f \mapsto (ℙ_{n} - P) f = \frac{1}{n} \sum_{i = 1}^{n} (f (X_{i}) - P f)

Виявляється, що існує зв'язок між цим емпіричним, та наступним симетрованим процесом:

f \mapsto ℙ_{n}^{0} = \frac{1}{n} \sum_{i = 1}^{n} ε_{i} f (X_{i})

Цей симетрований процес є процесом Радемахера, обумовленим даними $X_{i}$ . Отже, згідно Шаблон:Нп, він є субґаусовим процесом.

Лема (симетрування). Для будь-якої неспадної опуклої Шаблон:Math та класу вимірних функцій $ℱ$ ,

𝔼 Φ (‖ ℙ_{n} - P ‖_{ℱ}) \leq 𝔼 Φ (2 {‖ ℙ_{n}^{0} ‖}_{ℱ})

Доведення леми симетрування покладається на введення незалежних копій первинних змінних $X_{i}$ (які іноді називають вибіркою-привидом) та заміну виразу під математичним сподіванням в лівій частині нерівності цими копіями. Після застосування нерівності Єнсена може бути введено інші знаки (звідси й назва — симетрування) без зміни математичного сподівання. Нижче наведено доведення, через його повчальний характер.

[Доведення]

Введімо «вибірку-привід» $Y_{1}, \dots, Y_{n}$ як незалежні копії $X_{1}, \dots, X_{n}$ . Для фіксованих значень $X_{1}, \dots, X_{n}$ маємо:

‖ ℙ_{n} - P ‖_{ℱ} = \sup_{f \in ℱ} \frac{1}{n} | \sum_{i = 1}^{n} f (X_{i}) - 𝔼 f (Y_{i}) | \leq 𝔼_{Y} \sup_{f \in ℱ} \frac{1}{n} | \sum_{i = 1}^{n} f (X_{i}) - f (Y_{i}) |

Отже, згідно нерівності Єнсена,

Φ (‖ ℙ_{n} - P ‖_{ℱ}) \leq 𝔼_{Y} Φ ({‖ \frac{1}{n} \sum_{i = 1}^{n} f (X_{i}) - f (Y_{i}) ‖}_{ℱ})

Взяття математичного сподівання по відношенню до $X$ дає

𝔼 Φ (‖ ℙ_{n} - P ‖_{ℱ}) \leq 𝔼_{X} 𝔼_{Y} Φ ({‖ \frac{1}{n} \sum_{i = 1}^{n} f (X_{i}) - f (Y_{i}) ‖}_{ℱ})

Зауважте, що додавання знаку мінусу перед членом $f (X_{i}) - f (Y_{i})$ не змінює правої частини нерівності, оскільки вона є симетричною функцією від $X$ та $Y$ . Отже, права частина нерівності залишається такою ж і за «збурення знаку»:

𝔼 Φ ({‖ \frac{1}{n} \sum_{i = 1}^{n} e_{i} (f (X_{i}) - f (Y_{i})) ‖}_{ℱ})

для будь-яких $(e_{1}, e_{2}, \dots, e_{n}) \in {- 1, 1}^{n}$ . Отже,

𝔼 Φ (‖ ℙ_{n} - P ‖_{ℱ}) \leq 𝔼_{ε} 𝔼 Φ ({‖ \frac{1}{n} \sum_{i = 1}^{n} ε_{i} (f (X_{i}) - f (Y_{i})) ‖}_{ℱ})

Нарешті, застосування першої нерівності трикутника, а потім опуклості $Φ$ , дає

𝔼 Φ (‖ ℙ_{n} - P ‖_{ℱ}) \leq \frac{1}{2} 𝔼_{ε} 𝔼 Φ (2 {‖ \frac{1}{n} \sum_{i = 1}^{n} ε_{i} f (X_{i}) ‖}_{ℱ}) + \frac{1}{2} 𝔼_{ε} 𝔼 Φ (2 {‖ \frac{1}{n} \sum_{i = 1}^{n} ε_{i} f (Y_{i}) ‖}_{ℱ})

Де два крайні вирази в правій частині нерівності є однаковими, що завершує доведення.

Типовий спосіб доведення емпіричних ЦГТ спочатку застосовує симетрування для передачі емпіричного процесу до $ℙ_{n}^{0}$ , а потім здійснює доведення обумовлено даними, використовуючи той факт, що процеси Радемахера є простими процесами з гарними властивостями.

ВЧ-зв'язок

Виявляється, існує чарівний зв'язок між деякими комбінаторними властивостями множини $ℱ$ , та числами ентропії. Числа рівномірного покриття можуть контролюватися поняттям класів множин Вапника — Червоненкіса (Шаблон:Lang-en), або, коротше, ВЧ-множин (Шаблон:Lang-en).

Розгляньмо набір $𝒞$ підмножин вибіркового простору $𝒳$ . Кажуть, що $𝒞$ вихоплює (Шаблон:Lang-en) певну підмножину $W$ скінченної множини $S = {x_{1}, \dots, x_{n}} \subset 𝒳$ , якщо $W = S \cap C$ для деякого $C \in 𝒞$ . Кажуть, що $𝒞$ роздрібнює (Шаблон:Lang-en) Шаблон:Mvar, якщо він вихоплює кожну з її Шаблон:Math підмножин. ВЧ-індекс (Шаблон:Lang-en, подібний до ВЧ-розмірності + 1 для відповідним чином вибраної класифікаторної множини) $V (𝒞)$ набору $𝒞$ — це найменше Шаблон:Mvar, для якого жодна множина розміру Шаблон:Mvar не роздрібнюється набором $𝒞$ .

Далі, Шаблон:Нп стверджує, що число $Δ_{n} (𝒞, x_{1}, \dots, x_{n})$ підмножин, вихоплюваних ВЧ-класом $𝒞$ , задовольняє

\max_{x_{1}, \dots, x_{n}} Δ_{n} (𝒞, x_{1}, \dots, x_{n}) \leq \sum_{j = 0}^{V (𝒞) - 1} (\binom{n}{j}) \leq {(\frac{n e}{V (𝒞) - 1})}^{V (𝒞) - 1}

Що є поліноміальним числом $O (n^{V (𝒞) - 1})$ підмножин, а не експоненційним. Інтуїтивно це означає, що зі скінченності ВЧ-індексу випливає, що $𝒞$ має явно спрощену структуру.

Подібне обмеження може бути показано (з іншим сталим, незмінним співвідношенням) для так званих ВЧ-підграфікових класів (Шаблон:Lang-en). Для функції $f : 𝒳 \to 𝐑$ Шаблон:Нп є така підмножина $𝒳 \times 𝐑$ , що ${(x, t) : t < f (x)}$ . Набір $ℱ$ називається ВЧ-підграфіковим класом, якщо всі підграфіки формують ВЧ-клас.

Розгляньмо множину індикаторних функцій $ℐ_{𝒞} = {1_{C} : C \in 𝒞}$ в $L_{1} (Q)$ для дискретного емпіричного типу міри Шаблон:Mvar (або, рівнозначно, для будь-якої міри ймовірності Шаблон:Mvar). Тоді може бути показано, що, на диво, для $r \geq 1$

N (ε, ℐ_{𝒞}, L_{r} (Q)) \leq K V (𝒞) (4 e)^{V (𝒞)} ε^{- r (V (𝒞) - 1)}

Далі розгляньмо симетричну опуклу оболонку множини $ℱ$ : $sconv ℱ$ , яка є набором функцій вигляду $\sum_{i = 1}^{m} α_{i} f_{i}$ з $\sum_{i = 1}^{m} | α_{i} | \leq 1$ . Тоді якщо

N (ε ‖ F ‖_{Q, 2}, ℱ, L_{2} (Q)) \leq C ε^{- V}

то наступне є вірним для опуклої оболонки $ℱ$ :

\log N (ε ‖ F ‖_{Q, 2}, sconv ℱ, L_{2} (Q)) \leq K ε^{- \frac{2 V}{V + 2}}

Важливим наслідком цього факту є те, що

\frac{2 V}{V + 2} > 2,

чого якраз достатньо для того, щоби інтеграл ентропії сходився, і відтак клас $sconv ℱ$ був Шаблон:Mvar-донскеровим.

Нарешті, розглядається приклад ВЧ-підграфікового класу. Будь-який векторний простір $ℱ$ вимірних функцій $f : 𝒳 \to 𝐑$ , який має скінченну розмірність, є ВЧ-підграфіком індексу, меншого або рівного $\dim (ℱ) + 2$ .

[Доведення]

Візьмімо $n = \dim (ℱ) + 2$ точок $(x_{1}, t_{1}), \dots, (x_{n}, t_{n})$ . Вектори

(f (x_{1}), \dots, f (x_{n})) - (t_{1}, \dots, t_{n})

є векторами підпростору Шаблон:Math з розмірністю Шаблон:Math. Візьмімо Шаблон:Math, вектор, ортогональний до цього підпростору. Тоді

\sum_{a_{i} > 0} a_{i} (f (x_{i}) - t_{i}) = \sum_{a_{i} < 0} (- a_{i}) (f (x_{i}) - t_{i}), \forall f \in ℱ

Розгляньмо множину $S = {(x_{i}, t_{i}) : a_{i} > 0}$ . Цю множину не може бути вихоплено, оскільки, якби існувала якась функція $f$ , така що $S = {(x_{i}, t_{i}) : f (x_{i}) > t_{i}}$ , то це означало би, що ліва частина рівності є строго додатною, а права — недодатною.

Існують узагальнення поняття ВЧ-підграфових класів, наприклад, існує поняття псевдорозмірності. Зацікавлені читачі можуть подивитися Шаблон:Ref.

ВЧ-нерівність

Розглядається подібна постановка, звичніша для машинного навчання. Нехай $𝒳$ є простором ознак, а $𝒴 = {0, 1}$ . Функція $f : 𝒳 \to 𝒴$ називається класифікатором. Нехай $ℱ$ є множиною класифікаторів. Подібно до попереднього розділу, визначмо коефіцієнт роздрібнювання (Шаблон:Lang-en, відомий також як функція росту, Шаблон:Lang-en):

S (ℱ, n) = \max_{x_{1}, \dots, x_{n}} | {(f (x_{1}), \dots, f (x_{n})), f \in ℱ} |

Зауважте, що існує взаємно однозначне відображення між кожною з функцій в $ℱ$ , та множиною, на якій ця функція дорівнює 1. Отже, ми можемо визначити $𝒞$ як набір підмножин, отриманий з наведеного вище відображення для кожної $f \in ℱ$ . Таким чином, з точки зору попереднього розділу, коефіцієнт роздрібнювання в точності дорівнює

\max_{x_{1}, \dots, x_{n}} Δ_{n} (𝒞, x_{1}, \dots, x_{n})

.

З цієї рівності разом із Шаблон:Нп випливає, що $S (ℱ, n)$ має бути поліноміальним в Шаблон:Mvar, для достатньо великого Шаблон:Mvar, за умови, що набір $𝒞$ має скінченний ВЧ-індекс.

Нехай $D_{n} = {(X_{1}, Y_{1}), \dots, (X_{n}, Y_{m})}$ є спостережуваним набором даних. Припустімо, що ці дані породжено невідомим розподілом імовірності $P_{X Y}$ . Визначмо $R (f) = P (f (X) \neq Y)$ як очікувані втрати 0/1. Звісно, оскільки $P_{X Y}$ є загалом невідомим, ми не маємо доступу до $R (f)$ . Проте емпіричний ризик (Шаблон:Lang-en), заданий як

{\hat{R}}_{n} (f) = \frac{1}{n} \sum_{i = 1}^{n} 𝕀 (f (X_{i}) \neq Y_{i})

безумовно, може бути оцінено. Тоді маємо наступну теорему:

Теорема (ВЧ-нерівність)

Для бінарної класифікації та функції втрат 0/1 ми маємо наступні обмеження узагальнення:

\begin{matrix} P (\sup_{f \in ℱ} | {\hat{R}}_{n} (f) - R (f) | > ε) & \leq 8 S (ℱ, n) e^{- n ε^{2} / 32} \\ 𝔼 [\sup_{f \in ℱ} | {\hat{R}}_{n} (f) - R (f) |] & \leq 2 \sqrt{\frac{\log S (ℱ, n) + \log 2}{n}} \end{matrix}

Іншими словами, ВЧ-нерівність каже, що при збільшенні вибірки, за умови, що $ℱ$ має скінченну ВЧ-розмірність, емпіричний ризик 0/1 стає добрим замінником очікуваного ризику 0/1. Зауважте, що обидві праві частини цих двох нерівностей збігатимуться до 0 за умови, що $S (ℱ, n)$ зростає поліноміально в Шаблон:Mvar.

Очевидним є зв'язок між цією системою та системою емпіричних процесів. Тут ми маємо справу з видозміненим емпіричним процесом

{| {\hat{R}}_{n} - R |}_{ℱ}

але не дивно, що ідеї є однаковими. Доведення (першої частини) ВЧ-нерівності спирається на симетрування, а потім здійснює доведення, обумовлене даними, із застосуванням концентричних нерівностей (зокрема, Шаблон:Нп). Зацікавлений читач може перевірити теореми 12.4 та 12.5 книги Шаблон:Ref.

Джерела

Література

Шаблон:Cite journal Шаблон:Ref-ru

Посилання

Шаблон:Cite web Шаблон:Ref-ru

Теорія Вапника — Червоненкіса

Зміст

Введення

Огляд ВЧ-теорії в емпіричних процесах

Довідка про емпіричні процеси

Симетрування

ВЧ-зв'язок

ВЧ-нерівність

Теорема (ВЧ-нерівність)

Джерела

Література

Посилання

Навігаційне меню

Теорія Вапника — Червоненкіса

Введення

Огляд ВЧ-теорії в емпіричних процесах

Довідка про емпіричні процеси

Симетрування

ВЧ-зв'язок

ВЧ-нерівність

Теорема (ВЧ-нерівність)

Джерела

Література

Посилання

Навігаційне меню

Пошук