Ядрові методи

Шаблон:Машинне навчання

В машинному навчанні ядрові методи (Шаблон:Lang-en) — це клас алгоритмів для розпізнавання образів, найвідомішим представником якого є метод опорних векторів (Шаблон:Lang-en). Загальна задача розпізнавання образів полягає у знаходженні та вивченні основних типів відношень (наприклад, кластерів, ранжування, головних компонент, кореляцій, класифікацій) у наборах даних. Для багатьох алгоритмів, які розв'язують ці задачі, дані в сирому представленні має бути явним чином перетворено на представлення у вигляді векторів ознак через визначене користувачем відображення ознак (Шаблон:Lang-en): на противагу цьому ядрові методи вимагають лише вказаного користувачем ядра (Шаблон:Lang-en), тобто, функції подібності над парами точок даних у сирому представленні.

Ядрові методи завдячують своєю назвою застосуванню Шаблон:Нп, які дозволяють їм діяти в неявному просторі ознак високої вимірності навіть без обчислення координат даних у цьому просторі, натомість просто обчислюючи Шаблон:Нп зображень всіх пар даних у цьому просторі ознак. Ця операція часто є обчислювально менш витратною, ніж явне обчислення координат. Цей підхід називають ядровим трюком (Шаблон:Lang-en).^[1] Ядрові функції було представлено для даних послідовностей, Шаблон:Нп, текстів, зображень, як і для векторів.

До алгоритмів, здатних працювати з ядрами, належать Шаблон:Нп, метод опорних векторів (Шаблон:Lang-en), ґаусові процеси, метод головних компонент (Шаблон:Lang-en), канонічно-кореляційний аналіз, гребенева регресія, спектральне кластерування, лінійні адаптивні фільтри та багато інших. Будь-яку лінійну модель може бути перетворено на нелінійну шляхом застосування до неї ядрового трюку: заміни її ознак (провісників) ядровою функцією.Шаблон:Citation needed

Більшість ядрових алгоритмів ґрунтуються на опуклій оптимізації або власних векторах, і є статистично обґрунтованими. Як правило, їхні статистичні властивості аналізують за допомогою теорії статистичного навчання (наприклад, за допомогою Шаблон:Нп).

Обґрунтування та неформальне пояснення

Ядрові методи можливо розглядати як навчання на прикладах: замість навчання якогось фіксованого набору параметрів, які відповідають ознакам їхніх входів, вони натомість «запам'ятовують» $i$ -тий тренувальний зразок $(𝐱_{i}, y_{i})$ та навчаються відповідної йому ваги $w_{i}$ . Для даних, відсутніх у тренувальному наборі, передбачення здійснюється застосуванням функції подібності $k$ , яку називають ядром (Шаблон:Lang-en), до неміченого входу $𝐱^{'}$ та кожного із тренувальних входів $𝐱_{i}$ . Наприклад, ядрований бінарний класифікатор зазвичай обчислює зважену суму подібностей

\hat{y} = sgn \sum_{i = 1}^{n} w_{i} y_{i} k (𝐱_{i}, 𝐱^{'})

,

де

$\hat{y} \in {- 1, + 1}$ є передбаченою ядрованим бінарним класифікатором міткою для неміченого входу $𝐱^{'}$ , справжня прихована мітка $y$ якого нас і цікавить;
$k : 𝒳 \times 𝒳 \to ℝ$ є ядровою функцією, яка вимірює подібність будь-якої пари входів $𝐱, 𝐱^{'} \in 𝒳$ ;
сума пробігає Шаблон:Mvar мічених зразків ${(𝐱_{i}, y_{i})}_{i = 1}^{n}$ тренувального набору класифікатора, де $y_{i} \in {- 1, + 1}$ ;
$w_{i} \in ℝ$ є вагами тренувальних зразків, визначеними згідно алгоритму навчання;
функція знаку $sgn$ визначає, чи виходить передбачена класифікація $\hat{y}$ позитивною, чи негативною.

Ядрові класифікатори було описано ще в 1960-х роках із винайденням Шаблон:Нп.^[2] Вони досягли великого піднесення разом з популярністю опорно-векторних машин (ОВМ) у 1990-х роках, коли було виявлено, що ОВМ є конкурентноздатними в порівнянні зі нейронними мережами на таких задачах як розпізнавання рукописного введення.

Математика: ядровий трюк

ОВМ з ядром, заданим φ((a, b)) = (a, b, a² + b²), і відтак K(x, y) = x•y + x² y². Тренувальні точки відображено до 3-вимірного простору, де легко знайти розділову гіперплощину.

Ядровий трюк уникає явного відображення, потрібного для тощо, щоби лінійні алгоритми навчання навчалися нелінійної функції або Шаблон:Нп. Для всіх $𝐱$ та $𝐱^{'}$ у вхідному просторі $𝒳$ певні функції $k (𝐱, 𝐱^{'})$ може бути виражено як внутрішній добуток в іншому просторі $𝒱$ . Функцію $k : 𝒳 \times 𝒳 \to ℝ$ часто називають ядром або Шаблон:Нп. Слово «ядро» використовують в математиці для позначення зважувальної функції зваженої суми або інтегралу.

Деякі задачі в машинному навчанні мають складнішу структуру, ніж просто довільна зважувальна функція $k$ . Обчислювання робиться набагато простішим, якщо ядро може бути записано в вигляді «відображення ознак» $φ : 𝒳 \to 𝒱$ , яке задовольняє

k (𝐱, 𝐱^{'}) = ⟨ φ (𝐱), φ (𝐱^{'}) ⟩_{𝒱} .

Ключовим обмеженням є те, що $⟨ \cdot, \cdot ⟩_{𝒱}$ мусить бути власним внутрішнім добутком. З іншого боку, явне представлення $φ$ не є необхідним, поки $𝒱$ є Шаблон:Нп. Ця альтернатива випливає з Шаблон:Нп: неявно визначена функція $φ$ існує тоді, коли простір $𝒳$ може бути споряджено придатною мірою, яка забезпечувала би, щоби функція $k$ задовольняла Шаблон:Нп.

Теорема Мерсера є подібною до узагальнення того наслідку з лінійної алгебри, що пов'язує внутрішній добуток із будь-якою додатноозначеною матрицею. Фактично, умову Мерсера може бути зведено до цього простішого прояву. Якщо ми оберемо як нашу міру лічильну міру $μ (T) = | T |$ для всіх $T \subset X$ , яка лічить число точок всередині множини $T$ , то інтеграл у теоремі Мерсера зводиться до підсумовування

\sum_{i = 1}^{n} \sum_{j = 1}^{n} k (𝐱_{i}, 𝐱_{j}) c_{i} c_{j} ⩾ 0.

Якщо це підсумовування виконується для всіх скінченних послідовностей точок $(𝐱_{1}, \dots, 𝐱_{n})$ в $𝒳$ і всіх варіантів вибору $n$ дійснозначних коефіцієнтів $(c_{1}, \dots, c_{n})$ (пор. Шаблон:Нп), то функція $k$ задовольняє умову Мерсера.

Деякі алгоритми, які залежать від довільних взаємозв'язків у рідному просторі $𝒳$ , фактично мають лінійну інтерпретацію за іншої постановки: області значень $φ$ . Лінійна інтерпретація дає нам прояснення алгоритму. Понад те, часто немає потреби під час обчислень обчислювати $φ$ безпосередньо, як у випадку методу опорних векторів. Деякі дослідники посилаються на цю раціоналізацію часу як на головну перевагу. Дослідники також використовують її для обґрунтування сенсу та властивостей наявних алгоритмів.

Теоретично, матриця Грама $𝐊 \in ℝ^{n \times n}$ по відношенню до ${𝐱_{1}, \dots, 𝐱_{n}}$ (яку іноді також називають «ядровою матрицею», Шаблон:Lang-en^[3]), мусить бути додатно напівозначеною.^[4] Емпірично, для евристик машинного навчання варіанти обрання функції $k$ , які не задовольняють умову Мерсера, все ще можуть працювати прийнятно, якщо $k$ щонайменше наближує інтуїтивне уявлення про подібність.^[5] Незалежно від того, чи є $k$ мерсеровим ядром, $k$ все одно можуть називати «ядром».

Якщо ядрова функція $k$ є також і Шаблон:Нп, як при застосуванні в ґаусових процесах, то матриця Грама $𝐊$ можуть також називати коваріаційною матрицею.^[6]

Застосування

Сфери застосування ядрових методів є різноманітними, до них належать геостатистика,^[7] кригінг, Шаблон:Нп, об'ємна відбудова, біоінформатика, хемоінформатика, витягування інформації та розпізнавання рукописного введення.

Див. також

Джерела

Цитати

Шаблон:Reflist

Література

Шаблон:Refbegin

Книги

Шаблон:Refend

Посилання

Kernel-Machines Org — вебсайт спільноти Шаблон:Ref-en
www.support-vector-machines.org (література, огляд, програмне забезпечення, посилання пов'язані з методом опорних векторів — академічний сайт) Шаблон:Ref-en
Стаття Kernel Methods на onlineprediction.net Шаблон:Ref-en

[1] Шаблон:Cite book Шаблон:Ref-en

[2] Шаблон:Cite journal Процитовано в Шаблон:Cite conference Шаблон:Ref-en

[3] Шаблон:Cite paper Шаблон:Ref-en

[4] Шаблон:Cite Mehryar Afshin Ameet 2012

[5] Шаблон:Cite web Шаблон:Webarchive Шаблон:Ref-en

[6] Шаблон:Cite paper Шаблон:Ref-en

[7] Шаблон:Cite journal Шаблон:Ref-en

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Ядрові методи

Зміст

Обґрунтування та неформальне пояснення

Математика: ядровий трюк

Застосування

Популярні ядра

Див. також

Джерела

Цитати

Література

Посилання

Навігаційне меню

Ядрові методи

Обґрунтування та неформальне пояснення

Математика: ядровий трюк

Застосування

Популярні ядра

Див. також

Джерела

Цитати

Література

Посилання

Навігаційне меню

Пошук