Ядрові методи

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Машинне навчання

В машинному навчанні ядрові методи (Шаблон:Lang-en) — це клас алгоритмів для розпізнавання образів, найвідомішим представником якого є метод опорних векторів (Шаблон:Lang-en). Загальна задача розпізнавання образів полягає у знаходженні та вивченні основних типів відношень (наприклад, кластерів, ранжування, головних компонент, кореляцій, класифікацій) у наборах даних. Для багатьох алгоритмів, які розв'язують ці задачі, дані в сирому представленні має бути явним чином перетворено на представлення у вигляді векторів ознак через визначене користувачем відображення ознак (Шаблон:Lang-en): на противагу цьому ядрові методи вимагають лише вказаного користувачем ядра (Шаблон:Lang-en), тобто, функції подібності над парами точок даних у сирому представленні.

Ядрові методи завдячують своєю назвою застосуванню Шаблон:Нп, які дозволяють їм діяти в неявному просторі ознак високої вимірності навіть без обчислення координат даних у цьому просторі, натомість просто обчислюючи Шаблон:Нп зображень всіх пар даних у цьому просторі ознак. Ця операція часто є обчислювально менш витратною, ніж явне обчислення координат. Цей підхід називають ядровим трюком (Шаблон:Lang-en).[1] Ядрові функції було представлено для даних послідовностей, Шаблон:Нп, текстів, зображень, як і для векторів.

До алгоритмів, здатних працювати з ядрами, належать Шаблон:Нп, метод опорних векторів (Шаблон:Lang-en), ґаусові процеси, метод головних компонент (Шаблон:Lang-en), канонічно-кореляційний аналіз, гребенева регресія, спектральне кластерування, лінійні адаптивні фільтри та багато інших. Будь-яку лінійну модель може бути перетворено на нелінійну шляхом застосування до неї ядрового трюку: заміни її ознак (провісників) ядровою функцією.Шаблон:Citation needed

Більшість ядрових алгоритмів ґрунтуються на опуклій оптимізації або власних векторах, і є статистично обґрунтованими. Як правило, їхні статистичні властивості аналізують за допомогою теорії статистичного навчання (наприклад, за допомогою Шаблон:Нп).

Обґрунтування та неформальне пояснення

Ядрові методи можливо розглядати як навчання на прикладах: замість навчання якогось фіксованого набору параметрів, які відповідають ознакам їхніх входів, вони натомість «запам'ятовують» i-тий тренувальний зразок (𝐱i,yi) та навчаються відповідної йому ваги wi. Для даних, відсутніх у тренувальному наборі, передбачення здійснюється застосуванням функції подібності k, яку називають ядром (Шаблон:Lang-en), до неміченого входу 𝐱 та кожного із тренувальних входів 𝐱i. Наприклад, ядрований бінарний класифікатор зазвичай обчислює зважену суму подібностей

y^=sgni=1nwiyik(𝐱i,𝐱),

де

  • y^{1,+1} є передбаченою ядрованим бінарним класифікатором міткою для неміченого входу 𝐱, справжня прихована мітка y якого нас і цікавить;
  • k:𝒳×𝒳 є ядровою функцією, яка вимірює подібність будь-якої пари входів 𝐱,𝐱𝒳;
  • сума пробігає Шаблон:Mvar мічених зразків {(𝐱i,yi)}i=1n тренувального набору класифікатора, де yi{1,+1};
  • wi є вагами тренувальних зразків, визначеними згідно алгоритму навчання;
  • функція знаку sgn визначає, чи виходить передбачена класифікація y^ позитивною, чи негативною.

Ядрові класифікатори було описано ще в 1960-х роках із винайденням Шаблон:Нп.[2] Вони досягли великого піднесення разом з популярністю опорно-векторних машин (ОВМ) у 1990-х роках, коли було виявлено, що ОВМ є конкурентноздатними в порівнянні зі нейронними мережами на таких задачах як розпізнавання рукописного введення.

Математика: ядровий трюк

ОВМ з ядром, заданим φ((a, b)) = (a, b, a2 + b2), і відтак K(x, y) = xy + x2 y2. Тренувальні точки відображено до 3-вимірного простору, де легко знайти розділову гіперплощину.

Ядровий трюк уникає явного відображення, потрібного для тощо, щоби лінійні алгоритми навчання навчалися нелінійної функції або Шаблон:Нп. Для всіх 𝐱 та 𝐱 у вхідному просторі 𝒳 певні функції k(𝐱,𝐱) може бути виражено як внутрішній добуток в іншому просторі 𝒱. Функцію k:𝒳×𝒳 часто називають ядром або Шаблон:Нп. Слово «ядро» використовують в математиці для позначення зважувальної функції зваженої суми або інтегралу.

Деякі задачі в машинному навчанні мають складнішу структуру, ніж просто довільна зважувальна функція k. Обчислювання робиться набагато простішим, якщо ядро може бути записано в вигляді «відображення ознак» φ:𝒳𝒱, яке задовольняє

k(𝐱,𝐱)=φ(𝐱),φ(𝐱)𝒱.

Ключовим обмеженням є те, що ,𝒱 мусить бути власним внутрішнім добутком. З іншого боку, явне представлення φ не є необхідним, поки 𝒱 є Шаблон:Нп. Ця альтернатива випливає з Шаблон:Нп: неявно визначена функція φ існує тоді, коли простір 𝒳 може бути споряджено придатною мірою, яка забезпечувала би, щоби функція k задовольняла Шаблон:Нп.

Теорема Мерсера є подібною до узагальнення того наслідку з лінійної алгебри, що пов'язує внутрішній добуток із будь-якою додатноозначеною матрицею. Фактично, умову Мерсера може бути зведено до цього простішого прояву. Якщо ми оберемо як нашу міру лічильну міру μ(T)=|T| для всіх TX, яка лічить число точок всередині множини T, то інтеграл у теоремі Мерсера зводиться до підсумовування

i=1nj=1nk(𝐱i,𝐱j)cicj0.

Якщо це підсумовування виконується для всіх скінченних послідовностей точок (𝐱1,,𝐱n) в 𝒳 і всіх варіантів вибору n дійснозначних коефіцієнтів (c1,,cn) (пор. Шаблон:Нп), то функція k задовольняє умову Мерсера.

Деякі алгоритми, які залежать від довільних взаємозв'язків у рідному просторі 𝒳, фактично мають лінійну інтерпретацію за іншої постановки: області значень φ. Лінійна інтерпретація дає нам прояснення алгоритму. Понад те, часто немає потреби під час обчислень обчислювати φ безпосередньо, як у випадку методу опорних векторів. Деякі дослідники посилаються на цю раціоналізацію часу як на головну перевагу. Дослідники також використовують її для обґрунтування сенсу та властивостей наявних алгоритмів.

Теоретично, матриця Грама 𝐊n×n по відношенню до {𝐱1,,𝐱n} (яку іноді також називають «ядровою матрицею», Шаблон:Lang-en[3]), мусить бути додатно напівозначеною.[4] Емпірично, для евристик машинного навчання варіанти обрання функції k, які не задовольняють умову Мерсера, все ще можуть працювати прийнятно, якщо k щонайменше наближує інтуїтивне уявлення про подібність.[5] Незалежно від того, чи є k мерсеровим ядром, k все одно можуть називати «ядром».

Якщо ядрова функція k є також і Шаблон:Нп, як при застосуванні в ґаусових процесах, то матриця Грама 𝐊 можуть також називати коваріаційною матрицею.[6]

Застосування

Сфери застосування ядрових методів є різноманітними, до них належать геостатистика,[7] кригінг, Шаблон:Нп, об'ємна відбудова, біоінформатика, хемоінформатика, витягування інформації та розпізнавання рукописного введення.

Популярні ядра

Див. також

Джерела

Цитати

Шаблон:Reflist

Література

Шаблон:Refbegin

Книги

Шаблон:Refend

Посилання