Ядрові методи
В машинному навчанні ядрові методи (Шаблон:Lang-en) — це клас алгоритмів для розпізнавання образів, найвідомішим представником якого є метод опорних векторів (Шаблон:Lang-en). Загальна задача розпізнавання образів полягає у знаходженні та вивченні основних типів відношень (наприклад, кластерів, ранжування, головних компонент, кореляцій, класифікацій) у наборах даних. Для багатьох алгоритмів, які розв'язують ці задачі, дані в сирому представленні має бути явним чином перетворено на представлення у вигляді векторів ознак через визначене користувачем відображення ознак (Шаблон:Lang-en): на противагу цьому ядрові методи вимагають лише вказаного користувачем ядра (Шаблон:Lang-en), тобто, функції подібності над парами точок даних у сирому представленні.
Ядрові методи завдячують своєю назвою застосуванню Шаблон:Нп, які дозволяють їм діяти в неявному просторі ознак високої вимірності навіть без обчислення координат даних у цьому просторі, натомість просто обчислюючи Шаблон:Нп зображень всіх пар даних у цьому просторі ознак. Ця операція часто є обчислювально менш витратною, ніж явне обчислення координат. Цей підхід називають ядровим трюком (Шаблон:Lang-en).[1] Ядрові функції було представлено для даних послідовностей, Шаблон:Нп, текстів, зображень, як і для векторів.
До алгоритмів, здатних працювати з ядрами, належать Шаблон:Нп, метод опорних векторів (Шаблон:Lang-en), ґаусові процеси, метод головних компонент (Шаблон:Lang-en), канонічно-кореляційний аналіз, гребенева регресія, спектральне кластерування, лінійні адаптивні фільтри та багато інших. Будь-яку лінійну модель може бути перетворено на нелінійну шляхом застосування до неї ядрового трюку: заміни її ознак (провісників) ядровою функцією.Шаблон:Citation needed
Більшість ядрових алгоритмів ґрунтуються на опуклій оптимізації або власних векторах, і є статистично обґрунтованими. Як правило, їхні статистичні властивості аналізують за допомогою теорії статистичного навчання (наприклад, за допомогою Шаблон:Нп).
Обґрунтування та неформальне пояснення
Ядрові методи можливо розглядати як навчання на прикладах: замість навчання якогось фіксованого набору параметрів, які відповідають ознакам їхніх входів, вони натомість «запам'ятовують» -тий тренувальний зразок та навчаються відповідної йому ваги . Для даних, відсутніх у тренувальному наборі, передбачення здійснюється застосуванням функції подібності , яку називають ядром (Шаблон:Lang-en), до неміченого входу та кожного із тренувальних входів . Наприклад, ядрований бінарний класифікатор зазвичай обчислює зважену суму подібностей
- ,
де
- є передбаченою ядрованим бінарним класифікатором міткою для неміченого входу , справжня прихована мітка якого нас і цікавить;
- є ядровою функцією, яка вимірює подібність будь-якої пари входів ;
- сума пробігає Шаблон:Mvar мічених зразків тренувального набору класифікатора, де ;
- є вагами тренувальних зразків, визначеними згідно алгоритму навчання;
- функція знаку визначає, чи виходить передбачена класифікація позитивною, чи негативною.
Ядрові класифікатори було описано ще в 1960-х роках із винайденням Шаблон:Нп.[2] Вони досягли великого піднесення разом з популярністю опорно-векторних машин (ОВМ) у 1990-х роках, коли було виявлено, що ОВМ є конкурентноздатними в порівнянні зі нейронними мережами на таких задачах як розпізнавання рукописного введення.
Математика: ядровий трюк

Ядровий трюк уникає явного відображення, потрібного для тощо, щоби лінійні алгоритми навчання навчалися нелінійної функції або Шаблон:Нп. Для всіх та у вхідному просторі певні функції може бути виражено як внутрішній добуток в іншому просторі . Функцію часто називають ядром або Шаблон:Нп. Слово «ядро» використовують в математиці для позначення зважувальної функції зваженої суми або інтегралу.
Деякі задачі в машинному навчанні мають складнішу структуру, ніж просто довільна зважувальна функція . Обчислювання робиться набагато простішим, якщо ядро може бути записано в вигляді «відображення ознак» , яке задовольняє
Ключовим обмеженням є те, що мусить бути власним внутрішнім добутком. З іншого боку, явне представлення не є необхідним, поки є Шаблон:Нп. Ця альтернатива випливає з Шаблон:Нп: неявно визначена функція існує тоді, коли простір може бути споряджено придатною мірою, яка забезпечувала би, щоби функція задовольняла Шаблон:Нп.
Теорема Мерсера є подібною до узагальнення того наслідку з лінійної алгебри, що пов'язує внутрішній добуток із будь-якою додатноозначеною матрицею. Фактично, умову Мерсера може бути зведено до цього простішого прояву. Якщо ми оберемо як нашу міру лічильну міру для всіх , яка лічить число точок всередині множини , то інтеграл у теоремі Мерсера зводиться до підсумовування
Якщо це підсумовування виконується для всіх скінченних послідовностей точок в і всіх варіантів вибору дійснозначних коефіцієнтів (пор. Шаблон:Нп), то функція задовольняє умову Мерсера.
Деякі алгоритми, які залежать від довільних взаємозв'язків у рідному просторі , фактично мають лінійну інтерпретацію за іншої постановки: області значень . Лінійна інтерпретація дає нам прояснення алгоритму. Понад те, часто немає потреби під час обчислень обчислювати безпосередньо, як у випадку методу опорних векторів. Деякі дослідники посилаються на цю раціоналізацію часу як на головну перевагу. Дослідники також використовують її для обґрунтування сенсу та властивостей наявних алгоритмів.
Теоретично, матриця Грама по відношенню до (яку іноді також називають «ядровою матрицею», Шаблон:Lang-en[3]), мусить бути додатно напівозначеною.[4] Емпірично, для евристик машинного навчання варіанти обрання функції , які не задовольняють умову Мерсера, все ще можуть працювати прийнятно, якщо щонайменше наближує інтуїтивне уявлення про подібність.[5] Незалежно від того, чи є мерсеровим ядром, все одно можуть називати «ядром».
Якщо ядрова функція є також і Шаблон:Нп, як при застосуванні в ґаусових процесах, то матриця Грама можуть також називати коваріаційною матрицею.[6]
Застосування
Сфери застосування ядрових методів є різноманітними, до них належать геостатистика,[7] кригінг, Шаблон:Нп, об'ємна відбудова, біоінформатика, хемоінформатика, витягування інформації та розпізнавання рукописного введення.
Популярні ядра
Див. також
Джерела
Цитати
Література
- Книги
Посилання
- Kernel-Machines Org — вебсайт спільноти Шаблон:Ref-en
- www.support-vector-machines.org (література, огляд, програмне забезпечення, посилання пов'язані з методом опорних векторів — академічний сайт) Шаблон:Ref-en
- Стаття Kernel Methods на onlineprediction.net Шаблон:Ref-en