Обирання ознак
Шаблон:Short description Шаблон:Машинне навчання
В машинному навчанні та статистиці обира́ння озна́к, відоме також як обира́ння змі́нних, обира́ння атрибу́тів та обира́ння підмножини́ змі́нних (Шаблон:Lang-en) — це процес обирання підмножини доречних ознак (змінних, провісників) для використання в побудові моделі. Методики обирання ознак застосовують із декількома цілями:
- спрощення моделей, щоби зробити їх легшими для інтерпретування дослідниками/користувачами,[1]
- скорочення тривалостей тренування,
- уникання прокляття розмірності,
- покращення узагальнення шляхом зниження перенавчання[2] (формально, зниження дисперсіїШаблон:R).
Центральною передумовою при застосуванні методики обирання ознак є те, що дані містять деякі ознаки, що є або надлишковими, або недоречними, і тому їх може бути усунено без спричинення значної втрати інформації.[2] «Надлишкові» та «недоречні» є двома різними поняттями, оскільки одна доречна ознака може бути надлишковою в присутності іншої доречної ознаки, з якою вона сильно корелює.Шаблон:R
Методики обирання ознак слід відрізняти від виділяння ознак. Виділяння ознак створює нові ознаки з функцій від первинних ознак, тоді як обирання ознак повертає підмножину ознак. Методики обирання ознак часто використовують у тих областях, де є багато ознак, і порівняно мало зразків (або точок даних). До споконвічних випадків застосування обирання ознак належать аналіз писаних текстів та даних ДНК-мікрочипів, де є багато тисяч ознак, і лише від декількох десятків до сотень зразків.
Введення
Алгоритм обирання ознак можливо розглядати як поєднання методики пошуку для пропонування нових підмножин ознак разом із мірою оцінки, яка встановлює бали різним підмножинам ознак. Найпростішим алгоритмом є перевіряти кожну можливу підмножину ознак, шукаючи таку, яка мінімізує рівень похибки. Це є вичерпним пошуком цим простором, і є обчислювально непіддатливим для будь-яких множин ознак, крім найменших. Вибір оцінювальної метрики сильно впливає на алгоритм, і саме ці оцінювальні метрики відрізняють три основні категорії алгоритмів пошуку ознак: обгорткові, фільтрові та вбудовані методи.[3]
- Обгорткові методи для встановлення балів підмножинам ознак використовують передбачувальну модель. Кожну нову підмножину використовують для тренування моделі, яку перевіряють на притриманій множині. Підрахунок кількості помилок, зроблених на цій притриманій множині (рівень похибки моделі) дає бал цієї підмножини. Оскільки обгорткові методи тренують нову модель для кожної підмножини, вони є дуже обчислювально напруженими, але зазвичай пропонують множину ознак із найкращою продуктивністю для того окремого типу моделі.
- Фільтрові методи для встановлення балів підмножинам ознак замість рівня похибки використовують міру-заступницю. Цю міру обирають такою, щоби вона була швидкою, але все ще схоплювала корисність множини ознак. До поширених мір належать взаємна інформація,[3] поточкова взаємна інформація,[4] коефіцієнт кореляції Пірсона, Шаблон:Нп[5] та внутрішньо/міжкласова відстань або бали критеріїв значущості для кожної комбінації клас/ознака.[4][6] Фільтри зазвичай є менш напруженими обчислювально за обгортки, але вони пропонують набір ознак, що не налаштовано на конкретний тип передбачувальної моделі.[7] Цей брак налаштування означає, що набір ознак від фільтра є загальнішим за набір від обгортки, зазвичай даючи нижчу передбачувальну продуктивність, ніж обгортка. Проте такий набір ознак не містить припущень передбачувальної моделі, і тому є кориснішим для розкриття взаємозв'язків між ознаками. Багато фільтрів пропонують ранжування ознак замість явної найкращої підмножини ознак, а точку відсікання в рангу обирають за допомогою перехресного затверджування. Фільтрові методи також застосовували як передобробний етап для обгорткових методів, роблячи можливим застосування обгорток до більших задач. Одним з інших популярних підходів є алгоритм рекурсивного усунення ознак (Шаблон:Lang-en),[8] зазвичай застосовуваний з методом опорних векторів для повторної побудови моделі та усунення ознак з низькими ваговими коефіцієнтами.
- Вбудовані методи є всеосяжною групою методик, що виконують обирання ознак як частину процесу побудови моделі. Примірником цього підходу є метод побудови лінійних моделей Шаблон:Нп, який штрафує коефіцієнти регресії штрафом L1, скорочуючи багато з них до нуля. Будь-які ознаки, що мають ненульові коефіцієнти регресії, є «обраними» алгоритмом LASSO. До покращень LASSO належать Bolasso, яке бутстрепує вибірки,[9], Шаблон:Нп, яка поєднує штраф L1 LASSO із штрафом L2 гребеневої регресії, та FeaLect, яке встановлює бали всім ознакам на основі комбінаторного аналізу коефіцієнтів регресії.[10] Ці підходи з погляду обчислювальної складності тяжіють до знаходження між фільтрами та обгортками.
У традиційному регресійному аналізі найпопулярнішим видом обирання ознак є Шаблон:Нп, яка є обгортковою методикою. Це жадібний алгоритм, що під час кожного раунду додає найкращу ознаку (або видаляє найгіршу). Головним питанням у керуванні є вирішування, коли зупинити алгоритм. У машинному навчанні це зазвичай здійснюють за допомогою перехресного затверджування. У статистиці деякі критерії є оптимізованими. Це призводить до проблеми, притаманної вкладеності. Було досліджено надійніші методи, такі як гілки і межі, та кусково-лінійна мережа.
Обирання підмножин
Обирання підмножини оцінює на придатність підмножину ознак як групу. Алгоритми обирання підмножин можливо розділити на обгорткові, фільтрові та вбудовані методи. Обгорткові використовують пошуковий алгоритм для пошуку простором можливих ознак, і оцінки кожної підмножини запуском моделі на ній. Обгортки можуть бути обчислювально витратними, і мати ризик перенавчитися моделі. Фільтри є схожими на обгортки в підході до пошуку, але замість оцінки проти моделі виводять простіший фільтр. Вбудовані методики є вбудованими в модель, і особливими для моделі.
Багато популярних підходів до пошуку використовують жадібний підйом схилом, що ітеративно оцінює кандидата-підмножину ознак, а потім змінює цю підмножину й оцінює, чи є нова підмножина покращенням відносно старої. Оцінка підмножин вимагає оцінкової метрики, що реалізує градацію підмножин ознак. Вичерпний пошук в загальному випадку є непрактичним, тому на певній визначеній реалізатором (або оператором) точці зупинки підмножину ознак із найвищим знайденим до цієї точки балом обирають задовільною підмножиною ознак. Критерій зупинки залежить від алгоритму; до можливих критеріїв належать: перевищення порогу балом підмножини, перевищення максимального допустимого часу виконання програми тощо.
Альтернативні методики на основі пошуку ґрунтуються на Шаблон:Нп, який знаходить низькорозмірні проєкції даних, що мають високий бал: тоді обирають ознаки, що мають найбільші проєкції в низькорозмірному просторі.
До пошукових підходів належать:
- Вичерпний
- Перший-ліпший
- Імітація відпалу
- Генетичний алгоритм[11]
- Жадібне поступальне обирання (Шаблон:Lang-en)[12][13][14]
- Жадібне зворотне усунення (Шаблон:Lang-en)
- Метод рою часток[15]
- Шаблон:Нп
- Пошук врозсип (Шаблон:Lang-en)[16]
- Шаблон:Нп[17][18]
Двома популярними фільтровими метриками для задач класифікації є кореляція та взаємна інформація, хоча жодна з них не є справжньою метрикою, або «мірою відстані», в математичному сенсі, оскільки вони не підкоряються нерівності трикутника, і відтак не обчислюють жодної дійсної «відстані» — їх слід було би швидше розглядати як «бали». Ці бали обчислюють між ознаками-кандидатами (або наборами ознак) та бажаною категорією виходу. Проте існують і справжні метрики, що є простою функцією взаємної інформації;[19] див. тут.
До інших доступних фільтрових метрик належать:
- Віддільність класів (Шаблон:Lang-en)
- Імовірність похибки (Шаблон:Lang-en)
- Міжкласова відстань (Шаблон:Lang-en)
- Імовірнісна відстань (Шаблон:Lang-en)
- Інформаційна ентропія
- Обирання ознак на основі узгодженості (Шаблон:Lang-en)
- Обирання ознак на основі кореляції (Шаблон:Lang-en)
Критерій оптимальності
Обирання критерію оптимальності є складним, оскільки в завдання обирання ознак є кілька цілей. Багато поширених критеріїв включають міру точності, штрафовану кількістю обраних ознак. До прикладів належать інформаційний критерій Акаіке (ІКА, Шаблон:Lang-en) та Шаблон:Нп, що мають штраф у для кожної доданої ознаки. ІКА ґрунтується на теорії інформації, й практично виводиться з Шаблон:Нп.[20][21]
Іншими критеріями є баєсів інформаційний критерій (БІК, Шаблон:Lang-en), що використовує штраф у для кожної доданої ознаки, принцип мінімальної довжини опису (МДО, Шаблон:Lang-en), що асимптотично використовує , Шаблон:Нп / Шаблон:H:title (Шаблон:Lang-en), який використовує , обирання ознак максимальної залежності (Шаблон:Lang-en) та ряд нових критеріїв, обґрунтованих Шаблон:Нп (Шаблон:Lang-en), який використовує щось близьке до . Для обирання найвідповіднішої множини ознак можна також використовувати й критерій максимальної ентропійної швидкості.[22]
Навчання структури
Фільтрове обирання ознак є окремим випадком загальнішої парадигми, що називають навчанням структури. Обирання ознак знаходить доречний набір ознак для конкретної цільової змінної, тоді як навчання структури знаходить взаємозв'язки між усіма змінними, зазвичай виражаючи ці взаємозв'язки як граф. Найпоширеніші алгоритми навчання структури виходять із того, що дані було породжено баєсовою мережею, і тому структурою є орієнтована графова модель. Оптимальним розв'язком задачі фільтрового обирання ознак є марковське покриття цільового вузла, і в баєсовій мережі існує єдине марковське покриття для кожного вузла.[23]
Механізми обирання ознак на основі теорії інформації
Існують різні механізми обирання ознак, що для оцінювання різних ознак використовують взаємну інформацію. Вони зазвичай використовують один і той же алгоритм:
- Обчислити взаємну інформацію як оцінку між усіма ознаками () та цільовим класом ( )
- Обрати ознаку з найвищим балом (наприклад, ), і додати її до набору обраних ознак ()
- Обчислити похідну оцінку, яку може бути виведено із взаємної інформації
- Обрати ознаку з найвищим балом, і додати її до набору обраних ознак (наприклад, )
- Повторювати 3. та 4., допоки не буде обрано певне число ознак (наприклад, )
Найпростіший підхід як цю «похідну» оцінку використовує власне взаємну інформацію.[24]
Проте існують різні підходи, що намагаються знижувати надлишковість серед ознак.
Обирання ознак мінімальної-надлишковості-максимальної-доречності (mRMR)
Пен та ін.[25] запропонували метод обирання ознак, що може використовувати для обирання ознак або взаємну інформацію, кореляцію, або відстань/бали схожості. Мета полягає у штрафуванні доречності (Шаблон:Lang-en) ознаки її надлишковістю (Шаблон:Lang-en) в присутності інших обраних ознак. Доречність набору ознак Шаблон:Mvar для класу Шаблон:Mvar визначають усередненим значенням усіх значень взаємної інформації між окремою ознакою Шаблон:Math та класом Шаблон:Mvar таким чином:
- .
Надлишковістю всіх ознак у множині Шаблон:Mvar є усереднене значення всіх значень взаємної інформації між ознакою Шаблон:Math та ознакою Шаблон:Math:
Критерій мінімальної-надлишковості-максимальної-доречності (Шаблон:Lang-en) є поєднанням двох наведених вище мір, і його визначено наступним чином:
Припустімо, що є Шаблон:Mvar ознак повної множини. Нехай Шаблон:Math буде індикаторною функцією членства ознаки Шаблон:Math в множині, такою, що Шаблон:Math показує наявність, а Шаблон:Math показує відсутність ознаки Шаблон:Math в глобально оптимальній множині ознак. Нехай , а . Наведене вище може бути записано як задачу оптимізації:
Алгоритм mRMR є наближенням теоретично оптимального максимально-залежнісного алгоритму обирання ознак, який максимізує взаємну інформацію між спільним розподілом обраних ознак та змінною класифікації. Оскільки mRMR наближує задачу комбінаторної оцінки рядом набагато менших задач, кожна з яких включає лише дві змінні, він таким чином використовує попарні спільні ймовірності, що є надійнішими. В деяких ситуаціях цей алгоритм може недооцінювати корисність ознак, оскільки він не має способу вимірювати взаємодії між ознаками, що можуть збільшувати доречність. Це може призводити до поганої продуктивності,[24] коли ознаки є марними поодинці, але корисними у поєднанні (патологічний випадок трапляється, коли клас є Шаблон:Нп ознак). В цілому цей алгоритм є ефективнішим (у термінах кількості потрібної інформації) за теоретично оптимальне максимально-залежнісне обирання, хоча й виробляє набір ознак із невеликою попарною надлишковістю.
mRMR є примірником більшого класу фільтрових методів, які шукають компроміс між доречністю та надлишковістю відмінними шляхами.[24][26]
Обирання ознак квадратичним програмуванням
mRMR є типовим прикладом приростової жадібної стратегії обирання ознак: щойно ознаку було обрано, її не може бути виключено на пізнішому етапі. І хоча mRMR може бути оптимізовано застосуванням рухливого пошуку (Шаблон:Lang-en) для скорочування деяких ознак, його також може бути переформульовано як задачу глобальної оптимізації квадратичного програмування (Шаблон:Lang-en) таким чином:[27]
- т. щ.
де є вектором доречності ознак, за припущення, що загалом є Шаблон:Mvar ознак, є матрицею попарної надлишковості ознак, а представляє відносні ваги ознак. QPFS розв'язується за допомогою квадратичного програмування. Нещодавно було показано, що QPFS має схильність до ознак із меншою ентропією,[28] тому що воно ставить член самонадлишковості ознаки на діагональ Шаблон:Mvar.
Умовна взаємна інформація
Інша оцінка, що виводять із взаємної інформації, ґрунтується на умовній доречності:[28]
- т. щ.
де , а .
Перевага Шаблон:Math полягає в тому, що воно може розв'язуватися просто знаходженням домінантного власного вектора Шаблон:Mvar, і тому є дуже масштабовуваним. Також Шаблон:Math обробляє взаємодії ознак другого порядку.
Спільна взаємна інформація
У дослідженні різних балів Браун та ін.[24] рекомендували як добрий бал для обирання ознак Шаблон:Нпні.[29] Цей бал намагається знайти ознаку, що додає найбільше нової інформації до вже відомих ознак, щоби уникати надмірності. Цей бал сформульовано наступним чином:
Цей бал використовує Шаблон:Нп для оцінювання надмірності між вже обраними ознаками () та досліджуваною ознакою ().
Обирання ознак на основі LASSO критерію незалежності Гільберта-Шмідта
Для даних із високою розмірністю та малою вибіркою (наприклад, розмірність > 105, а кількість зразків < 103) корисним є Шаблон:Нп критерію незалежності Гільберта-Шмідта (Шаблон:Lang-en).[30] Задачу оптимізації HSIC Lasso задають як
- т. щ.
де є мірою незалежності на ядровій основі, що називають (емпіричним) критерієм незалежності Гільберта-Шмідта (Шаблон:Lang-en), позначає слід, є регуляризаційним параметром, та є центрованими матрицями Ґрама входу та виходу, та є матрицями Ґрама, та є ядровими функціями, є центрувальною матрицею, є Шаблон:Mvar-вимірною одиничною матрицею (Шаблон:Mvar — кількість зразків), є Шаблон:Mvar-вимірним вектором з усіма одиницями, а є -нормою. HSIC завжди набуває невід'ємного значення, і є нулем тоді й лише тоді, коли дві випадкові змінні є статистично незалежними при використанні універсального відтворювального ядра, такого як ґаусове.
HSIC Lasso також може бути записано як
- т. щ.
де є нормою Фробеніуса. Ця задача оптимізації є задачею Шаблон:Нп, і відтак її можливо ефективно розв'язувати передовим розв'язувачем LASSO, таким як подвійний Шаблон:Нп.
Кореляційне обирання ознак
Міра кореляційного обирання ознак (Шаблон:Lang-en) оцінює підможину ознак на основі наступної гіпотези: «Добрі підмножини ознак містять ознаки, високо корельовані з класифікацією, але некорельовані між собою».[31][32] Наступне рівняння задає якість підмножини ознак S, що складається із k ознак:
Тут є усередненим значенням усіх кореляцій ознака-класифікація, а є усередненим значенням усіх кореляцій ознака-ознака. Критерій CFS визначають наступним чином:
Змінні та називають кореляціями, але вони не обов'язково є коефіцієнтами кореляції Пірсона або ρ Спірмена. Дисертація доктора Марка Голла (Шаблон:Lang-en) не використовує жодного з цих, але використовує три відмінні міри пов'язаності, мінімальну довжину опису (Шаблон:Lang-en), симетричну невизначеність та Шаблон:Нп.
Нехай xi буде індикаторною функцією членства ознаки fi; тоді наведене вище може бути переписано як задачу оптимізації:
Комбінаторні задачі вище є, фактично, задачами змішаного двійкового лінійного програмування, які можливо розв'язувати застосуванням алгоритмів гілок та меж.[33]
Регуляризовані дерева
Ознаки з дерева або ансамблю дерев рішень виявляються надлишковими. Для обирання підмножини ознак можливо застосовувати нещодавній метод, названий регуляризованим деревом.[34] Регуляризовані дерева здійснюють штрафування, використовуючи для розділення поточного вузла змінну, подібну до змінних, вибраних на попередніх вузлах дерева. Регуляризовані дерева потребують побудови лише однієї деревної моделі (або однієї моделі ансамблю дерев), і, отже, є обчислювально ефективними.
Регуляризовані дерева природно обробляють числові та категорійні ознаки, взаємодії та нелінійності. Вони є інваріантними відносно масштабів (одиниць виміру) атрибутів та нечутливими до викидів, і, таким чином, вимагають незначної попередньої обробки даних, такої як Шаблон:Нп. Одним із типів регуляризованих дерев є регуляризований випадковий ліс (РВЛ, Шаблон:Lang-en).[35] Цей керований РВЛ є розширеним РВЛ, що керується балами важливості зі звичайного випадкового лісу.
Огляд метаевристичних методів
Метаевристика є загальним описом алгоритму, присвяченого розв'язанню складних (зазвичай, NP-складних) задач оптимізації, для яких не існує класичних методів розв'язання. Загалом, метаевристика є стохастичним алгоритмом, який веде до досягнення глобального оптимуму. Існує багато метаевристик, від простого локального пошуку, і до алгоритму складного глобального пошуку.
Головні принципи
Методи обирання ознак зазвичай представляють трьома класами на основі того, як вони поєднують алгоритм обирання та побудову моделі.
Фільтровий метод

Методи фільтрового типу обирають змінні незалежно від моделі. Вони ґрунтуються лише на загальних ознаках, таких як кореляція з передбачуваною змінною. Фільтрові методи придушують найменш цікаві змінні. Інші змінні будуть частиною моделі класифікації або регресії, яку застосовують для класифікування або передбачення даних. Ці методи є особливо ефективними з точки зору обчислювального часу, та стійкими до перенавчання.[36]
Фільтрові методи схильні обирати надлишкові змінні, коли вони не беруть до уваги взаємовідношення між змінними. Проте більш продумані функції, такі як алгоритм FCBF,[37] намагаються й мінімізують цю проблему шляхом усування сильно корельованих між собою змінних.
Обгортковий метод

Обгорткові методи оцінюють підмножини змінних, що дозволяє, на відміну від фільтрових підходів, виявляти можливі взаємодії між змінними.[38] Двома головними недоліками цих методів є:
- Підвищення ризику перенавчання за недостатньої кількості спостережень.
- Значний обчислювальний час за великої кількості змінних.
Вбудований метод

Нещодавно було запропоновано вбудовані методи, які намагаються поєднувати переваги обох попередніх методів. Алгоритм навчання отримує перевагу від свого власного процесу обирання змінних, і виконує обирання ознак та класифікування одночасно, як це робить алгоритм FRMT.[39]
Застосування метаевристик обирання ознак
Це огляд застосувань метаевристик обирання ознак, що останнім часом використовували в літературі. Цей огляд було реалізовано Дж. Геммон (Шаблон:Lang-en) в її дисертації 2013 року.[36]
| Застосування | Алгоритм | Підхід | класифікатор | Оцінна функція | Посилання |
|---|---|---|---|---|---|
| ОНП | Шаблон:H:title | Фільтр | r2 | Phuong 2005[38] | |
| ОНП | Генетичний алгоритм | Обгортка | Дерево рішень | Точність класифікації (10-кратна) | Shah 2004[40] |
| ОНП | Підйом схилом | Фільтр + обгортка | Наївний баєсів | Predicted residual sum of squares | Long 2007[41] |
| ОНП | Імітація відпалу | Наївний баєсів | Точність класифікації (5-кратна) | Ustunkar 2011[42] | |
| Мовна сегментація | Мурашиний алгоритм | Обгортка | Штучна нейронна мережа | СКП | Al-ani 2005 Шаблон:Citation needed |
| Маркетинг | Імітація відпалу | Обгортка | Регресія | ІКА, r2 | Meiri 2006[43] |
| Економіка | Імітація відпалу, генетичний алгоритм | Обгортка | Регресія | БІК | Kapetanios 2005[44] |
| Спектральна маса | Генетичний алгоритм | Обгортка | Множинна лінійна регресія, Шаблон:Нп | Шаблон:Нп передбачення | Broadhurst 2007[45] |
| Спам | Двійковий МРЧ + Шаблон:Нп | Обгортка | Дерево рішень | Зважені витрати | Zhang 2014[15] |
| Мікрочипи | Табу-пошук + МРЧ | Обгортка | Метод опорних векторів, k найближчих сусідів | Евклідова відстань | Chuang 2009[46] |
| Мікрочипи | МРЧ + генетичний алгоритм | Обгортка | Метод опорних векторів | Точність класифікації (10-кратна) | Alba 2007[47] |
| Мікрочипи | Генетичний алгоритм + Шаблон:Нп | Вбудований | Метод опорних векторів | Точність класифікації (10-кратна) | Duval 2009[48] |
| Мікрочипи | Ітеративний локальний пошук | Обгортка | Регресія | Апостеріорна ймовірність | Hans 2007[49] |
| Мікрочипи | Генетичний алгоритм | Обгортка | k найближчих сусідів | Точність класифікації (перехресне затверджування з виключенням по одному) | Jirapech-Umpai 2005[50] |
| Мікрочипи | Шаблон:Нп | Обгортка | k найближчих сусідів | Точність класифікації (перехресне затверджування з виключенням по одному) | Oh 2004[51] |
| Мікрочипи | Генетичний алгоритм | Обгортка | Метод опорних векторів | Чутливість і специфічність | Xuan 2011[52] |
| Мікрочипи | Генетичний алгоритм | Обгортка | Шаблон:H:title метод опорних векторів | Точність класифікації (перехресне затверджування з виключенням по одному) | Peng 2003[53] |
| Мікрочипи | Генетичний алгоритм | Вбудований | Метод опорних векторів | Точність класифікації (10-кратна) | Hernandez 2007[54] |
| Мікрочипи | Генетичний алгоритм | Гібридний | Метод опорних векторів | Точність класифікації (перехресне затверджування з виключенням по одному) | Huerta 2006[55] |
| Мікрочипи | Генетичний алгоритм | Метод опорних векторів | Точність класифікації (10-кратна) | Muni 2006[56] | |
| Мікрочипи | Генетичний алгоритм | Обгортка | Метод опорних векторів | EH-DIALL, CLUMP | Jourdan 2004[57] |
| Хвороба Альцгеймера | Шаблон:Нп | Фільтр | Ядровий метод опорних векторів | Точність класифікації (10-кратна) | Zhang 2015[58] |
| Комп'ютерне бачення | Шаблон:H:title | Фільтр | Незалежний | Шаблон:Нп, ППК РХП | Roffo 2015[59] |
| Мікрочипи | Шаблон:H:title | Фільтр | Незалежний | Усереднена чіткість, Точність, Шаблон:H:title | Roffo & Melzi 2016[60] |
| XML | Симетрична Тау (Шаблон:Lang-en) | Фільтр | Структурна асоціативна класифікація | Точність, Покриття | Shaharanee & Hadzic 2014 |
Обирання ознак, вбудоване до алгоритмів навчання
Деякі алгоритми навчання виконують обирання ознак як частину своєї загальної роботи. До них належать:
- Методики Шаблон:Tmath-регуляризації, такі як розріджена регресія, Шаблон:Нп, та Шаблон:Tmath-МОВ
- Регуляризовані дерева,[34] наприклад, регуляризований випадковий ліс, втілений у пакеті RRF[35]
- Дерева рішень[61]
- Шаблон:Нп
- Шаблон:Нп (Шаблон:Lang-en)
- Автокодувальні мережі з рівнем — вузьким місцем
- Шаблон:Нп обирання ознак[62][63][64]
- Обирання ознак на основі локального навчання.[65] В порівнянні з традиційними методами, він не передбачає жодного евристичного пошуку, може легко впоруватися з полікласовими задачами, і працює як для лінійних, так і для нелінійних задач. Він також підтримується сильним теоретичним підґрунтям. Чисельні експерименти показали, що цей метод може досягати близького до оптимального розв'язку навіть коли дані містять понад мільйон недоречних ознак.
Див. також
- Кластерний аналіз
- Добування даних
- Зниження розмірності
- Виділяння ознак
- Оптимізація гіперпараметрів
- Шаблон:Нп
Примітки
Література
- Шаблон:Citation Шаблон:Ref-en
- Шаблон:Citation Шаблон:Ref-en
- Special Issue on Variable and Feature Selection —Journal of Machine Learning Research (2003) Шаблон:Ref-en
- An Introduction to Variable and Feature Selection (огляд) Шаблон:Ref-en
- Toward integrating feature selection algorithms for classification and clustering (огляд) Шаблон:Ref-en
- Efficient Feature Subset Selection and Subset Size Optimization (огляд 2010 року) Шаблон:Ref-en
- "Searching for Interacting Features" —Zhao & Liu, представлена на IJCAI (2007) Шаблон:Ref-en
Посилання
- Пакет обирання ознак, Університет штату Аризона (код Matlab)
- Змагання NIPS 2003 року (див. також Шаблон:Нп)
- Реалізація наївного баєсового класифікатора із обиранням ознак на Visual Basic (включає виконуваний та джерельний код)
- Програма обирання ознак мінімальної-надлишковості-максимальної-доречності (minimum-redundancy-maximum-relevance, mRMR)
- FEAST (відкриті алгоритми обирання ознак на C та MATLAB)
- Шаблон:Cite web
- ↑ Шаблон:Cite book Шаблон:Ref-en
- ↑ 2,0 2,1 Шаблон:Cite journal Шаблон:Ref-en
- ↑ 3,0 3,1 Шаблон:Cite journal Шаблон:Ref-en
- ↑ 4,0 4,1 Шаблон:Cite conference Шаблон:Ref-en
- ↑ Шаблон:Cite arxiv Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ Шаблон:Cite book Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ Шаблон:Cite conference Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ 15,0 15,1 Шаблон:Cite journal Шаблон:Ref-en
- ↑ F.C. Garcia-Lopez, M. Garcia-Torres, B. Melian, J.A. Moreno-Perez, J.M. Moreno-Vega. Solving feature subset selection problem by a Parallel Scatter Search, European Journal of Operational Research, vol. 169, no. 2, pp. 477–489, 2006. Шаблон:Ref-en
- ↑ F.C. Garcia-Lopez, M. Garcia-Torres, B. Melian, J.A. Moreno-Perez, J.M. Moreno-Vega. Solving Feature Subset Selection Problem by a Hybrid Metaheuristic Шаблон:Webarchive. In First International Workshop on Hybrid Metaheuristics, pp. 59–68, 2004. Шаблон:Ref-en
- ↑ M. Garcia-Torres, F. Gomez-Vela, B. Melian, J.M. Moreno-Vega. High-dimensional feature selection via feature grouping: A Variable Neighborhood Search approach, Information Sciences, vol. 326, pp. 102-118, 2016. Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ Шаблон:Citation. Шаблон:Ref-en
- ↑ Шаблон:Citation. Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ 24,0 24,1 24,2 24,3 Шаблон:Cite journal[1] Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en Програма
- ↑ Nguyen, H., Franke, K., Petrovic, S. (2010). "Towards a Generic Feature-Selection Measure for Intrusion Detection", In Proc. International Conference on Pattern Recognition (ICPR), Istanbul, Turkey. [2] Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ 28,0 28,1 Nguyen X. Vinh, Jeffrey Chan, Simone Romano and James Bailey, "Effective Global Approaches for Mutual Information based Feature Selection". Proceedings of the 20th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD'14), August 24–27, New York City, 2014. "[3]" Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ M. Yamada, W. Jitkrittum, L. Sigal, E. P. Xing, M. Sugiyama, High-Dimensional Feature Selection by Feature-Wise Non-Linear Lasso. Neural Computation, vol.26, no.1, pp.185-207, 2014. Шаблон:Ref-en
- ↑ M. Hall 1999, Correlation-based Feature Selection for Machine Learning Шаблон:Ref-en
- ↑ Senliol, Baris, et al. "Fast Correlation Based Filter (FCBF) with a different search strategy." Computer and Information Sciences, 2008. ISCIS'08. 23rd International Symposium on. IEEE, 2008. [4] Шаблон:Ref-en
- ↑ Hai Nguyen, Katrin Franke, and Slobodan Petrovic, Optimizing a class of feature selection measures, Proceedings of the NIPS 2009 Workshop on Discrete Optimization in Machine Learning: Submodularity, Sparsity & Polyhedra (DISCML), Vancouver, Canada, December 2009. [5] Шаблон:Ref-en
- ↑ 34,0 34,1 H. Deng, G. Runger, "Feature Selection via Regularized Trees Шаблон:Webarchive", Proceedings of the 2012 International Joint Conference on Neural Networks (IJCNN), IEEE, 2012 Шаблон:Ref-en
- ↑ 35,0 35,1 RRF: Regularized Random Forest, пакет R на CRAN Шаблон:Ref-en
- ↑ 36,0 36,1 J. Hammon. Optimisation combinatoire pour la sélection de variables en régression en grande dimension : Application en génétique animale. November 2013 Шаблон:Ref-fr
- ↑ Шаблон:Cite web Шаблон:Ref-en
- ↑ 38,0 38,1 T. M. Phuong, Z. Lin et R. B. Altman. Choosing SNPs using feature selection. Шаблон:Webarchive Proceedings / IEEE Computational Systems Bioinformatics Conference, CSB. IEEE Computational Systems Bioinformatics Conference, pages 301-309, 2005. Шаблон:PMID. Шаблон:Ref-en
- ↑ Saghapour E, Kermani S, Sehhati M (2017) A novel feature ranking method for prediction of cancer stages using proteomics data. PLOS ONE 12(9): e0184203. https://doi.org/10.1371/journal.pone.0184203 Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ G. Ustunkar, S. Ozogur-Akyuz, G. W. Weber, C. M. Friedrich et Yesim Aydin Son. Selection of representative SNP sets for genome-wide association studies : a metaheuristic approach. Optimization Letters, November 2011. Шаблон:Ref-en
- ↑ R. Meiri et J. Zahavi. Using simulated annealing to optimize the feature selection problem in marketing applications. European Journal of Operational Research, vol. 171, no. 3, pages 842-858, Juin 2006 Шаблон:Ref-en
- ↑ G. Kapetanios. Variable Selection using Non-Standard Optimisation of Information Criteria. Working Paper 533, Queen Mary, University of London, School of Economics and Finance, 2005. Шаблон:Ref-en
- ↑ D. Broadhurst, R. Goodacre, A. Jones, J. J. Rowland et D. B. Kell. Genetic algorithms as a method for variable selection in multiple linear regression and partial least squares regression, with applications to pyrolysis mass spectrometry. Analytica Chimica Acta, vol. 348, no. 1-3, pages 71-86, August 1997. Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ E. Alba, J. Garia-Nieto, L. Jourdan et E.-G. Talbi. Gene Selection in Cancer Classification using PSO-SVM and GA-SVM Hybrid Algorithms. Шаблон:Webarchive Congress on Evolutionary Computation, Singapor : Singapore (2007), 2007 Шаблон:Ref-en
- ↑ B. Duval, J.-K. Hao et J. C. Hernandez Hernandez. A memetic algorithm for gene selection and molecular classification of an cancer. In Proceedings of the 11th Annual conference on Genetic and evolutionary computation, GECCO '09, pages 201-208, New York, NY, USA, 2009. ACM. Шаблон:Ref-en
- ↑ C. Hans, A. Dobra et M. West. Shotgun stochastic search for 'large p' regression. Journal of the American Statistical Association, 2007. Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ J. C. H. Hernandez, B. Duval et J.-K. Hao. A genetic embedded approach for gene selection and classification of microarray data. In Proceedings of the 5th European conference on Evolutionary computation, machine learning and data mining in bioinformatics, EvoBIO'07, pages 90-101, Berlin, Heidelberg, 2007. SpringerVerlag. Шаблон:Ref-en
- ↑ E. B. Huerta, B. Duval et J.-K. Hao. A hybrid GA/SVM approach for gene selection and classification of microarray data. evoworkshops 2006, LNCS, vol. 3907, pages 34-44, 2006. Шаблон:Ref-en
- ↑ D. P. Muni, N. R. Pal et J. Das. Genetic programming for simultaneous feature selection and classifier design. IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics : Cybernetics, vol. 36, no. 1, pages 106-117, February 2006. Шаблон:Ref-en
- ↑ L. Jourdan, C. Dhaenens et E.-G. Talbi. Linkage disequilibrium study with a parallel adaptive GA. International Journal of Foundations of Computer Science, 2004. Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en
- ↑ Шаблон:Cite book Шаблон:Ref-en
- ↑ Шаблон:Cite web Шаблон:Ref-en
- ↑ R. Kohavi and G. John, "Wrappers for feature subset selection", Шаблон:Нп 97.1-2 (1997): 273-324 Шаблон:Ref-en
- ↑ Шаблон:Cite arxiv Шаблон:Ref-en
- ↑ Liu et al, Submodular feature selection for high-dimensional acoustic score spaces Шаблон:Webarchive Шаблон:Ref-en
- ↑ Zheng et al, Submodular Attribute Selection for Action Recognition in Video Шаблон:Webarchive Шаблон:Ref-en
- ↑ Y. Sun, S. Todorovic, S. Goodison (2010), "Local-Learning-Based Feature Selection for High-Dimensional Data Analysis", Шаблон:Нп, 32(9): 1610-1626 Шаблон:Ref-en