Машинне навчання
Шаблон:Короткий опис Шаблон:Про Шаблон:Redirect Шаблон:Машинне навчання Шаблон:Штучний інтелект (бічна панель)
Маши́нне навча́ння (МН, Шаблон:Lang-en) — це галузь досліджень штучного інтелекту, зосереджена на розробці та вивченні Шаблон:Нп, здатних навчатися з даних і узагальнюватися на небачені дані, й відтак виконувати завдання без явних інструкцій.Шаблон:Refn Породжувальні штучні нейронні мережі нещодавно змогли перевершити за продуктивністю багато попередніх підходів.[1][2]
Підходи машинного навчання застосовували до багатьох галузей, серед яких великі мовні моделі, комп'ютерне бачення, розпізнавання мовлення, фільтрування електронної пошти, сільське господарство та медицина, де розробка алгоритмів для виконання необхідних завдань була би занадто витратною.[3][4] МН відоме у своєму застосуванні в комерційних задачах під назвою «Шаблон:Нп». Хоч і не все машинне навчання ґрунтується на статистиці, Шаблон:Нп є важливим джерелом методів цієї галузі.
Математичні основи МН забезпечують методи математичної оптимізації (математичного програмування). Добування даних (Шаблон:Lang-en) — це пов'язане (паралельне) поле досліджень, зосереджене на розвідувальному аналізі даних через некероване навчання.Шаблон:Refn[5] З точки зору теорії, систему для опису машинного навчання забезпечує імовірно приблизно коректне навчання.
Історія та зв'язки з іншими галузями
Термін «машинне навчання» (Шаблон:Lang-en) запровадив 1959 року Артур Семюель, працівник IBM та піонер у галузі комп'ютерних ігор та штучного інтелекту.[6][7] В цей період також використовували й синонім самонавчальні комп'ютери (Шаблон:Lang-en).[8][9]
Хоч найранішу модель машинного навчання й представили в 1950-х роках, коли Артур Семюель винайшов програму, що обчислювала шанси на перемогу в шашках для кожної зі сторін, історія машинного навчання сягає десятиліть людського бажання й зусиль досліджувати людські когнітивні процеси.[10] 1949 року канадський психолог Дональд Гебб опублікував книгу «Шаблон:Нп», в якій він запропонував теоретичну нейронну структуру, утворювану певними взаємодіями нейронів.[11] Геббова модель взаємодії нейронів між собою заклала основу того, як працюють алгоритми ШІ та машинного навчання на рівні вузлів, або штучних нейронів, які комп'ютери використовують для передавання даних.[10] Інші дослідники, які досліджували людські когнітивні системи, також зробили свій внесок до сучасних технологій машинного навчання, серед них логік Шаблон:Нп та Воррен Маккалох, які запропонували ранні математичні моделі нейронних мереж для розробки алгоритмів, що імітують процеси людського мислення.[10]
На початку 1960-х років компанія Raytheon розробила експериментальну «самонавчальну машину» (Шаблон:Lang-en) з пам'яттю на перфострічці під назвою «Кібертрон» (Шаблон:Lang-en) для аналізу гідроакустичних сигналів, електрокардіограм та зразків мовлення за допомогою зародкового навчання з підкріпленням. Людина-оператор/вчитель циклічно «тренувала» її розпізнавати закономірності за допомогою кнопки «ляп» (Шаблон:Lang-en), щоби змушувати переоцінювати неправильні рішення.[12] Репрезентативною книгою про дослідження машинного навчання в 1960-х роках була книга Нільссона про самонавчальні машини, присвячена переважно машинному навчанню для класифікування образів.[13] Зацікавлення, пов'язане з розпізнаванням образів, тривало і в 1970-х роках, як описано Дудою та Гартом 1973 року.[14] 1981 року було зроблено доповідь про використання стратегій навчання, щоби нейронна мережа навчилася розпізнавати 40 символів (26 літер, 10 цифр та 4 спеціальні символи) з комп'ютерного терміналу.[15]
Том Мітчелл надав широко цитоване, формальніше визначення алгоритмів, досліджуваних у галузі машинного навчання: «Кажуть, що комп'ютерна програма вчиться з досвіду E щодо деякого класу завдань T та міри продуктивності P, якщо її продуктивність у завданнях з T, вимірювана P, покращується з досвідом E.»[16] Це визначення завдань, що стосуються машинного навчання, пропонує принципово операційне визначення, замість визначання цієї галузі в когнітивних термінах. Це відповідає пропозиції Алана Тюрінга в його статті «Шаблон:Нп», в якій питання «Чи можуть машини мислити?» замінюється запитанням «Чи можуть машини робити те, що можемо робити ми (як мислячі істоти)?».[17]
Сучасне машинне навчання має дві мети: одна — класифікувати дані на основі розроблених моделей, інша — передбачувати майбутні результати на основі цих моделей. Гіпотетичний алгоритм для класифікування даних може використовувати бачення комп'ютером родимок у поєднанні з керованим навчанням, щоби навчити його класифікувати ракові родимки. Алгоритм машинного навчання для біржової торгівлі може інформувати трейдера про майбутні потенційні прогнози.[18]
Штучний інтелект

Як науковий напрям, машинне навчання виросло з пошуків штучного інтелекту (ШІ, Шаблон:Lang-en). В часи юності ШІ як академічної дисципліни деякі дослідники були зацікавлені в тому, щоби машини навчалися з даних. Вони намагалися підійти до цієї задачі різними символьними методами, а також тим, що згодом назвали «нейронними мережами», — це були здебільшого перцептрони та інші моделі, які пізніше виявилися перевинаходами Шаблон:Нп статистики.[20] Застосовували також і ймовірнісне міркування, особливо в Шаблон:Нп.[21]Шаблон:Rp
Проте посилення акценту на Шаблон:Нп, спричинило розрив між ШІ та машинним навчанням. Імовірнісні системи страждали на теоретичні та практичні проблеми збирання та подання даних.[21]Шаблон:Rp Близько 1980 року прийшли експертні системи, щоби домінувати над ШІ, а статистика була в немилості.[22] Робота над навчанням на основі символів/знань таки продовжувалася в межах ШІ, ведучи до Шаблон:Нп, але статистичніший напрямок досліджень був тепер за межами області власне ШІ, у розпізнаванні образів та інформаційному пошуку.[21]Шаблон:Rp Приблизно в цей же час ШІ та інформатикою було облишено дослідження нейронних мереж. Цей напрямок також було продовжено за межами області ШІ/інформатики, як «конекціонізм», дослідниками з інших дисциплін, включно з Гопфілдом, Румельхартом та Гінтоном. Їхній головний успіх прийшов у середині 1980-х років із повторним винайденням зворотного поширення.[21]Шаблон:Rp
Машинне навчання (МН), реорганізоване та визнане як окрема галузь, почало процвітати в 1990-х роках. Ця галузь змінила свою мету з досягнення штучного інтелекту на розв'язання розв'язних задач практичного характеру. Вона змістила фокус із Шаблон:Нп, успадкованих нею від ШІ, в бік методів та моделей, запозичених зі статистики, нечіткої логіки та теорії ймовірностей.[22]
Добування даних
Машинне навчання та добування (розро́блення) даних часто використовують одні й ті ж методи, і значно перекриваються, але в той час як машинне навчання зосереджується на передбачуванні на основі відомих властивостей, вивчених із тренувальних даних, добування (розро́блення) даних зосереджується на відкриванні невідомих (раніше) властивостей в даних (це крок аналізу відкривання знань у базах даних). Добування даних використовує багато методів машинного навчання, але з іншими цілями; з іншого боку, машинне навчання також використовує методи добування даних як «некероване навчання» або як крок попередньої обробки для покращення точності механізму навчання. Велика частина плутанини між цими двома дослідницькими спільнотами (які часто мають окремі конференції та окремі журнали, з Шаблон:Нп як основним винятком) виходить з основних припущень, з якими вони працюють: у машинному навчанні продуктивність зазвичай оцінюють з огляду на здатність відтворювати відомі знання, тоді як у відкриванні знань та добуванні даних (Шаблон:Lang-en) ключовим завданням є відкриття раніше невідомих знань. При оцінюванні відносно відомих знань неінформований (некерований) метод легко програватиме іншим керованим методам, тоді як у типовому завданні KDD використовувати керовані методи неможливо через відсутність тренувальних даних.
Машинне навчання також має тісні зв'язки з оптимізацією: багато задач навчання формулюють як мінімізацію деякої функції втрат на тренувальному наборі прикладів. Функції втрат виражають розбіжність між передбаченнями тренованої моделі та дійсними примірниками задачі (наприклад, у класифікуванні потрібно призначувати мітки зразкам, і моделі тренуються правильно передбачувати попередньо призначені мітки набору прикладів).[23]
Узагальнювання
Відмінність між оптимізацією та машинним навчанням постає через мету Шаблон:Нп: в той час як алгоритми оптимізації можуть мінімізувати втрати на тренувальному наборі, машинне навчання займається мінімізуванням втрат на небачених зразках. Характеризування узагальнювання різних алгоритмів навчання це активна тема поточних досліджень, особливо для алгоритмів глибокого навчання.
Статистика
Машинне навчання та статистика — це тісно пов'язані галузі з погляду методів, але відмінні у своїй головній меті: статистика робить висновки про загальну сукупність із вибірки, тоді як машинне навчання знаходить узагальнювальні передбачувальні схеми.[24] За словами Шаблон:Нп, ідеї машинного навчання, від методологічних принципів до теоретичних інструментів, мали довгу передісторію в статистиці.[25] Він також запропонував для позначення всеосяжної галузі термін «наука про дані» (Шаблон:Lang-en).[25]
Традиційний статистичний аналіз вимагає апріорного вибору моделі, яка найбільше підходить для набору даних дослідження. Крім того, до аналізу залучають лише суттєві та теоретично доречні змінні на основі попереднього досвіду. Машинне навчання, навпаки, не будується на попередньо структурованій моделі; скоріше, це дані формують модель, виявляючи закономірності, що лежать у їхній основі. Що більше змінних (входів) використовують для тренування моделі, то точнішою буде остаточна модель.[26]
Шаблон:Нп виділив дві парадигми статистичного моделювання: модель даних, та алгоритмічну модель,[27] де «алгоритмічна модель» (Шаблон:Lang-en) означає більш-менш алгоритми машинного навчання, такі як випадковий ліс.
Деякі фахівці зі статистики перейняли методи з машинного навчання, що призвело до об'єднаної області, яку вони називають статистичним навчанням (Шаблон:Lang-en).[28]
Статистична фізика
Аналітичні та обчислювальні методики, що походять з глибоко вкоріненої фізики невпорядкованих систем, можливо поширювати на великомасштабні задачі, включно з машинним навчанням, наприклад, для аналізу простору ваг глибоких нейронних мереж.[29] Статистична фізика відтак знаходить застосування в галузі медичної діагностики.[30]
Шаблон:ЯкірецьТеорія
Центральна мета системи, яка навчається, — це робити узагальнення зі свого досвіду.[31][32] Узагальнення в цьому контексті — це здатність машини, що вчиться, працювати точно на нових, небачених прикладах/завданнях після отримання досвіду навчального набору даних. Тренувальні приклади походять з якогось загалом невідомого розподілу ймовірності (який вважають представницьким для простору випадків), і система, що вчиться, має побудувати загальну модель цього простору, яка дозволяє їй виробляти достатньо точні передбачення в нових випадках.
Обчислювальний аналіз алгоритмів машинного навчання та їхньої продуктивності — це розділ теоретичної інформатики, знаний як Шаблон:Нп через модель імовірно приблизно коректного навчання (Шаблон:Lang-en). Оскільки тренувальні набори скінченні, а майбутнє непевне, теорія навчання зазвичай не дає гарантій продуктивності алгоритмів. Натомість доволі поширені ймовірнісні рамки продуктивності. Одним зі способів кількісного оцінювання похибки узагальнювання є розклад на зміщення та дисперсію (Шаблон:Lang-en).
Для найкращої продуктивності в контексті узагальнювання складність гіпотези повинна відповідати складності функції, що лежить в основі даних. Якщо гіпотеза менш складна, ніж ця функція, то модель недостатньо допасувалася до даних. Якщо у відповідь складність моделі підвищувати, то похибка тренування знижуватиметься. Але якщо гіпотеза занадто складна, то модель піддається перенавчанню, й узагальнення буде гіршим.[33]
На додачу до рамок продуктивності, теоретики навчання досліджують часову складність та здійсненність навчання. В теорії обчислювального навчання обчислення вважають здійсненним, якщо його можливо виконати за поліноміальний час. Існує два види результатів часової складності: Позитивні результати показують, що певного класу функцій може бути навчено за поліноміальний час. Негативні результати показують, що певних класів за поліноміальний час навчено бути не може.
Підходи
Шаблон:Якірець Підходи машинного навчання традиційно поділяють на три великі категорії, які відповідають парадигмам навчання, залежно від природи «сигналу» або «зворотного зв'язку», доступного системі навчання:
- Кероване навчання[34][35][36] (Шаблон:Lang-en): комп'ютер знайомлять зі зразками входів та їхніх бажаних виходів, наданих «вчителем», а метою є навчитися загального правила, яке Шаблон:Нп входи на виходи.
- Некероване навчання[34][35][37][36] (Шаблон:Lang-en): алгоритмові навчання не надають міток, залишаючи йому самостійно знаходити структуру у вході. Некероване навчання може бути метою саме по собі (виявляння прихованих закономірностей у даних), або засобом досягнення мети (навчання ознак).
- Навчання з підкріпленням[38] (Шаблон:Lang-en): комп'ютерна програма взаємодіє з динамічним середовищем, у якому вона мусить виконувати певну мету (наприклад, керувати транспортним засобом або грати у гру проти суперника). З переміщенням у просторі задачі, програмі надають зворотний зв'язок, аналогічний винагородам, які вона намагається максимізувати.[31]
Хоча переваги й обмеження має кожен з алгоритмів, жоден алгоритм не працює для всіх задач.[39][40][41]
Кероване навчання

Алгоритми керованого навчання[34][35][36] (Шаблон:Lang-en) будують математичну модель набору даних, який містить як входи, так і бажані виходи.[42] Такі дані знані як тренувальні дані, й складаються з набору тренувальних прикладів. Кожен тренувальний приклад має один або кілька входів та бажаний вихід, відомий також як керівний сигнал (Шаблон:Lang-en). У математичній моделі кожен тренувальний приклад подано масивом, або вектором, який іноді називають вектором ознак, а тренувальні дані подано матрицею. Завдяки ітераційній оптимізації цільової функції алгоритми керованого навчання навчаються функції, яку можливо використовувати для передбачування виходу, пов'язаного з новими входами.[43] Оптимальна функція дозволяє алгоритмові правильно визначати вихід для входів, які не були частиною тренувальних даних. Кажуть, що алгоритм, який з часом удосконалює точність своїх виходів або передбачень, навчився виконувати це завдання.[16]
До типів алгоритмів керованого навчання належать Шаблон:Нп, класифікування та регресія.[44] Алгоритми класифікування використовують, коли виходи обмежено вузьким набором значень, а алгоритми регресії використовують, коли виходи можуть мати будь-яке числове значення в межах якогось діапазону. Як приклад, для алгоритму класифікування, який фільтрує електронні листи, входом буде вхідний електронний лист, а виходом — назва теки, до якої потрібно цей електронний лист зберегти.
Шаблон:Нп (Шаблон:Lang-en) — це галузь керованого машинного навчання, тісно пов'язана з регресією та класифікуванням, але яка має на меті вчитися з прикладів, використовуючи функцію подібності, що вимірює, наскільки схожі або пов'язані два об'єкти. Воно має застосування в ранжуванні, рекомендаційних системах, візуальному відстежуванні ідентичності, перевірці облич та перевірці мовця.
Некероване навчання
Алгоритми некерованого навчання[34][35][37][36] (Шаблон:Lang-en) знаходять структури в даних, які не було мічено, класифіковано чи категоризовано. Замість реагувати на зворотний зв'язок, алгоритми некерованого навчання встановлюють спільні риси в даних і реагують на наявність або відсутність таких спільних рис у кожній новій одиниці даних. До основних застосувань некерованого машинного навчання належать кластерування, знижування розмірності[5] та оцінювання густини.[45] Алгоритми некерованого навчання також оптимізували процес встановлювання великих Шаблон:Нп потрібного гена з Шаблон:Нп на основі Шаблон:Нп.[46]

Кластерний аналіз (Шаблон:Lang-en) — це розподіл набору спостережень на підмножини (звані кластерами), щоби спостереження в одному кластері були подібними відповідно до одного або кількох заздалегідь встановлених критеріїв, тоді як спостереження, взяті з різних кластерів, були несхожими. Різні методики кластерування роблять різні припущення щодо структури даних, які часто визначають деякою мірою подібності (Шаблон:Lang-en) та оцінюють, наприклад, за внутрішньою компактністю (Шаблон:Lang-en), або подібністю членів одного кластера, та відокремленістю (Шаблон:Lang-en), різницею між кластерами. Інші методи ґрунтуються на оцінюваній густині (Шаблон:Lang-en) та графовій зв'язності (Шаблон:Lang-en).
Напівкероване навчання
Напівкероване навчання[34][36] (Шаблон:Lang-en) перебуває між некерованим навчанням (без будь-яких мічених тренувальних даних) та керованим навчанням (з повністю міченими тренувальними даними). Деякі тренувальні приклади позбавлені тренувальних міток, але багато дослідників машинного навчання виявили, що немічені дані, якщо їх використовувати разом із невеликою кількістю мічених даних, можуть значно підвищувати точність навчання.
У слабокерованім навчанні[47] тренувальні мітки зашумлені, обмежені або неточні; проте ці мітки часто дешевше отримувати, що дає більші ефективні тренувальні набори.[48]
Навчання з підкріпленням
Навчання з підкріпленням[38] (Шаблон:Lang-en) — це галузь машинного навчання, пов'язана з тим, як програмні агенти повинні виконувати дії в середовищі, щоби максимізувати певне уявлення про сукупну винагороду. Завдяки її загальності цю галузь вивчають у багатьох інших дисциплінах, таких як теорія ігор, теорія керування, дослідження операцій, теорія інформації, оптимізація на основі моделювання, багатоагентні системи, ройовий інтелект, статистика та генетичні алгоритми. У навчанні з підкріпленням середовище зазвичай подають як марковський процес вирішування (МПВ, Шаблон:Lang-en). Багато алгоритмів навчання з підкріпленням використовують методики динамічного програмування.[49] Алгоритми навчання з підкріпленням не виходять зі знання точної математичної моделі МПВ, і їх використовують, коли точні моделі недосяжні. Алгоритми навчання з підкріпленням використовують в автономних транспортних засобах та в навчанні гри проти людини-супротивника.
Знижування розмірності
Знижування розмірності (Шаблон:Lang-en) — це процес зниження кількості випадкових змінних, які розглядають, шляхом отримання набору провідних змінних (Шаблон:Lang-en).[50] Іншими словами, це процес зниження розмірності набору ознак, яку також називають «кількістю ознак» (Шаблон:Lang-en). Більшість методик знижування розмірності можливо розглядати як усунення або виділяння ознак. Одним із популярних методів знижування розмірності є метод головних компонент (МГК, Шаблон:Lang-en). МГК включає перенесення даних більшої розмірності (наприклад, тривимірних) до меншого простору (наприклад, двовимірного). Це дає меншу розмірність даних (двовимірні замість тривимірних), зберігаючи всі первинні змінні в моделі без зміни даних.[51] Шаблон:Нп пропонує ідею розташування багатовимірних наборів даних уздовж низьковимірних многовидів, і багато методик знижування розмірності виходять із цього припущення, що веде до області Шаблон:Нп та Шаблон:Нп.
Інші види
Було розроблено й інші підходи, які не вписуються в ці три категорії, й іноді одна система машинного навчання використовує декілька з них. Наприклад, тематичне моделювання, метанавчання.[52]
Самонавчання
Самонавчання (Шаблон:Lang-en), як парадигму машинного навчання, було запропоновано 1982 року разом із нейронною мережею, здатною до самонавчання, яка отримала назву поперечинного адаптивного масиву (ПАМ, Шаблон:Lang-en).[53] Це навчання без зовнішніх винагород і без зовнішніх порад вчителя. Алгоритм самонавчання ПАМ обчислює, поперечинним чином, як рішення щодо дій, так і емоції (почуття) щодо наслідкових ситуацій. Ця система керується взаємодією між пізнанням та емоціями.[54]
Алгоритм самонавчання уточнює матрицю пам'яті W =||w(a, s)||, виконуючи в кожній ітерації наступну процедуру машинного навчання:
- у ситуації s виконати дію a
- отримати наслідкову ситуацію s'
- обчислити емоції перебування в наслідковій ситуації v(s')
- уточнити поперечинну пам'ять w'(a, s) = w(a, s) + v(s')
Це система лише з одним входом, ситуацією, та лише одним виходом, дією (або поведінкою) a. Немає ані окремого введення підкріплення, ані введення поради від середовища. Поширюване зворотно значення (вторинне підкріплення, Шаблон:Lang-en) — це емоція щодо наслідкової ситуації. ПАМ існує у двох середовищах: одне — це поведінкове середовище, в якому вона поводиться, а інше — це генетичне середовище, звідки вона спочатку й лише один раз отримує початкові емоції щодо ситуацій, з якими можливо зіткнутися в поведінковому середовищі. Після отримання геномного (видового) вектора з генетичного середовища ПАМ навчається цілеспрямованої поведінки в середовищі, що містить як бажані, так і небажані ситуації.[55]
Навчання ознак
Кілька алгоритмів навчання спрямовано на виявляння кращих подань даних входу, які надходять під час тренування.[56] До класичних прикладів належать метод головних компонент і кластерний аналіз. Алгоритми навчання ознак (Шаблон:Lang-en), також звані алгоритмами навчання подань (Шаблон:Lang-en), часто намагаються зберігати інформацію своїх вхідних даних, але також перетворювати її таким чином, щоби робити її корисною, часто як етап попередньої обробки перед виконанням класифікування або передбачень. Ця методика уможливлює відбудовування даних входу, що надходять із невідомого розподілу, який породжує ці дані, не обов'язково дотримуючись конфігурацій, неправдоподібних для цього розподілу. Це замінює конструювання ознак вручну та дозволяє машині як навчатися ознак, так і використовувати їх для виконання конкретного завдання.
Навчання ознак може бути керованим або некерованим. У керованім навчанні ознак їх навчають з використанням мічених даних входу. До прикладів належать штучні нейронні мережі, багатошарові перцептрони та кероване Шаблон:Нп. При некерованім навчанні ознак їх навчають неміченими даними входу. До прикладів належать навчання словників, Шаблон:Нп, автокодувальники, розкладання матриць[57] та різні види кластерування.[58][59][60]
Алгоритми Шаблон:Нп намагаються робити це за обмеження, щоби навчене подання мало низьку розмірність. Алгоритми розрідженого кодування намагаються робити це за обмеження, щоби навчене подання було розрідженим, тобто щоби математична модель містила багато нулів. Алгоритми Шаблон:Нп спрямовано на навчання подань низької розмірності безпосередньо з тензорних подань для багатовимірних даних без переформовування їх у вектори вищої розмірності.[61] Алгоритми глибокого навчання виявляють декілька рівнів подання, або ієрархію ознак із абстрактнішими ознаками вищого рівня, визначеними в термінах ознак нижчого рівня (або породжуваними ними). Стверджували, що розумна машина — це така, що навчається подання, яке розплутує чинники мінливості (Шаблон:Lang-en), що лежить в основі даних, які пояснюють спостережувані дані.[62]
Навчання ознак спонукається фактом, що завдання машинного навчання, такі як класифікування, часто вимагають даних входу, математично та обчислювально зручних для обробки. Проте дані реального світу, такі як зображення, відео та давачеві дані, не піддалися спробам визначити конкретні ознаки алгоритмічно. Альтернативою є виявляти такі ознаки або подання шляхом дослідження, не покладаючись на явні алгоритми.
Навчання розріджених словників
Навчання розріджених словників (Шаблон:Lang-en) — це метод навчання ознак, у якому тренувальний приклад подають лінійною комбінацією базисних функцій і вважають розрідженою матрицею. Цей метод Шаблон:Нп і його важко розв'язувати наближено.[63] Популярний евристичний метод навчання розріджених словників — алгоритм Шаблон:Нп (Шаблон:Lang-en). Навчання розріджених словників застосовували в кількох контекстах. У класифікуванні задача полягає у визначенні класу, до якого належить раніше небачений тренувальний приклад. Для словника, де кожен клас уже побудовано, новий тренувальний приклад пов'язується з класом, у словнику якого його розріджено подано найкраще. Навчання розріджених словників також застосовували для знешумлювання зображень. Ключова ідея полягає в тому, що чистий клаптик зображення може бути розріджено подано словником зображень, а шум — ні.[64]
Виявляння аномалій
У добуванні даних виявляння аномалій (Шаблон:Lang-en), відоме також як виявляння викидів (Шаблон:Lang-en), — це встановлювання рідкісних елементів, подій або спостережень, що викликають підозри, значно відрізняючись від більшості даних.[65] Зазвичай аномальні елементи подають такі проблеми як Шаблон:Нп, структурний дефект, медичні проблеми або помилки в тексті. Аномалії називають викидами (Шаблон:Lang-en), новизною (Шаблон:Lang-en), шумом, відхиленнями або винятками.[66]
Зокрема, в контексті виявляння зловживань і мережних вторгнень цікаві об'єкти це часто не рідкісні об'єкти, а несподівані сплески бездіяльності. Ця особливість поведінки не відповідає загальноприйнятому статистичному визначенню викиду як рідкісного об'єкта. Багато методів виявляння викидів (зокрема, некеровані алгоритми) дадуть збій на таких даних, якщо їх не агрегувати належним чином. Натомість алгоритм кластерного аналізу може виявити мікрокластери, утворені цими особливостями поведінки.[67]
Існує три великі категорії методик виявляння аномалій.[68] Методики некерованого виявляння аномалій виявляють аномалії в неміченому наборі випробувальних даних за припущення, що більшість примірників у наборі даних нормальні, шляхом пошуку примірників, які видаються найменш допасованими до решти набору даних. Методики керованого виявляння аномалій вимагають набору даних, мічених як «нормально» й «ненормально», і залучають навчання класифікатора (ключова відмінність від багатьох інших задач статистичного класифікування полягає в незбалансованій природі виявляння викидів). Методики напівкерованого виявляння аномалій створюють модель, що подає нормальну поведінку, на основі заданого нормального набору тренувальних даних, а потім перевіряють правдоподібність створення моделлю випробувального примірника.
Навчання роботів
Навчання роботів натхнено безліччю методів машинного навчання, починаючи від керованого навчання, навчання з підкріпленням,[69][70] і закінчуючи метанавчанням (наприклад, моделеагностичним метанавчанням, МАМН, Шаблон:Lang-en).
Асоціативні правила
Навчання асоціативних правил (Шаблон:Lang-en) — це метод машинного навчання на основі правил для виявляння взаємозв'язків між змінними у великих базах даних. Його призначено для визначання сильних правил, виявлених у базах даних, з використанням певної міри «цікавості» (Шаблон:Lang-en).[71]
Машинне навчання на основі правил (Шаблон:Lang-en) — це загальний термін для будь-якого методу машинного навчання, який встановлює, вивчає або виводить «правила» для зберігання, маніпулювання або застосування знань. Визначальною характеристикою алгоритму машинного навчання на основі правил є встановлювання та використання набору реляційних правил, які сукупно подають вловлені системою знання. Це відмінність від інших алгоритмів машинного навчання, які зазвичай визначають одиничну модель, яку можливо універсально застосовувати до будь-якого примірника, щоби зробити передбачення.[72] До підходів машинного навчання на основі правил належать Шаблон:Нп, навчання асоціативних правил та штучні імунні системи.
Ґрунтуючись на понятті сильних правил, Шаблон:Нп, Шаблон:Нп та Арун Свамі запровадили асоціативні правила для виявляння закономірностей між продуктами у великомасштабних даних транзакцій, записаних системами Шаблон:Нп у супермаркетах.[73] Наприклад, правило , знайдене в даних про продажі супермаркету, вказуватиме на те, що якщо клієнт купує разом цибулю та картоплю, він, імовірно, купить також і м'ясо для гамбургерів. Таку інформацію можливо використовувати як основу для ухвалення рішень щодо маркетингових заходів, таких як рекламні ціни чи розміщення продукції. На додачу до Шаблон:Нп, асоціативні правила сьогодні застосовують у таких сферах застосування як розроблення веб-користування (Шаблон:Lang-en), виявляння вторгнень, безперервне виробництво та біоінформатика. На відміну від Шаблон:Нп (Шаблон:Lang-en), навчання асоціативних правил зазвичай не враховує порядок елементів у транзакції чи між транзакціями.
Системи навчання класифікаторів (Шаблон:Lang-en) — це сімейство алгоритмів машинного навчання на основі правил, які поєднують відкривальну складову, зазвичай генетичний алгоритм, з навчальною складовою, що виконує кероване навчання, навчання з підкріпленням або некероване навчання. Вони прагнуть встановити набір контекстнозалежних правил, які сукупно зберігають та застосовують знання кусковим чином, щоб робити передбачення.[74]
Шаблон:Нп (ІЛП, Шаблон:Lang-en) — це підхід до навчання правил із застосуванням логічного програмування як універсального подання вхідних прикладів, базових знань та гіпотез. Маючи кодування відомих базових знань та набору прикладів, поданих як логічна база даних фактів, система ІЛП виводитиме гіпотетичну логічну програму, яка має наслідками всі позитивні приклади й жодного з негативних. Шаблон:Нп (Шаблон:Lang-en) — це споріднена галузь, у якій для подання гіпотез розглядають будь-які мови програмування (а не лише логічне програмування), наприклад, функційні програми.
Індуктивне логічне програмування особливо корисне в біоінформатиці та обробці природної мови. Шаблон:Нп та Шаблон:Нп заклали початкову теоретичну основу для індуктивного машинного навчання в логічній постановці.[75][76][77] 1981 року Шапіро створив своє перше втілення (систему висновування моделей, Шаблон:Lang-en): програму мовою Пролог, яка індуктивно висновувала логічні програми з позитивних та негативних прикладів.[78] Термін індуктивний тут стосується філософської індукції, що пропонує теорію для пояснення спостережуваних фактів, а не математичної індукції, що доводить якусь властивість для всіх членів добре впорядкованої множини.
Моделі
Виконання машинного навчання може передбачувати створення моделі, яка тренується на деяких тренувальних даних, а потім може обробляти додаткові дані для передбачування. Для систем машинного навчання використовували та досліджували різні типи моделей.
Штучні нейронні мережі

Штучні нейронні мережі (ШНМ, Шаблон:Lang-en), або конекціоністські системи, це обчислювальні системи, дещо натхненні біологічними нейронними мережами, які складають мозок тварин. Такі системи «вчаться» виконувати завдання, розглядаючи приклади, як правило, без програмування будь-якими специфічними для завдань правилами.
ШНМ — це модель, що ґрунтується на сукупності з'єднаних вузлів, званих «штучними нейронами» (Шаблон:Lang-en), які в загальних рисах моделюють нейрони біологічного мозку. Кожне з'єднання, як синапси в біологічному мозку, може передавати інформацію, «сигнал», від одного штучного нейрона до іншого. Штучний нейрон, який отримує сигнал, може обробити його, а потім сигналізувати додатковим штучним нейронам, з якими його з'єднано. У звичайних втіленнях ШНМ сигнал на з'єднанні між штучними нейронами це дійсне число, а вихід кожного штучного нейрона обчислюється деякою нелінійною функцією суми його входів. З'єднання між штучними нейронами називають «ребрами» (Шаблон:Lang-en). Штучні нейрони та ребра зазвичай мають Шаблон:Нп (Шаблон:Lang-en), яка підлаштовується в перебігу навчання. Вага підвищує або знижує силу сигналу на з'єднанні. Штучні нейрони можуть мати поріг, такий, що сигнал надсилається лише тоді, коли сукупний сигнал долає цей поріг. Як правило, штучні нейрони впорядковують у шари (Шаблон:Lang-en). Різні шари можуть виконувати різні види перетворень своїх входів. Сигнали проходять від першого шару (рівень входу) до останнього (рівень виходу), можливо, після кількаразового проходження шарів.
Первинна мета підходу ШНМ полягала в розв'язуванні задач так само, як це робив би людський мозок. Проте з часом увага перемістилася на виконання конкретних завдань, що призвело до відхилень від біології. Штучні нейронні мережі використовували для багатьох завдань, включно з комп'ютерним баченням, розпізнаванням мовлення, машинним перекладом, фільтруванням соціальних мереж, Шаблон:Нп, та медичним діагностуванням.
Глибоке навчання (Шаблон:Lang-en) складається з численних прихованих шарів у штучній нейронній мережі. Цей підхід намагається змоделювати те, як людський мозок перетворює світло та звук у бачення та слух. Серед успішних застосувань глибокого навчання — комп'ютерне бачення та розпізнавання мовлення.[79]
Дерева рішень

Навчання дерев рішень (Шаблон:Lang-en) використовує дерево рішень як передбачувальну модель для переходу від спостережень про об'єкт (поданих у гілках) до висновків щодо цільового значення для об'єкта (поданих у листках). Це один із підходів до передбаувального моделювання, який використовують у статистиці, добуванні даних та машинному навчанні. Деревні моделі, де цільова змінна може набувати дискретного набору значень, називають класифікаційними деревами (Шаблон:Lang-en); у цих деревних структурах листки подають мітки класів, а гілки подають кон'юнкції ознак, які ведуть до цих міток класів. Дерева рішень, де цільова змінна може набувати неперервних значень (зазвичай дійсних чисел), називають регресійними деревами (Шаблон:Lang-en). В аналізі рішень дерево рішень можливо використовувати для візуального та явного подання рішень та ухвалення рішень. В добуванні даних дерево рішень описує дані, але отримане класифікаційне дерево може бути входом для ухвалювання рішень.
Опорновекторні машини
Опорновекторні машини (ОВМ, Шаблон:Lang-en), також знані як опорновекторні мережі (Шаблон:Lang-en) та метод опорних векторів, — це набір пов'язаних методів керованого навчання, які використовують для класифікування та регресії. Маючи набір тренувальних прикладів, кожен з яких позначено як належний до однієї з двох категорій, алгоритм тренування ОВМ будує модель, яка передбачує, чи належить новий приклад до однієї категорії.[80] Алгоритм тренування ОВМ — неймовірнісний бінарний лінійний класифікатор, хоча існують такі методи, як Шаблон:Нп, для використання ОВМ у постановці ймовірнісного класифікування. На додачу до виконання лінійного класифікування, ОВМ можуть ефективно виконувати нелінійне класифікування з використанням так званого ядрового трюку, що неявно відображує їхні входи до просторів ознак високої розмірності.
Регресійний аналіз

Регресійний аналіз (Шаблон:Lang-en) охоплює великий спектр статистичних методів для оцінювання зв'язку між вхідними змінними та пов'язаними з ними ознаками. Його найпоширенішим видом є лінійна регресія, де малюється одна лінія, яка найкраще допасовується до заданих даних відповідно до математичного критерію, такого як Шаблон:Нп. Останній часто розширюють за допомогою методів регуляризації, щоби пом'якшувати надмірне допасовування та зміщення, як у гребеневій регресії. Коли йдеться про нелінійні задачі, до основних моделей належать поліноміальна регресія (наприклад, вживана для допасовування лінії тренду в Microsoft Excel[81]), логістична регресія (часто вживана у статистичному класифікуванні), або навіть ядрова регресія, яка запроваджує нелінійність, користуючись ядровим трюком для неявного відображення вхідних змінних до простору вищої розмірності.
Баєсові мережі

Баєсова мережа (Шаблон:Lang-en), мережа переконань (Шаблон:Lang-en) або орієнтована ациклічна графова модель (Шаблон:Lang-en) — це ймовірнісна графова модель, яка подає набір випадкових величин та їхніх Шаблон:Нп за допомогою орієнтованого ациклічного графа (ОАГ, Шаблон:Lang-en). Наприклад, баєсова мережа може подавати ймовірнісні зв'язки між захворюваннями та симптомами. За наявних симптомів цю мережу можливо використовувати для обчислення ймовірності наявності різних захворювань. Існують ефективні алгоритми, які виконують висновування й навчання. Баєсові мережі, що моделюють послідовності змінних, наприклад, сигнали мовлення або білкові послідовності, називають динамічними баєсовими мережами. Узагальнення баєсових мереж, які можуть подавати й розв'язувати задачі ухвалювання рішень в умовах невизначеності, називають Шаблон:Нп.
Гауссові процеси

Гауссів процес (Шаблон:Lang-en) — це стохастичний процес, у якому кожна скінченна сукупність випадкових змінних у процесі має багатовимірний нормальний розподіл, і він ґрунтується на попередньо визначеній Шаблон:Нп, або ядрі (Шаблон:Lang-en), яке моделює, як пари точок співвідносяться одна з одною залежно від їхнього місцезнаходження.
За заданого набору спостережених точок, або прикладів входів—виходів, розподіл (неспостережуваного) виходу нової точки як функцію її вхідних даних можливо безпосередньо обчислити, дивлячись на спостережені точки та коваріації між цими точками та новою, небаченою точкою.
Гауссові процеси це популярні сурогатні моделі в баєсовій оптимізації, які використовують, щоби оптимізувати гіперпараметри.
Генетичні алгоритми
Генетичний алгоритм (ГА, Шаблон:Lang-en) — це алгоритм пошуку та евристична методика, яка імітує процес природного добору, використовуючи такі методи як Шаблон:Нп та схрещування, щоби створювати нові генотипи у надії знайти добрі розв'язки певної задачі. У машинному навчанні генетичні алгоритми використовували в 1980—1990-х роках.[83][84] І навпаки, методики машинного навчання використовували, щоби покращувати продуктивність генетичних та еволюційних алгоритмів.[85]
Функції переконань
Теорія функцій переконань (Шаблон:Lang-en), звана також теорією свідчень (Шаблон:Lang-en) та теорією Демпстера — Шафера, — це загальна система для міркувань із невизначеністю, зі зрозумілими зв'язками з іншими системами, такими як імовірність, можливість та Шаблон:Нп. Ці теоретичні системи можливо розглядати як свого роду навчальний механізм, вони можуть мати деякі подібні властивості щодо того, як поєднуються свідчення (наприклад, правило поєднування Демпстера), точно як поєднував би ймовірності баєсів підхід на основі функцій маси ймовірності.Шаблон:Прояснити Проте існує багато застережень до цих функцій переконань при порівнянні з баєсовими підходами з метою включення необізнаності та Шаблон:Нп. Ці підходи функцій переконань, які втілюють у галузі машинного навчання, зазвичай використовують підхід злиття різних ансамблевих методів, щоби краще впоруватися з Шаблон:Нп, недостатніми вибірками та проблемами нечіткості класів, з якими стандартний підхід машинного навчання, як правило, має складнощі.[2][4][7] Проте обчислювальна складність цих алгоритмів залежить від кількості суджень (класів), і може призводити до значно більшого обчислювального часу порівняно з іншими підходами машинного навчання.
Тренування моделей
Як правило, щоби могти здійснювати точні прогнози, моделі машинного навчання вимагають великої кількості надійних даних. При тренуванні моделі машинного навчання інженерам машинного навчання потрібно намітити та зібрати велику та репрезентативну вибірку даних. Дані тренувального набору можуть мати різний характер, такий як корпус текстів, набір зображень, даних давачів чи даних, зібраних з окремих користувачів служби. При тренуванні моделі машинного навчання слід пильнувати перенавчання. Натреновані моделі, отримані з упереджених або неоцінених даних, можуть призводити до викривлених або небажаних передбачень. Упереджені моделі можуть призводити до шкідливих результатів, відтак посилюючи негативний вплив на суспільство та цілі. Потенційним результатом того, що дані не було повністю підготовлено для навчання, може ставати Шаблон:Нп. Етика машинного навчання стає галуззю дослідження, помітно інтегрованою в командах інженерів машинного навчання.
Федеративне навчання
Федеративне навчання (Шаблон:Lang-en) — це пристосована форма Шаблон:Нп для тренування моделей машинного навчання, яка децентралізує процес тренування, дозволяючи підтримувати конфіденційність користувачів, не надсилаючи їхні дані до централізованого сервера. Це також підвищує ефективність завдяки децентралізації процесу тренування на багатьох пристроях. Наприклад, Gboard використовує федеративне машинне навчання для тренування моделей передбачування пошукових запитів на мобільних телефонах користувачів без необхідності надсилати окремі пошукові запити назад до Google.[86]
Застосування
Існує багато застосувань машинного навчання, зокрема:
- Шаблон:Нп
- Шаблон:Нп
- Аналіз поведінки користувачів
- Аналіз тональності тексту
- Аналіз фінансових ринків[87]
- Шаблон:Нп
- Шаблон:Нп
- Банківська діяльність
- Біоінформатика
- Біхевіоризм
- Виявляння Шаблон:Нп
- Виявляння шахрайств із кредитними картками
- Шаблон:Нп
- Громадянська наука
- Доведення теорем
- Економіка
- Шаблон:Нп
- Інтернет-реклама
- Інформаційний пошук
- Шаблон:Нп
- Класифікування послідовностей ДНК
- Кліматологія
- Комп'ютерне бачення
- Шаблон:Нп
- Шаблон:Нп
- Маркетинг
- Шаблон:Нп
- Машинний переклад
- Шаблон:Нп
- Мовознавство
- Нейрокомп'ютерні інтерфейси
- Обробка природної мови
- Оптимізація
- Шаблон:Нп
- Шаблон:Нп
- Пошукові системи
- Прогнозування часових рядів
- Програмна інженерія
- Рекомендаційні системи
- Розпізнавання мовлення
- Розпізнавання рукописного введення
- Шаблон:Нп
- Розуміння природної мови
- Шаблон:Нп
- Сільське господарство
- Страхування
- Телекомунікації
- Шаблон:Нп[88]
- Шаблон:Нп
- Хемоінформатика
- Шаблон:Нп
2006 року провайдер медіапослуг Netflix провів перше змагання «Шаблон:Нп», щоби знайти програму, яка би краще передбачувала вподобання користувачів та підвищила точність наявного алгоритму порад фільмів Cinematch щонайменше на 10 %. Спільна команда, що складалася з дослідників з AT&T Labs-Research у співпраці з командами Big Chaos та Pragmatic Theory, створила Шаблон:Нп, отримавши 2009 року головний приз сумою 1 мільйон доларів.[89] Невдовзі після вручення нагороди Netflix зрозуміли, що оцінки глядачів — не найкращий показник їхніх моделей перегляду («усе є порадою»), й вони змінили свій механізм порад відповідним чином.[90] 2010 року The Wall Street Journal писала про фірму Rebellion Research та її використання машинного навчання для прогнозування фінансової кризи.[91] 2012 року співзасновник Sun Microsystems Шаблон:Нп зробив прогноз, що в найближчі два десятиліття 80 % робочих місць лікарів буде втрачено на користь автоматизованого медичного діагностичного програмного забезпечення з машинним навчанням.[92] 2014 року було повідомлено, що алгоритм машинного навчання було застосовано в галузі історії мистецтва для вивчення образотворчого живопису і що він, можливо, виявив раніше невизнані впливи серед художників.[93] 2019 року Springer Nature опублікував першу дослідницьку книгу, створену за допомогою машинного навчання.[94] 2020 року технологію машинного навчання використовували, щоби допомогти дослідникам ставити діагнози й розробляти ліки від COVID-19.[95] Нещодавно машинне навчання було застосовано для прогнозування проекологічної поведінки мандрівників.[96] Нещодавно технологію машинного навчання було також застосовано для оптимізації продуктивності та теплової поведінки смартфонів на основі взаємодії користувача з телефоном.[97][98][99] За правильного застосування алгоритми машинного навчання (АМН) можуть використовувати широкий спектр характеристик компаній для прогнозування доходів від акцій без перенавчання. Використовуючи ефективне конструювання ознак та поєднуючи прогнози, АМН можуть породжувати результати, що значно перевершують отримувані за допомогою базових лінійних методик, як-от Шаблон:Нп.[100]
Обмеження
Попри те, що машинне навчання змінило деякі сфери, програми машинного навчання часто не дають очікуваних результатів.[101][102][103] Причин для цього багато: брак (придатних) даних, брак доступу до даних, упередженість даних, проблеми конфіденційності, неправильно обрані завдання й алгоритми, неправильні інструменти та люди, брак ресурсів і проблеми з оцінюванням.[104]
Ще один значний виклик становить «теорія чорної скриньки». Чорна скринька стосується ситуації, коли алгоритм або процес створення результату повністю непрозорий, що означає, що навіть розробники алгоритму не можуть перевірити закономірність, виділену машиною з даних.[105] Спеціальний комітет Палати лордів, який стверджував, що така «система інтелекту», яка може мати «суттєвий вплив на життя людини», не вважатиметься прийнятною, якщо вона не надаватиме «повного та задовільного пояснення рішень, які вона ухвалює».[105]
2018 року безпілотний автомобіль від Uber не зміг виявити пішохода, який загинув після зіткнення.[106] Спроби використати машинне навчання в охороні здоров'я за допомогою системи IBM Watson не увінчалися успіхом навіть після багатьох років і мільярдів доларів інвестицій.[107][108] Чатбот Microsoft звинувачували у створенні ворожих та образливих відповідей на звернення його користувачів.[109]
Машинне навчання використовували як стратегію для уточнення свідчень, пов'язаних із систематичним рецензуванням і збільшенням навантаження на рецензентів у зв'язку зі збільшенням біомедичної літератури. Хоча воно покращилося за допомогою тренувальних наборів, воно ще не розвинувся достатньо, щоби зменшити робоче навантаження без обмеження необхідної чутливості для самих досліджень результатів.[110]
Упередження
Підходи машинного навчання, зокрема, можуть страждати від різних упереджень даних (Шаблон:Lang-en). Система машинного навчання, натренована конкретно на поточних клієнтах, може виявитися нездатною передбачити потреби нових груп клієнтів, не поданих у тренувальних даних. При навчанні на створених людьми даних машинне навчання цілком може підхопити конституційні та несвідомі упередження, які вже присутні в суспільстві.[111]
Було показано, що мовні моделі, навчені з даних, містять людські упередження.[112][113] В експерименті, який провела ProPublica, журналістська розслідувальська організація, розуміння алгоритму машинного навчання щодо рівнів рецидивізму ув'язнених неправильно мітило «чорношкірих обвинувачених як високоризикових удвічі частіше, ніж білошкірих».[114] 2015 року Google на фотографіях часто позначувала темношкірих людей як горил,[114] і 2018 року це все ще не було розв'язано як слід, а, як було повідомлено, Google натомість використовувала обхідний шлях, усуваючи всіх горил із тренувальних даних, і тому була взагалі нездатна розпізнати справжніх горил.[115] Подібні проблеми з розпізнаванням небілих людей було виявлено в багатьох інших системах.[116] 2016 року Microsoft протестувала чат-бота, який навчався з Twitter, і він швидко підхопив расистську та сексистську мову.[117]
Через такі виклики ефективне використання машинного навчання в деяких областях може вимагати тривалішого пристосовування.[118] Занепокоєння щодо Шаблон:Нп у машинному навчанні, тобто зменшення упередженості в машинному навчанні та сприяння його використанню для блага людини, все частіше висловлюють науковці зі штучного інтелекту, зокрема Фей-Фей Лі, яка нагадує інженерам, що «У ШІ немає нічого штучного… Він натхненний людьми, він створений людьми, і, що найважливіше, він впливає на людей. Це потужний інструмент, який ми лише починаємо розуміти, і це велика відповідальність.»[119]
Поясненність
Поясне́нний ШІ (Шаблон:Lang-en), або інтерпретовний ШІ (Шаблон:Lang-en), або поясненне машинне навчання (Шаблон:Lang-en), — це штучний інтелект (ШІ), в якому люди можуть розуміти рішення або передбачення, зроблені цим ШІ.[120] Це контрастує з концепцією «чорної скриньки» в машинному навчанні, де навіть її розробники не можуть пояснити, чому ШІ прийшов до певного рішення.[121] Удосконалюючи ментальні моделі користувачів систем на основі ШІ та руйнуючи їхні хибні уявлення, поясненний ШІ обіцяє допомогти користувачам діяти ефективніше. Поясненний ШІ може бути втіленням соціального права на пояснення.
Перенавчання

Схиляння до поганої, переускладненої теорії, схибленої таким чином, щоби відповідати всім минулим тренувальним даним, називають перенавчанням. Багато систем намагаються знижувати перенавчання, винагороджуючи теорію відповідно до того, наскільки добре вона допасовується до даних, але штрафуючи теорію відповідно до того, наскільки вона складна.Шаблон:Sfn
Інші обмеження та вразливості
Учні також можуть розчаровувати, «вивчивши не той урок». Іграшковий приклад: класифікатор зображень, навчений лише на зображеннях коричневих коней і чорних котів, може зробити висновок, що всі коричневі плями, ймовірно, є кіньми.Шаблон:Sfn Приклад із реального світу полягає в тому, що, на відміну від людей, сучасні класифікатори зображень часто роблять висновки не на основі просторових відносин між складовими зображення, а навчаються зв'язків між пікселями, яких люди не помічають, але які все одно корелюють із зображеннями окремих видів реальних об'єктів. Зміна цих візерунків на законному зображенні може призвести до «змагальних» (Шаблон:Lang-en) зображень, які система класифікує неправильно.[122][123]
Змагальні вразливості також можуть виникати в нелінійних системах або випливати з нешаблонних збурень. Для деяких систем можливо змінити вихід, змінивши лише один змагально обраний піксель.[124] Моделі машинного навчання часто вразливі до маніпуляцій та/або ухилення через Шаблон:Нп.[125]
Дослідники продемонстрували, як можливо непомітно розміщувати чорні ходи в класифікувальних (наприклад, дописів як «спам» та добре видимих «не спам») моделей машинного навчання, які часто розробляють та/або тренують треті сторони. Сторони можуть змінити класифікацію будь-якого входу, зокрема у випадках, для яких забезпечується певний тип Шаблон:Нп, можливо, включно з доступом до білої скриньки.[126][127][128]
Оцінювання моделей
Класифікацію моделей машинного навчання можливо затверджувати за допомогою методик оцінювання точності, таких як метод притримування (Шаблон:Lang-en), який розбиває дані на тренувальний та випробувальний набори (зазвичай 2/3 тренувального набору та 1/3 випробувального) й оцінює продуктивність тренованої моделі на випробувальному наборі. Для порівняння, метод K-кратного перехресного затверджування (Шаблон:Lang-en) випадковим чином розбиває дані на K підмножин, а потім виконує K експериментів, кожен відповідно з 1 підмножиною для оцінювання та рештою K-1 підмножин для тренування моделі. На додачу до методів притримування та перехресного затверджування, для оцінювання точності моделі можливо використовувати натяжку (Шаблон:Lang-en), яка вибирає з набору даних n примірників із заміною.[129]
На додачу до загальної точності (Шаблон:Lang-en), дослідники часто повідомляють чутливість та специфічність (Шаблон:Lang-en), що означають істиннопозитивний рівень (ІПР, Шаблон:Lang-en) та істиннонегативний рівень (ІНР, Шаблон:Lang-en) відповідно. Аналогічно, дослідники іноді повідомляють хибнопозитивний рівень (ХПР, Шаблон:Lang-en), а також хибнонегативний рівень (ХНР, Шаблон:Lang-en). Проте ці рівні це відношення, які не розкривають своїх чисельників та знаменників. Одним з ефективних методів вираження діагностичної спроможності моделі є Шаблон:Нп (ЗРХ, Шаблон:Lang-en). ЗРХ показує чисельники та знаменники зазначених вище рівнів, таким чином, ЗРХ надає більше інформації, ніж загальновживана робоча характеристика приймача (РХП, Шаблон:Lang-en) та пов'язана з РХП площа під цією кривою (ППК, Шаблон:Lang-en).[130]
Етика
Машинне навчання ставить безліч етичних питань. Системи, треновані на наборах даних, зібраних з упередженнями, можуть проявляти ці упередження при використанні (Шаблон:Нп), оцифровуючи таким чином культурні забобони.[131] Наприклад, 1988 року британська комісія з питань расової рівності виявила, що медична школа св. Георгія використовувала комп'ютерну програму, натреновану на основі даних попереднього персоналу приймальної комісії, й ця програма відмовила майже 60 кандидатам, які були або жінками, або мали неєвропейські імена.[111] Використання даних про наймання на роботу від фірми з расистською політикою найму може призвести до того, що система машинного навчання дублюватиме цю упередженість, оцінюючи претендентів на посаду за схожістю з попередніми успішними кандидатами.[132][133] Ще один приклад містить передбачувальний алгоритм передбачувального поліцейського патрулювання компанії Шаблон:Нп, який призвів до «непропорційно високого рівня надмірного поліцейського контролю у бідних спільнотах та спільнотах меншин» після тренування на історичних даних про злочинність.[114]
В той час як відповідальне збирання даних та документування алгоритмічних правил, які використовує система, вважають критично важливою частиною машинного навчання, деякі дослідники звинувачують у вразливості машинного навчання до упереджень брак участі та представництва меншин у галузі ШІ.[134] Справді, за дослідженням, проведеним Асоціацією досліджень у галузі обчислень (Шаблон:Lang-en) 2021 року, «жіночий факультет складає лише 16,1 %» усіх членів факультету, які зосереджуються на ШІ у декількох університетах світу.[135] Крім того, серед групи «нових резидентів США, випускників докторантур ШІ» 45 % ідентифікували себе як білі, 22,4 % як азіати, 3,2 % як іспанці, і 2,4 % як афроамериканці, що додатково демонструє відсутність різноманітності у галузі ШІ.[135]
ШІ може бути добре оснащеним для ухвалювання рішень у технічних сферах, які значною мірою покладаються на дані та історичну інформацію. Ці рішення спираються на об'єктивність і логічну аргументацію.[136] Оскільки людські мови містять упередження, машини, навчені на мовних корпусах текстів, обов'язково також навчаться цих упереджень.[137][138]
Інші види етичних викликів, не пов'язаних з особистими упередженнями, спостерігаються в охороні здоров'я. Серед медичних працівників є занепокоєння, що ці системи може бути розроблено не в інтересах суспільства, а як машини для отримування доходу.[139] Особливо це стосується Сполучених Штатів, де існує давня етична дилема щодо покращення охорони здоров'я, але також і збільшення прибутків. Наприклад, алгоритми може бути розроблено для виписування пацієнтам непотрібних тестів або ліків, у яких власники алгоритму мають частку. В машинного навчання в охороні здоров'я існує потенціал надати фахівцям додатковий інструмент для діагностування, лікування та планування шляхів одужання пацієнтів, але для цього потрібно пом'якшувати ці упередження.[140]
Апаратне забезпечення
Починаючи з 2010-х років прогрес як в алгоритмах машинного навчання, так і в комп'ютерному обладнанні призвів до появи ефективніших методів тренування глибоких нейронних мереж (особливої вузької підобласті машинного навчання), які містять багато шарів нелінійних прихованих вузлів.[141] До 2019 року графічні процесори (ГП), часто зі спеціальними вдосконаленнями для ШІ, витіснили ЦП як панівний метод тренування великомасштабного комерційного хмарного ШІ.[142] OpenAI оцінила апаратні обчислення, які використовували в найбільших проєктах глибокого навчання, від AlexNet (2012), і до AlphaZero (2017), і виявила 300 000-кратне збільшення необхідного обсягу обчислень із тенденцією подвоєння часу кожні 3,4 місяці.[143][144]
Нейроморфні/фізичні нейронні мережі
Шаблон:Нп (Шаблон:Lang-en) або нейроморфний комп'ютер (Шаблон:Lang-en) — це один із видів штучних нейронних мереж, у якому використовують електрично підлаштовуваний матеріал для імітування функціювання нейронного синапса. Термін «фізична» нейронна мережа використовують, щоби підкреслити залежність від фізичного апаратного забезпечення, яке використовують для імітування нейронів, на противагу до програмних підходів. Загальніше цей термін застосовний і до інших штучних нейронних мереж, у яких використовують мемристор або інший електрично підлаштовуваний опірний матеріал, щоб імітувати нейронний синапс.[145][146]
Вбудовуване машинне навчання
Вбудоване машинне навчання (Шаблон:Lang-en) — це підгалузь машинного навчання, де модель машинного навчання працює на вбудованих системах з обмеженими обчислювальними ресурсами, як-от носимих комп'ютерах, Шаблон:Нп та мікроконтролерах.[147][148][149] Експлуатація моделі машинного навчання у вбудованих пристроях усуває необхідність передавання й зберігання даних на хмарних серверах для подальшої обробки, відтак зменшуючи виривання даних та протікання конфіденційності, що відбуваються через передавання даних, а також зводить до мінімуму крадіжку інтелектуальної власності, особистих даних та комерційних таємниць. Вбудовуване машинне навчання можливо застосовувати за допомогою кількох методик, включно з апаратним прискоренням,[150][151] використанням Шаблон:Нп,[152] оптимізуванням моделей машинного навчання та багатьма іншими.[153][154]
Програмне забезпечення
До програмних пакетів, що містять різноманітні алгоритми машинного навчання, належать наступні:
Вільне та відкрите програмне забезпеченняШаблон:Якірець
- Caffe
- Deeplearning4j
- Шаблон:Нп
- Шаблон:Нп
- Шаблон:Нп
- Шаблон:Нп
- Keras
- Шаблон:Нп
- Шаблон:Нп
- Шаблон:Нп
- Шаблон:Нп
- Microsoft Cognitive Toolkit
- Шаблон:Нп
- Шаблон:Нп
- MXNet
- Шаблон:Нп
- Шаблон:Нп
- pandas
- ROOT (TMVA з ROOT)
- scikit-learn
- Шаблон:Нп
- Spark MLlib
- Шаблон:Нп
- TensorFlow
- Torch / PyTorch
- Weka / Шаблон:Нп
- XGBoost
- Шаблон:Нп
Власницьке програмне забезпечення з вільними або відкритими редакціями
Власницьке програмне забезпечення
- Amazon Machine Learning
- Шаблон:Нп KnowledgeSTUDIO
- Azure Machine Learning
- Шаблон:Нп
- Шаблон:Нп
- Шаблон:Нп
- Шаблон:Нп
- KXEN Modeler
- Шаблон:Нп
- Mathematica
- MATLAB
- Шаблон:Нп
- Шаблон:Нп
- Шаблон:Нп
- Шаблон:Нп
- Шаблон:Нп
- Шаблон:Нп
- Шаблон:Нп
- Шаблон:Нп
- Splunk
- STATISTICA Data Miner
Журнали
- «Journal of Machine Learning Research»
- «Machine Learning»
- «Nature Machine Intelligence»
- «Шаблон:Нп»
- «Шаблон:Нп»
Конференції
- Шаблон:Нп
- Шаблон:Нп (Шаблон:Lang-en)
- Шаблон:Нп (Шаблон:Lang-en)
- Шаблон:Нп (Шаблон:Lang-en)
- Шаблон:Нп (Шаблон:Lang-en)
- Міжнародна конференція з навчання подань (Шаблон:Lang-en)
- Шаблон:Нп (Шаблон:Lang-en)
- Шаблон:Нп (Шаблон:Lang-en)
- Шаблон:Нп (Шаблон:Lang-en)
Див. також
- Автоматизоване машинне навчання — процес автоматизації машинного навчання
- Великі дані — інформаційні ресурси, характеризовані великим обсягом, швидкістю та різноманіттям
- Шаблон:Нп — парадигма програмування
- Квантове машинне навчання
- Шаблон:Нп
- Шаблон:Нп
- Список наборів даних для досліджень з машинного навчання — OAIS 2.0
Примітки
Джерела
Література
- Nils J. Nilsson, Introduction to Machine Learning Шаблон:Webarchive. Шаблон:Ref-en
- Шаблон:Нп, Шаблон:Нп and Шаблон:Нп (2001). The Elements of Statistical Learning Шаблон:Webarchive, Springer. Шаблон:ISBN. Шаблон:Ref-en
- Шаблон:Нп (September 2015), Шаблон:Нп, Basic Books, Шаблон:ISBN Шаблон:Ref-en
- Ian H. Witten and Eibe Frank (2011). Data Mining: Practical machine learning tools and techniques Morgan Kaufmann, 664pp., Шаблон:ISBN. Шаблон:Ref-en
- Ethem Alpaydin (2004). Introduction to Machine Learning, MIT Press, Шаблон:ISBN. Шаблон:Ref-en
- Шаблон:Нп. Information Theory, Inference, and Learning Algorithms Шаблон:Webarchive Cambridge: Cambridge University Press, 2003. Шаблон:ISBN Шаблон:Ref-en
- Шаблон:Нп, Шаблон:Нп, David G. Stork (2001) Pattern classification (2nd edition), Wiley, New York, Шаблон:ISBN. Шаблон:Ref-en
- Шаблон:Нп (1995). Neural Networks for Pattern Recognition, Oxford University Press. Шаблон:ISBN. Шаблон:Ref-en
- Stuart Russell & Peter Norvig, (2009). Artificial Intelligence – A Modern Approach Шаблон:Webarchive. Pearson, Шаблон:ISBN. Шаблон:Ref-en
- Шаблон:Нп, An Inductive Inference Machine, IRE Convention Record, Section on Information Theory, Part 2, pp., 56–62, 1957. Шаблон:Ref-en
- Шаблон:Нп, An Inductive Inference Machine Шаблон:Webarchive A privately circulated report from the 1956 Шаблон:Нп. Шаблон:Ref-en
- Kevin P. Murphy (2021). Probabilistic Machine Learning: An Introduction Шаблон:Webarchive, MIT Press. Шаблон:Ref-en
Посилання
- Шаблон:Wikiquote-inline
- Міжнародна спільнота машинного навчання Шаблон:Ref-en
- mloss — академічна база даних відкритого програмного забезпечення для машинного навчання. Шаблон:Ref-en
Шаблон:Диференційовні обчислення Шаблон:Інформатика Шаблон:Бібліоінформація
- ↑ Шаблон:Cite web
- ↑ 2,0 2,1 Шаблон:Cite web
- ↑ Шаблон:Cite journal
- ↑ 4,0 4,1 Шаблон:Cite journal
- ↑ 5,0 5,1 Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ 7,0 7,1 R. Kohavi and F. Provost, "Glossary of terms", Machine Learning, vol. 30, no. 2–3, pp. 271–274, 1998. Шаблон:Ref-en
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite journal
- ↑ 10,0 10,1 10,2 Шаблон:Cite web
- ↑ Шаблон:Cite journal
- ↑ "Science: The Goof Button", Time (magazine), 18 August 1961. Шаблон:Ref-en
- ↑ Nilsson N. Learning Machines, McGraw Hill, 1965. Шаблон:Ref-en
- ↑ Duda, R., Hart P. Pattern Recognition and Scene Analysis, Wiley Interscience, 1973 Шаблон:Ref-en
- ↑ S. Bozinovski "Teaching space: A representation concept for adaptive pattern classification" COINS Technical Report No. 81-28, Computer and Information Science Department, University of Massachusetts at Amherst, MA, 1981. https://web.cs.umass.edu/publication/docs/1981/UM-CS-1981-028.pdf Шаблон:Webarchive Шаблон:Ref-en
- ↑ 16,0 16,1 Шаблон:Cite book
- ↑ Шаблон:Citation
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ 21,0 21,1 21,2 21,3 Шаблон:Cite AIMA
- ↑ 22,0 22,1 Шаблон:Cite journal
- ↑ Шаблон:Cite encyclopedia
- ↑ Шаблон:Cite journal
- ↑ 25,0 25,1 Шаблон:Cite web
- ↑ Hung et al. Algorithms to Measure Surgeon Performance and Anticipate Clinical Outcomes in Robotic Surgery. JAMA Surg. 2018 Шаблон:Ref-en
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ 31,0 31,1 Шаблон:Citation
- ↑ Шаблон:Cite Mehryar Afshin Ameet 2012
- ↑ Шаблон:Cite book
- ↑ 34,0 34,1 34,2 34,3 34,4 Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюСинєглазов2022не вказано текст - ↑ 35,0 35,1 35,2 35,3 Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюДуда2018не вказано текст - ↑ 36,0 36,1 36,2 36,3 36,4 Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюКопивницька2023не вказано текст - ↑ 37,0 37,1 Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюВ'юненко2021не вказано текст - ↑ 38,0 38,1 Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюХорошилов2019не вказано текст - ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюКлейн2023не вказано текст - ↑ Шаблон:Cite web
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite book
- ↑ Bozinovski, S. (1982). "A self-learning system using secondary reinforcement". In Trappl, Robert (ed.). Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research. North-Holland. pp. 397–402. Шаблон:ISBN. Шаблон:Ref-en
- ↑ Bozinovski, Stevo (2014) "Modeling mechanisms of cognition-emotion interaction in artificial neural networks, since 1981." Procedia Computer Science p. 255-263 Шаблон:Ref-en
- ↑ Bozinovski, S. (2001) "Self-learning agents: A connectionist theory of emotion based on crossbar value judgment." Cybernetics and Systems 32(6) 637–667. Шаблон:Ref-en
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite conference
- ↑ Шаблон:Cite conference
- ↑ Шаблон:Cite conference
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Нп, M Elad, and A Bruckstein. 2006. "K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation Шаблон:Webarchive." Signal Processing, IEEE Transactions on 54 (11): 4311–4322 Шаблон:Ref-en
- ↑ Шаблон:Citation
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Citation
- ↑ Piatetsky-Shapiro, Gregory (1991), Discovery, analysis, and presentation of strong rules, in Piatetsky-Shapiro, Gregory; and Frawley, William J.; eds., Knowledge Discovery in Databases, AAAI/MIT Press, Cambridge, MA. Шаблон:Ref-en
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Plotkin G.D. Automatic Methods of Inductive Inference Шаблон:Webarchive, PhD thesis, University of Edinburgh, 1970. Шаблон:Ref-en
- ↑ Shapiro, Ehud Y. Inductive inference of theories from facts Шаблон:Webarchive, Research Report 192, Yale University, Department of Computer Science, 1981. Reprinted in J.-L. Lassez, G. Plotkin (Eds.), Computational Logic, The MIT Press, Cambridge, MA, 1991, pp. 199–254. Шаблон:Ref-en
- ↑ Shapiro, Ehud Y. (1983). Algorithmic program debugging. Cambridge, Mass: MIT Press. Шаблон:ISBN Шаблон:Ref-en
- ↑ Shapiro, Ehud Y. "The model inference system." Proceedings of the 7th international joint conference on Artificial intelligence-Volume 2. Morgan Kaufmann Publishers Inc., 1981. Шаблон:Ref-en
- ↑ Honglak Lee, Roger Grosse, Rajesh Ranganath, Andrew Y. Ng. "Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations Шаблон:Webarchive" Proceedings of the 26th Annual International Conference on Machine Learning, 2009. Шаблон:Ref-en
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite web
- ↑ Документація scikit-learn також містить подібні приклади Шаблон:Webarchive. Шаблон:Ref-en
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite web
- ↑ Машинне навчання включено до програми CFA (обговорення згори донизу); див. Kathleen DeRose and Christophe Le Lanno (2020). "Machine Learning" Шаблон:Webarchive. Шаблон:Ref-en
- ↑ Шаблон:Cite journal
- ↑ "BelKor Home Page" research.att.com Шаблон:Ref-en
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ When A Machine Learning Algorithm Studied Fine Art Paintings, It Saw Things Art Historians Had Never Noticed Шаблон:Webarchive, The Physics at ArXiv blog Шаблон:Ref-en
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite web
- ↑ 105,0 105,1 Шаблон:Cite report
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite journal
- ↑ 111,0 111,1 Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Citation
- ↑ 114,0 114,1 114,2 Шаблон:Cite journal
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite arXiv
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite arXiv
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite journal
- ↑ 135,0 135,1 Шаблон:Cite journal
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite arXiv
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite journal