Штучна нейронна мережа

Матеріал з testwiki
Версія від 12:44, 7 лютого 2025, створена imported>BunykBot (автоматична заміна {{Не перекладено}} вікі-посиланнями на перекладені статті, проблеми вікіфікації)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

Шаблон:Short description

Штучна нейронна мережа — це взаємопов'язана група вузлів, натхнена спрощенням нейронів мозку. Тут кожна кругла вершина подає штучний нейрон, а стрілка подає з'єднання виходу одного штучного нейрона з входом іншого.

Шаблон:Машинне навчання Шту́чні нейро́нні мере́жі (ШНМ, Шаблон:Lang-en), які зазвичай просто називають нейронними мережами (НМ, Шаблон:Lang-en) або нейромережами (Шаблон:Lang-en),[1] це обчислювальні системи, натхнені біологічними нейронними мережами, які складають мозок тварин.[2]

ШНМ ґрунтується на сукупності з'єднаних вузлів (Шаблон:Lang-en), які називають штучними нейронами, які приблизно моделюють нейрони біологічного мозку. Кожне з'єднання, як і синапси в біологічному мозку, може передавати сигнал до інших нейронів. Штучний нейрон отримує сигнали, потім обробляє їх і може сигналізувати нейронам, з якими його з'єднано. «Сигнал» у з'єднанні це дійсне число, а вихід кожного нейрона обчислюється деякою нелінійною функцією суми його входів. З'єднання називають ребрами (Шаблон:Lang-en). Нейрони та ребра зазвичай мають Шаблон:Нп (Шаблон:Lang-en), яка підлаштовується в процесі навчання. Вага збільшує або зменшує силу сигналу на з'єднанні. Нейрони можуть мати такий поріг, що сигнал надсилається лише тоді, коли сукупний сигнал перевищує цей поріг.

Як правило, нейрони зібрано в шари (Шаблон:Lang-en). Різні шари можуть виконувати різні перетворення даних свого входу. Сигнали проходять від першого шару (шару входу) до останнього (шару виходу), можливо, після проходження шарами декілька разів. Шаблон:TOC limit

Тренування

Нейронні мережі навчаються (або, їх тренують) шляхом обробки прикладів, кожен з яких містить відомий «вхід» та «результат», утворюючи ймовірнісно зважені асоціації між ними, які зберігаються в структурі даних самої мережі. Тренування нейронної мережі заданим прикладом зазвичай здійснюють шляхом визначення різниці між обробленим виходом мережі (часто, передбаченням) і цільовим виходом. Ця різниця є похибкою. Потім мережа підлаштовує свої зважені асоціації відповідно до правила навчання і з використанням цього значення похибки. Послідовні підлаштовування призведуть до виробляння нейронною мережею результатів, усе більше схожих на цільові. Після достатньої кількості цих підлаштовувань, тренування можливо припинити на основі певного критерію. Це форма керованого навчання.

Такі системи «навчаються» виконувати завдання, розглядаючи приклади, як правило, без програмування правил для конкретних завдань. Наприклад, у розпізнаванні зображень вони можуть навчитися встановлювати зображення, на яких зображені коти, аналізуючи приклади зображень, Шаблон:Нп вручну як «кіт» та «не кіт», і використовуючи результати для ідентифікування котів на інших зображеннях. Вони роблять це без будь-якого апріорного знання про котів, наприклад, що вони мають хутро, хвости, вуса та котоподібні писки. Натомість, вони автоматично породжують ідентифікаційні характеристики з прикладів, які оброблюють.

Історія

Шаблон:Main

Найпростіший тип нейронної мережі прямого поширення (НМПП, Шаблон:Lang-en) це лінійна мережа, яка складається з єдиного шару вузлів виходу; входи подаються безпосередньо на виходи через низку ваг. В кожному вузлі обчислюється сума добутків ваг та даних входів. Середньоквадратичні похибки між цими обчисленими виходами та заданими цільовими значеннями мінімізують шляхом підлаштовування ваг. Цей метод відомий понад два століття як метод найменших квадратів або лінійна регресія. Лежандр (1805) та Гаусс (1795) використовували його як засіб для знаходження доброго грубого лінійного допасування до набору точок для передбачування руху планет.[3][4][5][6][7]

Шаблон:Нп та Шаблон:Нп створили та проаналізували модель Ізінга (1925),[8] яка, по суті, є штучною рекурентною нейронною мережею (РНМ, Шаблон:Lang-en) без навчання, що складається з нейроноподібних порогових елементів.[6] 1972 року Шаблон:Нп зробив цю архітектуру адаптивною.[9][6] Його навчання РНМ популяризував Джон Гопфілд 1982 року.[10]

Воррен Маккалох та Шаблон:Нп[11] (1943) також розглядали ненавчану обчислювальну модель для нейронних мереж.[12] Наприкінці 1940-х років Д. О. Гебб[13] створив гіпотезу навчання, засновану на механізмі нейропластичності, що стала відомою як геббове навчання (Шаблон:Lang-en). Фарлі та Шаблон:Нп[14] (1954) вперше використали обчислювальні машини, звані тоді «калькуляторами», для моделювання геббової мережі. 1958 року психолог Френк Розенблат винайшов перцептрон (Шаблон:Lang-en), першу втілену штучну нейронну мережу,[15][16][17][18] фінансовану Шаблон:Нп США.[19]

Дехто каже, що дослідження зазнали застою після того, як Мінскі та Пейперт (1969)[20] виявили, що базові перцептрони не здатні обробляти схему виключного «або», і що комп'ютерам бракує достатньої потужності для обробки придатних нейронних мереж. Проте на момент виходу цієї книги вже були відомі методи тренування багатошарових перцептронів (БШП, Шаблон:Lang-en).

Перший БШП глибокого навчання опублікували Олексій Григорович Івахненко та Валентин Лапа 1965 року під назвою метод групового урахування аргументів (Шаблон:Lang-en).[21][22][23] Перший БШП глибокого навчання, навчений стохастичним градієнтним спуском,[24] опублікував 1967 року Шаблон:Нп.[25] У комп'ютерних експериментах, проведених учнем Амарі Сайто, п'ятишаровий БШП із двома змінюваними шарами навчився корисних внутрішніх подань для класифікування нелінійно роздільних класів образів.[6]

Самоорганізаційні карти (Шаблон:Lang-en) описав Теуво Кохонен 1982 року.[26][27] Самоорганізаційні карти — це нейрофізіологічно натхнені[28] нейронні мережі, які навчаються низьковимірного подання високовимірних даних, зберігаючи при цьому топологічну структуру цих даних. Вони тренуються за допомогою конкурентного навчання.[26]

Архітектуру згорткової нейронної мережі (ЗНМ, Шаблон:Lang-en) зі згортковими шарами та шарами пониження дискретизації запропонував Шаблон:Нп 1980 року.[29] Він назвав її неокогнітроном (Шаблон:Lang-en). 1969 року він також запропонував передавальну функцію ReLU (Шаблон:Lang-en, випрямлений лінійний вузол).[30] Цей випрямляч став найпопулярнішою передавальною функцією для ЗНМ та глибоких нейронних мереж загалом.[31] ЗНМ стали важливим інструментом комп'ютерного бачення.

Алгоритм зворотного поширення (Шаблон:Lang-en) це ефективне застосування ланцюгового правила Лейбніца (1673)[32] до мереж диференційовних вузлів. Він також відомий як зворотний режим автоматичного диференціювання або Шаблон:Нп, завдяки Шаблон:Нп (1970).[33][34][35][36][6] Термін «похибки зворотного поширення» (Шаблон:Lang-en) запровадив 1962 року Френк Розенблат,[37][6] але він не мав втілення цієї процедури, хоча Шаблон:Нп[38] та Шаблон:Нп[39] мали безперервні попередники зворотного поширення на основі динамічного програмування.[21][40][41][42] вже в 1960—61 роках у контексті теорії керування.[6] 1973 року Дрейфус використав зворотне поширення для пристосовування параметрів контролерів пропорційно градієнтам похибок.[43] 1982 року Шаблон:Нп застосував зворотне поширення до БШП у спосіб, який став стандартним.[44][40] 1986 року Румельхарт, Гінтон та Вільямс показали, що зворотне поширення навчається цікавих внутрішніх подань слів як векторів ознак, коли тренується передбачувати наступне слово в послідовності.[45]

Нейронна мережа з часовою затримкою (Шаблон:Lang-en) Шаблон:Нп (1987) поєднала згортки, спільні ваги та зворотне поширення.[46][47] 1988 року Вей Чжан зі співавт. застосовували зворотне поширення до ЗНМ (спрощеного неокогнітрона зі згортковими взаємозв'язками між шарами ознак зображення та останнім повнозв'язним шаром) для абеткового розпізнавання.[48][49] 1989 року Ян Лекун зі співавт. навчили ЗНМ розпізнавати рукописні поштові індекси на пошті.[50] 1992 року Джуан Венг зі співавт. запропонували максимізувальне агрегування (Шаблон:Lang-en) для ЗНМ, щоби допомогти з інваріантністю щодо найменшого зсуву та толерантністю до деформування для сприяння Шаблон:Нп.[51][52][53] LeNet-5 (1998), 7-рівневу ЗНМ від Яна Лекуна зі співавт.,[54] яка класифікує цифри, було застосовано кількома банками для розпізнавання рукописних чисел на чеках, оцифрованих у зображення 32×32 пікселів.

Починаючи з 1988 року[55][56] використання нейронних мереж перетворило галузь передбачування структур білків, зокрема, коли перші каскадні мережі тренувалися на профілях (матрицях), створених численними вирівнюваннями послідовностей.[57]

У 1980-х роках зворотне поширення не працювало добре для глибоких НМПП та РНМ. Щоби подолати цю проблему, Юрген Шмідхубер (1992) запропонував ієрархію РНМ, попередньо тренованих по одному рівню самокерованим навчанням.[58][59] Вона використовує Шаблон:Нп для навчання внутрішніх подань у кількох самоорганізованих масштабах часу. Це може істотно полегшувати подальше глибоке навчання. Цю ієрархію РНМ можливо згорнути (Шаблон:Lang-en) в єдину РНМ шляхом Шаблон:Нп фрагментувальної (Шаблон:Lang-en) мережі вищого рівня в автоматизувальну (Шаблон:Lang-en) мережу нижчого рівня.[58][6] 1993 року фрагментувальник розв'язав завдання глибокого навчання, глибина якого перевищувала 1000.[60]

1992 року Юрген Шмідхубер також опублікував альтернативу РНМ (Шаблон:Lang-en),[61] яку зараз називають лінійним трансформером (Шаблон:Lang-en) або трансформером з лінеаризованою самоувагою[62][63][6] (за винятком оператора нормування). Він навчається внутрішніх центрів уваги (Шаблон:Lang-en):[64] повільна нейронна мережа прямого поширення вчиться за допомогою градієнтного спуску керувати швидкими вагами іншої нейронної мережі через тензорні добутки самопороджуваних шаблонів збудження FROM і TO (званих тепер ключем, Шаблон:Lang-en, та значенням, Шаблон:Lang-en, самоуваги).[62] Це відображення уваги (Шаблон:Lang-en) швидких ваг застосовують до шаблону запиту.

Сучасний трансформер (Шаблон:Lang-en) запропонували Ашиш Васвані зі співавт. у своїй праці 2017 року «Увага — це все, що вам треба».[65] Він поєднує це з оператором softmax та проєкційною матрицею.[6] Трансформери все частіше обирають за модель для обробки природної мови.[66] Багато сучасних великих мовних моделей, таких як ChatGPT, GPT-4 та BERT, використовують саме його. Трансформери також все частіше використовують у комп'ютернім баченні.[67]

1991 року Юрген Шмідхубер також опублікував змагальні нейронні мережі (Шаблон:Lang-en), які змагаються між собою у формі антагоністичної гри, де виграш однієї мережі є програшем іншої.[68][69][70] Перша мережа є породжувальною моделлю, яка моделює розподіл імовірності над образами на виході. Друга мережа навчається градієнтним спуском передбачувати реакцію середовища на ці образи. Це було названо «штучною цікавістю» (Шаблон:Lang-en).

2014 року Ян Ґудфелоу зі співавт. використали цей принцип у породжувальній змагальній мережі (Шаблон:Lang-en).[71] Тут реакція навколишнього середовища дорівнює 1 або 0 залежно від того, чи належить вихід першої мережі до заданого набору. Це можливо використовувати для створення реалістичних дипфейків.[72] Відмінної якості зображення досягла Шаблон:Нп Nvidia (2018)[73] на основі прогресивної породжувальної змагальної мережі (Шаблон:Lang-en) Теро Карраса, Тімо Айли, Самулі Лайне та Яакко Лехтінена.[74] Тут породжувач вирощується від малого до великого пірамідним чином.

Дипломну працю Шаблон:Нп (1991)[75] його керівник Юрген Шмідхубер назвав «одним із найважливіших документів в історії машинного навчання».[6] Хохрайтер визначив і проаналізував проблему зникання градієнту[75][76] й запропонував для її розв'язання рекурентні залишкові з'єднання. Це призвело до появи методу глибокого навчання, званого довгою короткочасною пам'яттю (ДКЧП, Шаблон:Lang-en), опублікованого в Neural Computation (1997).[77] Рекурентні нейронні мережі ДКЧП можуть навчатися задач «дуже глибокого навчання» (Шаблон:Lang-en)[78] з довгими шляхами розподілу внеску, які вимагають спогадів про події, що відбулися за тисячі дискретних часових кроків до цього. «Стандартну ДКЧП» (Шаблон:Lang-en) із забувальним вентилем запропонували 1999 року Шаблон:Нп, Шмідхубер та Фред Каммінс.[79] ДКЧП стала найцитованішою нейронною мережею XX століття.[6] 2015 року Рупеш Кумар Шрівастава, Клаус Ґрефф і Шмідхубер використали принцип ДКЧП для створення магістралевої мережі (Шаблон:Lang-en), нейронної мережі прямого поширення з сотнями шарів, набагато глибшої за попередні.[80][81] 7 місяців потому, Каймін Хе, Сян'ю Чжан; Шаоцін Рен та Цзянь Сунь виграли Шаблон:Нп 2015 року з відкритовентильним або безвентильним варіантом магістралевої мережі, названим залишковою нейронною мережею (Шаблон:Lang-en).[82] Вона стала найцитованішою нейронною мережею XXI століття.[6]

Розвиток метал-оксид-напівпровідникових (МОН) схем надвисокого рівня інтеграції (НВІС) у формі технології комплементарних МОН (КМОН) дозволив збільшити Шаблон:Нп МОН-транзисторів у цифровій електроніці. Це забезпечило більшу потужність обробки для розробки практичних штучних нейронних мереж у 1980-х роках.[83]

До ранніх успіхів нейронних мереж належали прогнозування фондового ринку, а 1995 року (переважно) безпілотний автомобіль.Шаблон:Efn[84]

Джефрі Гінтон зі співавт. (2006) запропонували навчання високорівневих подань з використанням послідовних шарів двійкових або дійснозначних латентних змінних з обмеженою машиною Больцмана[85] для моделювання кожного шару. 2012 року Ин та Дін створили мережу, яка навчилася розпізнавати поняття вищого рівня, такі як коти, лише переглядаючи немічені зображення.[86] Попереднє некероване тренування та збільшення обчислювальної потужності ГП та розподілених обчислень дозволили використовувати більші мережі, зокрема в задачах розпізнавання зображень і бачення, які стали відомі як «глибоке навчання».[87]

Чирешан із колегами (2010)[88] показали, що, незважаючи на проблему зникання градієнта, ГП роблять зворотне поширення придатним для багатошарових нейронних мереж прямого поширення.[89] У період між 2009 та 2012 роками ШНМ почали вигравати нагороди в конкурсах із розпізнавання зображень, наближаючись до людського рівня виконання різних завдань, спочатку в розпізнаванні образів та розпізнаванні рукописного тексту.[90][91] Наприклад, двоспрямована та багатовимірна довга короткочасна пам'ять (ДКЧП)[92][93] Шаблон:Нп зі співавт. виграла три змагання з розпізнавання зв'язаного рукописного тексту 2009 року без будь-яких попередніх знань про три мови, яких потрібно було навчитися.[92][93]

Чирешан із колегами створили перші розпізнавачі образів, які досягли людської/надлюдської продуктивності[94] на таких перевірках як розпізнавання дорожніх знаків (IJCNN 2012).

Моделі

Шаблон:Плутано Шаблон:Further

Нейрон і мієлінований аксон із потоком сигналу від входів на дендритах до виходів на терміналах аксона

ШНМ почалися як спроба використати архітектуру людського мозку для виконання завдань, у яких звичайні алгоритми мали невеликий успіх. Незабаром вони переорієнтувалися на покращення емпіричних результатів, відмовившись від спроб залишатися вірними своїм біологічним попередникам. ШНМ мають здатність навчатися нелінійностей та складних зв'язків та моделювати їх. Це досягається тим, що нейрони з'єднуються за різними схемами, що дозволяє виходам одних нейронів стати входом інших. Ця мережа утворює орієнтований зважений граф.[95]

Штучна нейронна мережа складається з імітацій нейронів. Кожен нейрон з'єднано з іншими вузлами (Шаблон:Lang-en) ланками (Шаблон:Lang-en), як біологічне з'єднання аксон—синапс—дендрит. Усі вузли, з'єднані ланками, отримують деякі дані й використовують їх для виконання певних операцій і завдань з даними. Кожна ланка має вагу (Шаблон:Lang-en), що визначає силу впливу одного вузла на інший,[96] дозволяючи вагам обирати сигнал між нейронами.

Штучні нейрони

ШНМ складаються зі штучних нейронів, які концептуально походять від біологічних. Кожен штучний нейрон має входи та видає єдиний вихід, який можливо надсилати багатьом іншим нейронам.[97] Входи (Шаблон:Lang-en) можуть бути значеннями ознак зразка зовнішніх даних, таких як зображення чи документи, або вони можуть бути виходами інших нейронів. Виходи кінцевих нейронів виходу (Шаблон:Lang-en) нейронної мережі завершують завдання, наприклад, розпізнавання об'єкта на зображенні.

Щоби знайти вихід нейрона, ми беремо зважену суму всіх входів, зважених за вагами з'єднань (Шаблон:Lang-en) від входів до нейрона. Ми додаємо до цієї суми зміщення (Шаблон:Lang-en).[98] Цю зважену суму іноді називають збудженням (Шаблон:Lang-en). Цю зважену суму потім пропускають крізь (зазвичай нелінійну) передавальну функцію (Шаблон:Lang-en) для отримання виходу. Первинними входами є зовнішні дані, наприклад зображення та документи. Кінцеві виходи завершують завдання, наприклад, розпізнавання об'єкта на зображенні.[99]

Будова

Нейрони зазвичай впорядковано в кілька шарів (Шаблон:Lang-en), особливо в глибокому навчанні. Нейрони одного шару з'єднуються лише з нейронами безпосередньо попереднього й наступного шарів. Шар, який отримує зовнішні дані, це шар входу (Шаблон:Lang-en). Шар, який видає кінцевий результат, це шар виходу (Шаблон:Lang-en). Між ними є нуль або більше прихованих шарів (Шаблон:Lang-en). Використовують також одношарові (Шаблон:Lang-en) та безшарові (Шаблон:Lang-en) мережі. Між двома шарами можливі кілька схем з'єднання. Вони можуть бути «повноз'єднаними» (Шаблон:Lang-en), коли кожен нейрон одного шару з'єднується з кожним нейроном наступного шару. Вони можуть бути агрегувальними (Шаблон:Lang-en), коли група нейронів одного шару з'єднується з одним нейроном наступного шару, знижуючи таким чином кількість нейронів у цьому шарі.[100] Нейрони лише з такими зв'язками утворюють орієнтований ациклічний граф і відомі як мережі прямого поширення (Шаблон:Lang-en).[101] Крім того, мережі, які дозволяють з'єднання до нейронів у тому же або попередніх шарах, відомі як рекурентні мережі (Шаблон:Lang-en).[102]

Гіперпараметр

Шаблон:Main

Гіперпараметр (Шаблон:Lang-en) — це сталий параметр, чиє значення встановлюють перед початком процесу навчання. Значення же параметрів (Шаблон:Lang-en) виводять шляхом навчання. До прикладів гіперпараметрів належать темп навчання (Шаблон:Lang-en), кількість прихованих шарів і розмір пакета.[103] Значення деяких гіперпараметрів можуть залежати від значень інших гіперпараметрів. Наприклад, розмір деяких шарів може залежати від загальної кількості шарів.

Навчання

Шаблон:Без виносок Шаблон:Див. також

Навчання (Шаблон:Lang-en) — це пристосовування мережі для кращого виконання завдання шляхом розгляду вибіркових спостережень. Навчання включає підлаштовування ваг (і, можливо, порогів) мережі для підвищення точності результатів. Це здійснюється шляхом мінімізування спостережуваних похибок. Навчання завершено, якщо розгляд додаткових спостережень не знижує рівня похибки. Навіть після навчання рівень похибки зазвичай не досягає 0. Якщо навіть після навчання рівень похибки занадто високий, зазвичай потрібно змінити будову мережі. Практично це здійснюють шляхом визначення функції витрат (Шаблон:Lang-en), яку періодично оцінюють протягом навчання. Поки її результат знижується, навчання триває. Витрати часто визначають як статистику, значення якої можливо лише наближувати. Виходи насправді є числами, тож коли похибка низька, різниця між результатом (майже напевно кіт) і правильною відповіддю (кіт) невелика. Навчання намагається знизити загальну відмінність над спостереженнями. Більшість моделей навчання можливо розглядати як пряме застосування теорії оптимізації та статистичного оцінювання.[95][104]

Темп навчання

Шаблон:Main

Темп навчання (Шаблон:Lang-en) визначає розмір коригувальних кроків, які здійснює модель для підлаштовування під похибку в кожному спостереженні.[105] Високий темп навчання скорочує тривалість тренування, але з меншою кінцевою точністю, тоді як нижчий темп навчання займає більше часу, але з потенціалом до більшої точності. Такі оптимізації, як Шаблон:Нп (Шаблон:Lang-uk), переважно спрямовані на прискорення мінімізування похибки, тоді як інші вдосконалення переважно намагаються підвищити надійність. Щоби запобігти циклічним коливанням усередині мережі, таким як чергування ваг з'єднань, і покращити швидкість збігання, удосконалення використовують адаптивний темп навчання, який підвищується або знижується належним чином.[106] Концепція імпульсу (Шаблон:Lang-en) дозволяє зважувати баланс між градієнтом і попередньою зміною так, щоби підлаштовування ваги певною мірою залежало від попередньої зміни. Імпульс, близький до 0, додає ваги градієнтові, тоді як значення, близьке до 1, додає ваги крайній зміні.

Функція витрат

Хоча й можливо визначати функцію витрат ad hoc, вибір часто визначається бажаними властивостями цієї функції (такими як опуклість) або тим, що вона постає з моделі (наприклад, у ймовірнісній моделі апостеріорну ймовірність моделі можливо використовувати як обернені витрати).

Зворотне поширення

Шаблон:Main

Зворотне поширення (Шаблон:Lang-en) — це метод, який використовують для підлаштовування ваг з'єднань для компенсування кожної помилки, виявленої під час навчання. Величина помилки фактично розподіляється між з'єднаннями. Технічно зворотне поширення обчислює градієнт (похідну) функції витрат, пов'язаний із заданим станом, відносно ваг. Уточнювання ваг можливо здійснювати за допомогою стохастичного градієнтного спуску (Шаблон:Lang-en) або інших методів, таких як машини екстремального навчання,[107] «безпоширні» (Шаблон:Lang-en) мережі,[108] тренування без вертання,[109] «безвагові» (Шаблон:Lang-en) мережі,[110][111] та Шаблон:Нп.Шаблон:Citation needed

Парадигми навчання

Шаблон:Без виносок

Машинне навчання зазвичай поділяють на три основні парадигми: кероване навчання,[112][113][114][115] некероване навчання[116][113][114][117][115] та навчання з підкріпленням.[118][119] Кожна відповідає певному навчальному завданню.

Кероване навчання

Кероване навчання[113][114][115] (Шаблон:Lang-en) використовує набір пар входів і бажаних виходів. Завдання навчання полягає в тому, щоби для кожного входу видавати бажаний вихід. У цьому випадку функція витрат пов'язана з усуненням неправильного висновування.[120] Витрати, які використовують зазвичай, це середньоквадратична похибка, яка намагається мінімізувати середню квадратичну похибку виходу мережі відносно бажаного виходу. Для керованого навчання підходять завдання на розпізнавання образів (також відоме як класифікування) та регресію (також відоме як наближення функції). Кероване навчання також застосовне до послідовних даних (наприклад, для розпізнавання рукописного тексту, мовлення та Шаблон:Нп). Його можливо розглядати як навчання з «учителем» у вигляді функції, яка забезпечує безперервний зворотний зв'язок щодо якості отриманих на даний момент рішень.

Некероване навчання

У некерованім навчанні[113][114][117][115] (Шаблон:Lang-en) дані входу надаються разом із функцією витрат, деякою функцією від даних x та виходу мережі. Функція витрат залежить від завдання (області моделі) та будь-яких апріорних припущень (неявних властивостей моделі, її параметрів та спостережуваних змінних). Як тривіальний приклад розгляньмо модель f(x)=a, де a стала, а витрати C=E[(xf(x))2]. Мінімізація цих витрат дає значення a, що дорівнює середньому значенню даних. Функція витрат може бути набагато складнішою. Її вигляд залежить від застосування: наприклад, у стисненні вона може бути пов'язаною із взаємною інформацією між x та f(x), тоді як у статистичному моделюванні вона може бути пов'язаною з апостеріорною ймовірністю моделі за заданих даних (зверніть увагу, що в обох цих прикладах ці величини підлягають максимізуванню, а не мінімізуванню). Завдання, які підпадають під парадигму некерованого навчання, це зазвичай задачі оцінювання; до цих застосувань належать кластерування, оцінювання статистичних розподілів, стискання та фільтрування.

Навчання з підкріпленням

Шаблон:Main Шаблон:Див. також

У таких застосуваннях як гра у відеоігри, діяч (Шаблон:Lang-en) виконує низку дій (Шаблон:Lang-en), отримуючи загалом непередбачуваний відгук від середовища після кожної з них. Мета полягає в тому, щоби виграти гру, тобто породити найбільшу кількість позитивних (з найменшими витратами) відгуків. У навчанні з підкріпленням (Шаблон:Lang-en) мета полягає в тому, щоби зважити мережу (розробити стратегію, Шаблон:Lang-en) для виконання дій, яка мінімізує довгострокові (очікувані сукупні) витрати. У кожен момент часу діяч виконує дію, а середовище породжує спостереження та миттєві витрати відповідно до деяких (зазвичай невідомих) правил. Зазвичай правила й довгострокові витрати можливо лише оцінювати. У будь-який момент діяч вирішує, чи дослідити нові дії, щоб розкрити свої витрати, а чи скористатися попереднім знанням для швидшого виконання.

Формально середовище моделюють як марковський процес вирішування (МПВ) зі станами s1,...,snS та діями a1,...,amA. Оскільки переходи станів невідомі, замість них використовують розподіли ймовірності: розподіл миттєвих витрат P(ct|st), розподіл спостережень P(xt|st) та розподіл переходів P(st+1|st,at), тоді як стратегію визначають як умовний розподіл дій за даних спостережень. Взяті разом, вони визначають марковський ланцюг (МЛ). Мета полягає у виявленні МЛ із найменшими витратами.

ШНМ у таких застосуваннях слугують складовою, яка забезпечує навчання.[121][122] Динамічне програмування у поєднанні з ШНМ (що дає нейродинамічне програмування)[123] було застосовано до таких задач як ті, що стосуються Шаблон:Нп,[124] відеоігор, природокористування[125][126] та медицини,[127] через здатність ШНМ пом'якшувати втрати точності навіть при зменшенні щільності ґратки Шаблон:Нп для чисельного наближення розв'язків задач керування. Завдання, які підпадають під парадигму навчання з підкріпленням, це завдання керування, ігри та інші послідовні завдання ухвалювання рішень.

Самонавчання

Самонавчання (Шаблон:Lang-en) в нейронних мережах було запропоновано 1982 року разом із нейронною мережею, здатною до самонавчання, названою поперечинним адаптивним масивом (ПАМ, Шаблон:Lang-en).[128] Це система лише з одним входом, ситуацією s, й лише одним виходом, дією (або поведінкою) a. Вона не має ані входу зовнішніх порад, ані входу зовнішнього підкріплення з боку середовища. ПАМ обчислює поперечним чином як рішення щодо дій, так і емоції (почуття) щодо виниклих ситуацій. Ця система керується взаємодією між пізнанням та емоціями.[129] За заданої матриці пам'яті, W =||w(a, s)||, поперечинний алгоритм самонавчання на кожній ітерації виконує наступне обчислення:

 У ситуації s виконати дію a;
 Отримати наслідкову ситуацію s';
 Обчислити емоцію перебування в наслідковій ситуації v(s');
 Уточнити поперечинну пам'ять w'(a,s) = w(a,s) + v(s').

Поширюване зворотно значення (вторинне підкріплення, Шаблон:Lang-en) — це емоція щодо наслідків ситуації. ПАМ існує у двох середовищах: одне — поведінкове середовище, де вона поводиться, а інше — генетичне середовище, де вона спочатку й лише один раз отримує початкові емоції щодо ситуацій, з якими можливо зіткнутися в поведінковому середовищі. Отримавши геномний вектор (видовий вектор, Шаблон:Lang-en) із генетичного середовища, ПАМ навчатиметься цілеспрямованої поведінки в поведінковому середовищі, що містить як бажані, так і небажані ситуації.[130]

Нейроеволюція

Шаблон:Main

Нейроеволюція (Шаблон:Lang-en) може створювати топології та ваги нейронної мережі за допомогою еволюційного обчислення. Завдяки сучасним вдосконаленням нейроеволюція конкурує зі складними підходами градієнтного спуску.[131] Одна з переваг нейроеволюції полягає в тому, що вона може бути менш схильною потрапляти в «глухий кут».[132]

Стохастична нейронна мережа

Стохастичні нейронні мережі (Шаблон:Lang-en), що походять від Шаблон:Нп, це один з типів штучних нейронних мереж, побудований шляхом введення випадкових варіацій у мережу, або надаванням штучним нейронам мережі стохастичних передавальних функцій, або надаванням їм стохастичних ваг. Це робить їх корисними інструментами для розв'язування задач оптимізації, оскільки випадкові флуктуації допомагають мережі уникати локальних мінімумів.[133] Стохастичні нейронні мережі, треновані за допомогою баєсового підходу, відомі як баєсові нейронні мережі (Шаблон:Lang-en).[134]

Інші

У баєсовій системі обирають розподіл над набором дозволених моделей таким чином, щоби мінімізувати витрати. Іншими алгоритмами навчання є еволюційні методи,[135] Шаблон:Нп,[136] імітування відпалювання,[137] очікування-максимізація, Шаблон:Нп та метод рою частинок.[138] Збіжна рекурсія (Шаблон:Lang-en) — це алгоритм навчання для нейронних мереж Шаблон:Нп (АКММ, Шаблон:Lang-en).[139][140]

Режими

Шаблон:Без виносок

Є два режими навчання: стохастичний (Шаблон:Lang-en) та пакетний (Шаблон:Lang-en). У стохастичному навчанні кожен вхід створює підлаштовування ваг. У пакетному навчанні ваги підлаштовують на основі пакету входів, накопичуючи похибки в пакеті. Стохастичне навчання вносить «шум» до процесу, використовуючи локальний градієнт, розрахований з однієї точки даних; це знижує шанс застрягання мережі в локальних мінімумах. Проте пакетне навчання зазвичай дає швидший і стабільніший спуск до локального мінімуму, оскільки кожне уточнення виконується в напрямку усередненої похибки пакета. Поширеним компромісом є використання «мініпакетів» (Шаблон:Lang-en), невеликих пакетів зі зразками в кожному пакеті, обраними стохастично з усього набору даних.

Типи

Шаблон:Main

ШНМ еволюціювали у широке сімейство методик, які вдосконалили рівень останніх досягнень у багатьох областях. Найпростіші типи мають один або кілька статичних складових, включно з кількістю вузлів, кількістю шарів, вагами вузлів і топологією. Динамічні типи дозволяють одному або декільком із них еволюціювати шляхом навчання. Останнє набагато складніше, але може скорочувати періоди навчання й давати кращі результати. Деякі типи дозволяють/вимагають навчання «під керуванням» оператора, тоді як інші працюють незалежно. Деякі типи працюють виключно апаратно, тоді як інші є суто програмними й працюють на комп'ютерах загального призначення.

До деяких з основних проривів належать: згорткові нейронні мережі, які виявилися особливо успішними в обробці візуальних та інших двовимірних даних;[141][142] довга короткочасна пам'ять, що дозволяє уникати проблеми зникання градієнта[143] й може обробляти сигнали, які містять суміш низько- та високочастотних складових, що допомагає в розпізнаванні мовлення з великим словниковим запасом,[144][145] синтезуванні мовлення з тексту[146][40][147] та фотореалістичних головах, що розмовляють;[148] конкурентні мережі (Шаблон:Lang-en), такі як породжувальні змагальні мережі,[149] в яких численні мережі (різної структури) змагаються одна з одною в таких завданнях як перемога в грі, або введення опонента в оману щодо автентичності входу.[71]

Побудова мереж

Шаблон:Main

Пошук нейронної архітектури (ПНА, Шаблон:Lang-en) використовує машинне навчання для автоматизування побудови ШНМ. Різні підходи до ПНА побудували мережі, добре порівнянні з системами, розробленими вручну. Основним алгоритмом цього пошуку є пропонувати модель-кандидатку, оцінювати її за набором даних, і використовувати результати як зворотний зв'язок для навчання мережі ПНА.[150] Серед доступних систем — АвтоМН та AutoKeras.[151]

До проблем побудови належать визначення кількості, типу та з'єднаності рівнів мережі, а також розміру кожного, та типу з'єднання (повне, агрегувальне, …).

Гіперпараметри також слід визначати як частину побудови (їх не навчаються), керуючи такими питаннями як кількість нейронів у кожному шарі, темп навчання, крок, крок фільтрів (Шаблон:Lang-en), глибина, рецептивне поле та доповнення (для ЗНМ) тощо.[152]

Використання

Шаблон:Розділ без джерел Використання штучних нейронних мереж вимагає розуміння їхніх характеристик.

  • Вибір моделі: Це залежить від подання даних та застосування. Надмірно складні моделі навчаються повільно.
  • Алгоритм навчання: Існують численні компроміси між алгоритмами навчання. Майже кожен алгоритм працюватиме добре з правильними гіперпараметрами[153] для тренування на певному наборі даних. Проте обрання та налаштування алгоритму для навчання на небачених даних вимагає значного експериментування.
  • Робастність: Якщо модель, функцію витрат та алгоритм навчання обрано належним чином, то отримана ШНМ може стати робастною.

Можливості ШНМ підпадають під наступні широкі категорії:[154]

Застосування

Завдяки своїй здатності відтворювати та моделювати нелінійні процеси штучні нейронні мережі знайшли застосування в багатьох дисциплінах. До сфер застосування належать Шаблон:Нп та керування ними (керування транспортними засобами, передбачування траєкторії,[161] керування процесами, природокористування), квантова хімія,[162] Шаблон:Нп,[163] розпізнавання образів (радарні системи, встановлювання облич, класифікування сигналів,[164] тривимірна відбудова,[165] розпізнавання об'єктів тощо), аналіз даних давачів,[166] розпізнавання послідовностей (розпізнавання жестів, мовлення, рукописного та друкованого тексту[167]), медична діагностика, фінанси[168] (наприклад, Шаблон:Нп моделі для окремих фінансових довготривалих прогнозів та Шаблон:Нп), добування даних, унаочнювання, машинний переклад, соціальномережне фільтрування[169] та фільтрування Шаблон:Нп. ШНМ використовували для діагностування кількох типів раку[170][171] та для відрізнювання високоінвазивних ліній ракових клітин від менш інвазивних з використанням лише інформації про форму клітин.[172][173]

ШНМ використовували для прискорювання аналізу надійності інфраструктури, що піддається стихійним лихам,[174][175] і для прогнозування просідання фундаментів.[176] Також може бути корисним пом'якшувати повені шляхом використання ШНМ для моделювання дощового стоку.[177] ШНМ також використовували для побудови чорноскринькових моделей в геонауках: гідрології,[178][179] моделюванні океану та Шаблон:Нп,[180][181] та геоморфології.[182] ШНМ використовують у кібербезпеці з метою розмежовування законної діяльності від зловмисної. Наприклад, машинне навчання використовували для класифікування зловмисного програмного забезпечення під Android,[183] для визначання доменів, що належать суб'єктам загрози, і для виявляння URL-адрес, які становлять загрозу безпеці.[184] Ведуться дослідження систем ШНМ, призначених для випробування на проникнення, для виявляння бот-мереж,[185] шахрайства з кредитними картками[186] та мережних вторгнень.

ШНМ пропонували як інструмент для розв'язування частинних диференціальних рівнянь у фізиці[187][188][189] та моделювання властивостей багаточастинкових Шаблон:Нп.[190][191][192][193] У дослідженні мозку ШНМ вивчали короткочасну поведінку окремих нейронів,[194] динаміку нейронних ланцюгів, що виникає через взаємодію між окремими нейронами, та те, як поведінка може виникати з абстрактних нейронних модулів, які подають цілі підсистеми. Дослідження розглядали довгострокову та короткочасну пластичність нейронних систем та їхній зв'язок із навчанням і пам'яттю від окремого нейрона до системного рівня.

Теоретичні властивості

Обчислювальна потужність

Як доведено теоремою Цибенка, багатошаровий перцептрон це Шаблон:Нп наближувач функцій. Проте це доведення не конструктивне щодо кількості необхідних нейронів, топології мережі, ваг, та параметрів навчання.

Особлива рекурентна архітектура з раціональнозначними вагами (на противагу до повноточнісних дійснозначних ваг) має потужність універсальної машини Тюрінга,[195] використовуючи скінченну кількість нейронів та стандартні лінійні з'єднання. Крім того, використання ірраціональних значень для ваг дає в результаті машину з надтюрінговою потужністю.[196][197]Шаблон:Нема в джерелі

Ємність

Властивість «ємності»[198][199] (Шаблон:Lang-en) моделі відповідає її здатності моделювати будь-яку задану функцію. Вона пов'язана з обсягом інформації, який можливо зберегти в мережі, та з поняттям складності. Серед спільноти відомі два поняття ємності: інформаційна ємність та ВЧ-розмірність. Інформаційну ємність (Шаблон:Lang-en) перцептрона ретельно обговорено в книзі сера Девіда Маккея,[200] яка підсумовує роботу Томаса Ковера.[201] Ємність мережі стандартних нейронів (не згорткових) можливо отримувати за чотирма правилами,[202] які випливають із розуміння нейрона як електричного елемента. Інформаційна ємність охоплює функції, які можливо змоделювати мережею, за довільних даних входу. Друге поняття — ВЧ-розмірність (Шаблон:Lang-en). ВЧ-розмірність використовує принципи теорії міри та знаходить максимальну ємність за найкращих можливих обставин. Це за даних входу певного вигляду. Як зазначено у [200], ВЧ-розмірність для довільних входів становить половину інформаційної ємності перцептрона. ВЧ-розмірність для довільних точок іноді називають ємністю пам'яті (Шаблон:Lang-en).[203]

Збіжність

Моделі можуть не збігатися послідовно на єдиному розв'язку, по-перше, через можливість існування локальних мінімумів, залежно від функції витрат та моделі. По-друге, вживаний метод оптимізації може не гарантувати збіжності, якщо він починається далеко від будь-якого локального мінімуму. По-третє, для досить великих даних або параметрів деякі методи стають непрактичними.

Інша варта згадки проблема полягає в тому, що навчання може проходити крізь деяку сідлову точку, що може призводити до збігання в неправильному напрямку.

Поведінка збіжності певних типів архітектур ШНМ зрозуміліша, ніж інших. Коли ширина мережі наближається до нескінченності, ШНМ добре описується своїм розвиненням у ряд Тейлора першого порядку протягом навчання, і тому успадковує поведінку збіжності афінних моделей.[204][205] Інший приклад: коли параметри малі, спостерігається, що ШНМ часто допасовуються до цільових функцій від низьких до високих частот. Таку поведінку називають спектральним зміщенням (Шаблон:Lang-en) або частотним принципом (Шаблон:Lang-en) нейронних мереж.[206][207][208][209] Це явище протилежне поведінці деяких добре вивчених ітераційних числових схем, таких як метод Якобі. Було виявлено, що глибші нейронні мережі схильніші до низькочастотних функцій.[210]

Узагальнювальність та статистика

Шаблон:Без виносок

Застосування, метою яких є створення системи, що добре узагальнюється до невідомих зразків, стикаються з можливістю перетренування. Воно виникає в заплутаних або надмірно визначених системах, коли ємність мережі значно перевищує потребу у вільних параметрах. Існує два підходи, як впоруватися з перетренуванням. Перший полягає у використанні перехресного затверджування та подібних методів для перевірки наявності перенавчання, та обиранні гіперпараметрів для зведення похибки узагальнення до мінімуму.

Другий полягає у використанні якогось із видів регуляризації. Це поняття виникає в імовірнісній (баєсовій) системі, де регуляризацію можливо виконувати шляхом обирання більшої апріорної ймовірності над простішими моделями, але також і в теорії статистичного навчання, де метою є зводити до мінімуму дві величини: «емпіричний ризик» та «структурний ризик», що грубо відповідають похибці над тренувальним набором та передбачуваній похибці в небачених даних через перенавчання.

Довірчий аналіз нейронної мережі

Нейронні мережі керованого навчання, які використовують як функцію витрат середньоквадратичну похибку (СКП), для визначення довіри до тренованої моделі можуть використовувати формальні статистичні методи. СКП на затверджувальному наборі можливо використовувати як оцінку дисперсії. Це значення потім можливо використовувати для обчислення довірчого інтервалу виходу мережі, виходячи з нормального розподілу. Здійснений таким чином аналіз довіри статистично чинний, поки розподіл імовірності виходу залишається незмінним, і не вноситься змін до мережі.

Призначення нормованої експоненційної функції, узагальнення логістичної функції, як передавальної функції шару виходу нейронної мережі (або нормованої експоненційної складової в нейронній мережі на основі складових) для категорійних цільових змінних, дає можливість інтерпретувати виходи як апостеріорні ймовірності. Це корисно для класифікування, оскільки дає міру впевненості в класифікаціях.

Нормована експоненційна функція (Шаблон:Lang-en) це

yi=exij=1cexj

<section end="theory" />

Критика

Тренування

Поширена критика нейронних мереж, особливо в робототехніці, полягає в тому, що для роботи в реальному світі вони вимагають забагато тренування.[211] До потенційних розв'язань належить випадкове переставляння тренувальних зразків, застосування алгоритму чисельної оптимізації, який не вимагає завеликих кроків при зміні з'єднань мережі слідом за зразком, групування зразків до так званих міні-пакетів (Шаблон:Lang-en) та/або запровадження алгоритму рекурсивних найменших квадратів для Шаблон:Нп.[139]

Теорія

Головна претензіяШаблон:Джерело ШНМ полягає в тому, що вони втілюють нові потужні загальні принципи обробки інформації. Ці принципи погано визначені. Часто стверджують,Шаблон:Хто що вони виникають із самої мережі. Це дозволяє описувати просту статистичну асоціацію (основну функцію штучних нейронних мереж) як навчання або розпізнавання. 1997 року Шаблон:Нп зауважив, що, в результаті, штучні нейронні мережі мають «риси чогось дармового, чогось наділеного особливою аурою ледарства та виразної відсутності зацікавлення хоч би тим, наскільки добрими ці комп'ютерні системи є. Жодного втручання людської руки (та розуму), розв'язки знаходяться мов чарівною силою, і ніхто, схоже, так нічого й не навчився».[212] Однією з відповідей Дьюдні є те, що нейронні мережі розв'язують багато складних і різноманітних завдань, починаючи від автономного літального апарата[213] до виявляння шахрайства з кредитними картками, й завершуючи опануванням гри в Ґо.

Письменник у галузі технологій Роджер Бріджмен прокоментував це так:

Шаблон:Quote

Біологічний мозок використовує як неглибокі, так і глибокі схеми, як повідомляє анатомія мозку,[214] демонструючи широкий спектр інваріантності. Венг[215] стверджував, що мозок самостійно встановлює зв'язки в основному відповідно до статистики сигналів, і тому послідовний каскад не може вловити всі основні статистичні залежності.

Апаратне забезпечення

Великі й ефективні нейронні мережі вимагають значних обчислювальних ресурсів.[216] У той час як мозок має апаратне забезпечення, ідеально пристосоване для задачі обробки сигналів графом нейронів, імітація навіть спрощеного нейрону на архітектурі фон Неймана може споживати величезну кількість пам'яті та дискового простору. Крім того, розробникові часто потрібно передавати сигнали багатьма цими з'єднаннями та пов'язаними з ними нейронами, що вимагає величезної обчислювальної потужності та часу ЦП.

Шмідхубер зазначив, що відродження нейронних мереж у двадцять першому сторіччі значною мірою обумовлено досягненнями в апаратному забезпеченні: з 1991 до 2015 року обчислювальна потужність, особливо забезпечувана ГПЗП (на ГП), зросла приблизно в мільйон разів, зробивши стандартний алгоритм зворотного поширення придатним для навчання мереж, на кілька рівнів глибших, ніж раніше.[21] Використання прискорювачів, таких як ПКВМ та ГП, може скорочувати тривалість тренування з місяців до днів. Шаблон:R

Нейроморфна інженерія або Шаблон:Нп розв'язує проблему апаратного забезпечення безпосередньо, створюючи мікросхеми, відмінні від фон нейманових, для безпосереднього втілення нейронних мереж у схемах. Ще одна мікросхема, оптимізована для обробки нейронних мереж, зветься тензорним процесором або ТП (Шаблон:Lang-en).[217]

Практичні контрприклади

Аналізувати те, чого навчилася ШНМ, набагато легше, ніж аналізувати те, чого навчилася біологічна нейронна мережа. Крім того, дослідники, які беруть участь у пошуку алгоритмів навчання для нейронних мереж, поступово розкривають загальні принципи, що дозволяють машині, що вчиться, бути успішною. Наприклад, локальне й нелокальне навчання, та неглибока й глибока архітектура.[218]

Гібридні підходи

Прибічники Шаблон:Нп моделей (що поєднують нейронні мережі та символьні підходи) стверджують, що така суміш може краще вловлювати механізми людського розуму.[219]

Галерея

Див. також

Шаблон:Cols

Шаблон:Colend

Виноски

Шаблон:Notelist

Примітки

Шаблон:Примітки

Література

Шаблон:Colbegin

Шаблон:Colend

Шаблон:Штучний інтелект Шаблон:Диференційовні обчислення Шаблон:Бібліоінформація

  1. Шаблон:Cite web Шаблон:Ref-en
  2. Шаблон:Cite book Шаблон:Ref-en
  3. Mansfield Merriman, "A List of Writings Relating to the Method of Least Squares" Шаблон:Ref-en
  4. Шаблон:Cite journal Шаблон:Ref-en
  5. Шаблон:Cite book Шаблон:Ref-en
  6. 6,00 6,01 6,02 6,03 6,04 6,05 6,06 6,07 6,08 6,09 6,10 6,11 6,12 Шаблон:Cite arXiv Шаблон:Ref-en
  7. Шаблон:Cite book Шаблон:Ref-en
  8. Шаблон:Cite journal Шаблон:Ref-en
  9. Шаблон:Cite journal Шаблон:Ref-en
  10. Шаблон:Cite journal Шаблон:Ref-en
  11. Шаблон:Cite journal Шаблон:Ref-en
  12. Шаблон:Cite news Шаблон:Ref-en
  13. Шаблон:Cite book Шаблон:Ref-en
  14. Шаблон:Cite journal Шаблон:Ref-en
  15. Haykin (2008) Neural Networks and Learning Machines, 3rd edition Шаблон:Ref-en
  16. Шаблон:Cite journal Шаблон:Ref-en
  17. Шаблон:Cite book Шаблон:Ref-en
  18. Шаблон:Cite journal Шаблон:Ref-en
  19. Шаблон:Cite journal Шаблон:Ref-en
  20. Шаблон:Cite book Шаблон:Ref-en
  21. 21,0 21,1 21,2 Шаблон:Cite journal Шаблон:Ref-en
  22. Шаблон:Cite book Шаблон:Ref-en
  23. Шаблон:Cite book Шаблон:Ref-en
  24. Шаблон:Cite journal Шаблон:Ref-en
  25. Шаблон:Cite journal Шаблон:Ref-en
  26. 26,0 26,1 Шаблон:Cite journal Шаблон:Ref-en
  27. Шаблон:Cite journal Шаблон:Ref-en
  28. Шаблон:Cite journal Шаблон:Ref-en
  29. Шаблон:Cite journal Шаблон:Ref-en
  30. Шаблон:Cite journal Шаблон:Ref-en
  31. Шаблон:Cite arXiv Шаблон:Ref-en
  32. Шаблон:Cite book Шаблон:Ref-en
  33. Шаблон:Cite thesis
  34. Шаблон:Cite journal Шаблон:Ref-en
  35. Шаблон:Cite book Шаблон:Ref-en
  36. Шаблон:Cite book Шаблон:Ref-en
  37. Шаблон:Cite book Шаблон:Ref-en
  38. Шаблон:Cite journal Шаблон:Ref-en
  39. Шаблон:Cite conference Шаблон:Ref-en
  40. 40,0 40,1 40,2 Шаблон:Cite journal Шаблон:Ref-en
  41. Шаблон:Cite journal Шаблон:Ref-en
  42. Шаблон:Cite journal Шаблон:Ref-en
  43. Шаблон:Cite journal Шаблон:Ref-en
  44. Шаблон:Cite book Шаблон:Ref-en
  45. David E. Rumelhart, Geoffrey E. Hinton & Ronald J. Williams, "Learning representations by back-propagating errors Шаблон:Webarchive," Nature', 323, pages 533–536 1986. Шаблон:Ref-en
  46. Шаблон:Cite conference Шаблон:Ref-en
  47. Шаблон:Нп et al., Phoneme Recognition Using Time-Delay Neural Networks IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No. 3, pp. 328. – 339 March 1989. Шаблон:Ref-en
  48. Шаблон:Cite journal Шаблон:Ref-en
  49. Шаблон:Cite journal Шаблон:Ref-en
  50. LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989. Шаблон:Ref-en
  51. J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively Шаблон:Webarchive," Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576–581, June 1992. Шаблон:Ref-en
  52. J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images Шаблон:Webarchive," Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121–128, May 1993. Шаблон:Ref-en
  53. J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron Шаблон:Webarchive," International Journal of Computer Vision, vol. 25, no. 2, pp. 105–139, Nov. 1997. Шаблон:Ref-en
  54. Шаблон:Cite journal Шаблон:Ref-en
  55. Qian, Ning, and Terrence J. Sejnowski. "Predicting the secondary structure of globular proteins using neural network models." Journal of molecular biology 202, no. 4 (1988): 865-884. Шаблон:Ref-en
  56. Bohr, Henrik, Jakob Bohr, Søren Brunak, Rodney MJ Cotterill, Benny Lautrup, Leif Nørskov, Ole H. Olsen, and Steffen B. Petersen. "Protein secondary structure and homology by neural networks The α-helices in rhodopsin." FEBS letters 241, (1988): 223-228 Шаблон:Ref-en
  57. Rost, Burkhard, and Chris Sander. "Prediction of protein secondary structure at better than 70% accuracy." Journal of molecular biology 232, no. 2 (1993): 584-599. Шаблон:Ref-en
  58. 58,0 58,1 Шаблон:Cite journal Шаблон:Ref-en
  59. Шаблон:Cite thesis
  60. Шаблон:Cite book Шаблон:Ref-en
  61. Шаблон:Cite journal Шаблон:Ref-en
  62. 62,0 62,1 Шаблон:Cite conference Шаблон:Ref-en
  63. Шаблон:Cite arXiv Шаблон:Ref-en
  64. Шаблон:Cite conference Шаблон:Ref-en
  65. Шаблон:Cite arXiv Шаблон:Ref-en
  66. Шаблон:Cite book Шаблон:Ref-en
  67. Шаблон:Cite web Шаблон:Ref-en
  68. Шаблон:Cite conference Шаблон:Ref-en
  69. Шаблон:Cite journal Шаблон:Ref-en
  70. Шаблон:Cite journal Шаблон:Ref-en
  71. 71,0 71,1 Шаблон:Cite conference Шаблон:Ref-en
  72. Шаблон:Cite web Шаблон:Ref-en
  73. Шаблон:Cite web Шаблон:Ref-en
  74. Шаблон:Cite journal Шаблон:Ref-en
  75. 75,0 75,1 S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen Шаблон:Webarchive," Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991. Шаблон:Ref-de
  76. Шаблон:Cite book Шаблон:Ref-en
  77. Шаблон:Cite journal Шаблон:Ref-en
  78. Шаблон:Cite journal Шаблон:Ref-en
  79. Шаблон:Cite book Шаблон:Ref-en
  80. Шаблон:Cite arXiv Шаблон:Ref-en
  81. Шаблон:Cite journal Шаблон:Ref-en
  82. Шаблон:Cite conference Шаблон:Ref-en
  83. Шаблон:Cite book Шаблон:Ref-en
  84. Шаблон:Cite book Шаблон:Ref-en
  85. Шаблон:Cite book Шаблон:Ref-en
  86. Шаблон:Cite arXiv Шаблон:Ref-en
  87. Шаблон:Cite book Шаблон:Ref-en
  88. Шаблон:Cite journal Шаблон:Ref-en
  89. Dominik Scherer, Andreas C. Müller, and Sven Behnke: "Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition Шаблон:Webarchive," In 20th International Conference Artificial Neural Networks (ICANN), pp. 92–101, 2010. Шаблон:Doi. Шаблон:Ref-en
  90. Інтерв'ю Kurzweil AI 2012 року Шаблон:Webarchive з Юргеном Шмідхубером про вісім змагань, виграних його командою Глибокого навчання в 2009—2012 роках Шаблон:Ref-en
  91. Шаблон:Cite web Шаблон:Ref-en
  92. 92,0 92,1 Шаблон:Cite book Шаблон:Ref-en
  93. 93,0 93,1 Шаблон:Cite journal Шаблон:Ref-en
  94. Шаблон:Cite book Шаблон:Ref-en
  95. 95,0 95,1 Шаблон:Cite book Шаблон:Ref-de
  96. Шаблон:Cite book Шаблон:Ref-en
  97. Шаблон:Cite journal Шаблон:Ref-en
  98. Шаблон:Cite journal Шаблон:Ref-en
  99. Шаблон:Cite web Шаблон:Ref-en
  100. Шаблон:Cite journal Шаблон:Ref-en
  101. Шаблон:Cite book
  102. Шаблон:Cite journal Шаблон:Ref-en
  103. Шаблон:Cite web Шаблон:Ref-en
  104. Шаблон:Cite book Шаблон:Ref-en
  105. Шаблон:Cite arXiv Шаблон:Ref-en
  106. Шаблон:Cite book Шаблон:Ref-en
  107. Шаблон:Cite journal Шаблон:Ref-en
  108. Шаблон:Cite journal Шаблон:Ref-en
  109. Шаблон:Cite arXiv Шаблон:Ref-en
  110. Шаблон:Cite journal Шаблон:Ref-en
  111. ESANN. 2009.
  112. Шаблон:Cite book
  113. 113,0 113,1 113,2 113,3 Шаблон:Cite book
  114. 114,0 114,1 114,2 114,3 Шаблон:Cite conference
  115. 115,0 115,1 115,2 115,3 Шаблон:Cite journal
  116. Шаблон:Cite book
  117. 117,0 117,1 Шаблон:Cite conference
  118. Шаблон:Cite book Шаблон:Ref-en
  119. Шаблон:Cite journal
  120. Шаблон:Cite journal Шаблон:Ref-en
  121. Шаблон:Cite conference Шаблон:Ref-en
  122. Шаблон:Cite journal Шаблон:Ref-en
  123. Шаблон:Cite book Шаблон:Ref-en
  124. Шаблон:Cite journal Шаблон:Ref-en
  125. Шаблон:Cite conference Шаблон:Ref-en
  126. Шаблон:Cite conference Шаблон:Ref-en
  127. Шаблон:Cite book Шаблон:Ref-en
  128. Bozinovski, S. (1982). "A self-learning system using secondary reinforcement". In R. Trappl (ed.) Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research. North Holland. pp. 397–402. Шаблон:ISBN. Шаблон:Ref-en
  129. Bozinovski, S. (2014) "Modeling mechanisms of cognition-emotion interaction in artificial neural networks, since 1981 Шаблон:Webarchive." Procedia Computer Science p. 255-263 Шаблон:Ref-en
  130. Шаблон:Cite journal Шаблон:Ref-en
  131. Шаблон:Cite web Шаблон:Ref-en
  132. Шаблон:Cite news Шаблон:Ref-en
  133. Шаблон:Citation Шаблон:Ref-en
  134. Шаблон:Cite journal Шаблон:Ref-en
  135. Шаблон:Cite conference Шаблон:Ref-en
  136. Шаблон:Cite book Шаблон:Ref-en
  137. Шаблон:Cite conference Шаблон:Ref-en
  138. Шаблон:Cite conference Шаблон:Ref-en
  139. 139,0 139,1 Шаблон:Cite journal Шаблон:Ref-en
  140. Шаблон:Cite journal Шаблон:Ref-en
  141. Шаблон:Cite journal Шаблон:Ref-en
  142. Yann LeCun (2016). Slides on Deep Learning Online Шаблон:Webarchive Шаблон:Ref-en
  143. Шаблон:Cite journal Шаблон:Ref-en
  144. Шаблон:Cite web Шаблон:Ref-en
  145. Шаблон:Cite arXiv Шаблон:Ref-en
  146. Шаблон:Cite journal Шаблон:Ref-en
  147. Шаблон:Cite web Шаблон:Ref-en
  148. Шаблон:Cite journal Шаблон:Ref-en
  149. Шаблон:Cite arXiv Шаблон:Ref-en
  150. Шаблон:Cite arXiv Шаблон:Ref-en
  151. Шаблон:Cite journal Шаблон:Ref-en
  152. Шаблон:Cite arXiv Шаблон:Bibcode Шаблон:Ref-en
  153. Шаблон:Cite journal Шаблон:Ref-en
  154. Шаблон:Cite book Шаблон:Ref-en
  155. Шаблон:Cite book Шаблон:Ref-en
  156. Шаблон:Cite book Шаблон:Ref-en
  157. Шаблон:Cite journal Шаблон:Ref-en
  158. Шаблон:Cite journal Шаблон:Ref-en
  159. Шаблон:Cite book Шаблон:Ref-en
  160. Шаблон:Cite book Шаблон:Ref-en
  161. Шаблон:Cite journal Шаблон:Ref-en
  162. Шаблон:Cite journal Шаблон:Ref-en
  163. Шаблон:Cite journal Шаблон:Ref-en
  164. Шаблон:Cite journal Шаблон:Ref-en
  165. Choy, Christopher B., et al. "3d-r2n2: A unified approach for single and multi-view 3d object reconstruction Шаблон:Webarchive." European conference on computer vision. Springer, Cham, 2016. Шаблон:Ref-en
  166. Шаблон:Cite journal Шаблон:Ref-en
  167. Шаблон:Cite journal Шаблон:Ref-en
  168. Шаблон:Cite journal Шаблон:Ref-en
  169. Шаблон:Cite news Шаблон:Ref-en
  170. Шаблон:Cite journal Шаблон:Ref-en
  171. Шаблон:Cite journal Шаблон:Ref-en
  172. Шаблон:Cite journal Шаблон:Ref-en
  173. Шаблон:Cite journal Шаблон:Ref-en
  174. Шаблон:Cite journal Шаблон:Ref-en
  175. Шаблон:Cite journal Шаблон:Ref-en
  176. Шаблон:Cite journal Шаблон:Ref-en
  177. Шаблон:Cite journal Шаблон:Ref-en
  178. Шаблон:Cite journal Шаблон:Ref-en
  179. Шаблон:Cite journal Шаблон:Ref-en
  180. Шаблон:Cite journal Шаблон:Ref-en
  181. Шаблон:Cite journal Шаблон:Ref-en
  182. Шаблон:Cite journal Шаблон:Ref-en
  183. Шаблон:Cite journal Шаблон:Ref-en
  184. Шаблон:Cite web Шаблон:Ref-en
  185. Шаблон:Citation Шаблон:Ref-en
  186. Шаблон:Cite journal Шаблон:Ref-en
  187. Шаблон:Cite web Шаблон:Ref-en
  188. Шаблон:Cite web Шаблон:Ref-en
  189. Шаблон:Cite web Шаблон:Ref-en
  190. Шаблон:Cite journal Шаблон:Ref-en
  191. Шаблон:Cite journal Шаблон:Ref-en
  192. Шаблон:Cite journal Шаблон:Ref-en
  193. Шаблон:Cite journal Шаблон:Ref-en
  194. Шаблон:Cite journal Шаблон:Ref-en
  195. Шаблон:Cite journal Шаблон:Ref-en
  196. Шаблон:Cite news Шаблон:Ref-en
  197. Шаблон:Cite journal Шаблон:Ref-en
  198. Шаблон:Cite journal
  199. Шаблон:Cite web
  200. 200,0 200,1 Шаблон:Cite book Шаблон:Ref-en
  201. Шаблон:Cite journal Шаблон:Ref-en
  202. Шаблон:Cite journal Шаблон:Ref-en
  203. Шаблон:Cite web Шаблон:Webarchive Шаблон:Ref-en
  204. Шаблон:Cite journal Шаблон:Ref-en
  205. Шаблон:Cite conference Шаблон:Ref-en
  206. Шаблон:Cite book Шаблон:Ref-en
  207. Шаблон:Cite journal Шаблон:Ref-en
  208. Шаблон:Cite journal Шаблон:Ref-en
  209. Шаблон:Cite arXiv Шаблон:Ref-en
  210. Шаблон:Cite journal Шаблон:Ref-en
  211. Шаблон:Cite journal Шаблон:Ref-en
  212. Шаблон:Cite book Шаблон:Ref-en
  213. NASA – Dryden Flight Research Center – News Room: News Releases: NASA NEURAL NETWORK PROJECT PASSES MILESTONE Шаблон:Webarchive. Nasa.gov. Retrieved on 20 November 2013. Шаблон:Ref-en
  214. D. J. Felleman and D. C. Van Essen, "Distributed hierarchical processing in the primate cerebral cortex," Cerebral Cortex, 1, pp. 1–47, 1991. Шаблон:Ref-en
  215. J. Weng, "Natural and Artificial Intelligence: Introduction to Computational Brain-Mind," BMI Press, Шаблон:ISBN, 2012. Шаблон:Ref-en
  216. Шаблон:Cite journal Шаблон:Ref-en
  217. Шаблон:Cite news Шаблон:Ref-en
  218. Шаблон:Cite web Шаблон:Ref-en
  219. Шаблон:Cite journal Шаблон:Ref-en