Глибоке навчання

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Short description

Подання зображень на кількох шарах абстракції в глибокому навчанні
Подання зображень на кількох шарах абстракції в глибокому навчанні[1]

Шаблон:Машинне навчання Шаблон:Штучний інтелект (бічна панель)

Глибо́ке навча́ння[2][3][4] (Шаблон:Lang-en, також іноді глиби́нне навча́ння) — це підмножина методів машинного навчання на основі штучних нейронних мережах із навчанням подань. Прикметник «глибоке» (Шаблон:Lang-en) вказує на використання декількох шарів у мережі. Використовувані методи навчання можуть бути керованими, напівкерованими, та некерованими.[5]

Архітектури глибокого навчання, такі як глибокі нейронні мережі, глибокі мережі переконань, рекурентні нейронні мережі, згорткові нейронні мережі та трансформери, застосовували в таких галузях як комп'ютерне бачення, розпізнавання мовлення, обробка природної мови, машинний переклад, біоінформатика, конструювання ліків, Шаблон:Нп, кліматологія, перевірка матеріалів і програми настільних ігор, де вони дали результати, порівня́нні, а в деяких випадках і кращі за продуктивність людських експертів.[6][7][8]

Штучні нейронні мережі (ШНМ) було натхненно обробкою інформації та розподіленими комунікаційними вузлами в біологічних системах. ШНМ мають різноманітні відмінності від біологічного мозку. Зокрема, штучні нейронні мережі зазвичай статичні та символьні, тоді як біологічний мозок більшості живих організмів динамічний (пластичний) та аналоговий.[9][10] ШНМ загалом розглядають як низькоякісні моделі функціювання мозку.[11]

Шаблон:TOC limit

Визначення

Глибоке навчання — це клас алгоритмів машинного навчання, який[12]Шаблон:Rp використовує декілька шарів, щоби поступово виділяти з сирого входу ознаки щоразу вищих рівнів. Наприклад, при обробці зображень нижчі шари можуть встановлювати контури, тоді як вищі шари можуть встановлювати поняття, доречні для людини, такі як цифри, літери чи обличчя.

Якщо поглянути на глибоке навчання під іншим кутом, то глибоке навчання позначує «комп'ютерне моделювання» або «автоматизацію» процесів навчання людиною від джерела (наприклад, зображення собак) до об'єкта навчання (собак). Тому мають сенс поняття, сформульовані як «глибше» (Шаблон:Lang-en) та «найглибше» (Шаблон:Lang-en) навчання.[13] Найглибше навчання позначує повністю автоматичне навчання від джерела до кінцевого об'єкта навчання. Глибше навчання відтак позначує змішаний процес навчання: процес навчання людиною від джерела до навченого напівоб'єкта, за яким слідує комп'ютерний процес навчання від навченого людиною напівоб'єкта до кінцевого об'єкта навчання.

Огляд

Більшість сучасних моделей глибокого навчання ґрунтуються на багатошарових штучних нейронних мережах, таких як згорткові нейронні мережі та трансформери, хоча до них також можуть належати Шаблон:Нп та латентні змінні, організовані пошарово в глибоких породжувальних моделях, такі як вузли в глибоких мережах переконань чи глибоких машинах Больцмана.[14]

У глибокому навчанні кожен рівень вчиться перетворювати свої вхідні дані на дещо абстрактніше й складніше подання. У застосунку для розпізнавання зображень сирий вхід може бути матрицею пікселів; перший шар подання може абстрагуватися від пікселів і кодувати контури; другий шар може складати та кодувати їхнє розташування; третій шар може кодувати ніс та очі; а четвертий шар може розпізнавати, що зображення містить обличчя. Важливо, що процес глибокого навчання може самостійно вчитися, які ознаки оптимально розмістити на якому рівні. Це не звільняє від необхідності ручного настроювання; наприклад, різна кількість та розміри шарів можуть забезпечувати різні ступені абстракції.[15][16]

Слово «глибоке» у «глибокому навчанні» позначує кількість шарів, крізь які перетворюються дані. Точніше, системи глибокого навчання мають значну глибину шляху розподілу внеску (ШРВ, Шаблон:Lang-en). ШРВ — це ланцюг перетворень від входу до виходу. ШРВ описують потенційно причинно-наслідкові зв'язки між входом та виходом. Для нейронної мережі прямого поширення глибина ШРВ дорівнює глибині мережі й є кількістю прихованих шарів плюс один (оскільки шар виходу також параметризовано). Для рекурентних нейронних мереж, у яких сигнал може поширюватися крізь шар понад один раз, глибина ШРВ потенційно необмежена.[17] Немає універсально узгодженого порогу глибини, який відділяє неглибоке навчання (Шаблон:Lang-en) від глибокого, але більшість дослідників сходяться на думці, що глибоке навчання використовує глибину ШРВ вище 2. Було показано, що ШРВ глибини 2 це універсальний наближувач у тому сенсі, що він може моделювати будь-яку функцію.[18] Поза цим, більше шарів не додають нічого до здатності мережі наближувати функції. Глибокі моделі (ШРВ > 2) здатні виділяти кращі ознаки, ніж неглибокі моделі, й отже, додаткові шари допомагають ефективно навчатися ознак.

Архітектури глибокого навчання можливо конструювати пошарово жадібним методом.[19] Глибоке навчання допомагає розплутувати ці абстракції й обирати, які ознаки покращують продуктивність.[15]

Для завдань керованого навчання методи глибокого навчання уможливлюють усування конструювання ознак, переводячи дані до компактних проміжних подань, подібних до головних компонент, і виводять багатошарові структури, які усувають надмірність у поданні.

Алгоритми глибокого навчання можливо застосовувати до завдань некерованого навчання. Це важлива перевага, оскільки немічені дані численніші за мічені. Прикладами глибоких структур, які можливо тренувати некерованим чином, є глибокі мережі переконань.[15][20]

Моделі машинного навчання тепер вправні у виявлянні складних шаблонів у даних фінансових ринків. Завдяки перевагам штучного інтелекту інвестори все частіше використовують методики глибокого навчання для прогнозування та аналізу тенденцій на фондових та валютних ринках.[21]

Інтерпретації

Глибокі нейронні мережі зазвичай інтерпретують у термінах теореми про універсальне наближення[22][23][24][25][26] або ймовірнісного висновування.[27][12][15][17][28]

Класична теорема про універсальне наближення стосується здатності нейронної мережі прямого поширення з одним прихованим шаром скінченного розміру наближувати неперервні функції.[22][23][24][25] 1989 року Джордж Цибенко опублікував перше її доведення для сигмоїдних передавальних функцій,[22] а 1991 року Шаблон:Нп узагальнив його для багатошарових архітектур прямого поширення.[23] Нещодавня робота також показала, що універсальне наближення також виконується для необмежених передавальних функцій, таких як випрямлений лінійний вузол (Шаблон:Lang-en) Шаблон:Нп.[29][30]

Теорема про універсальне наближення для глибоких нейронних мереж розглядає пропускну спроможність мереж з обмеженою шириною, дозволяючи зростати глибині. Лу зі співавт.[26] довели, що якщо ширина глибокої нейронної мережі з передавальною функцією ReLU строго більша за розмірність входу, то ця мережа може наближувати будь-яку функцію, інтегровну за Лебегом; якщо її ширина менша або дорівнює розмірності входу, то глибока нейронна мережа не є універсальним наближувачем.

Імовірнісна інтерпретація[28] походить з галузі машинного навчання. Вона відводить провідне місце висновуванню,[12][14][15][17][20][28] а також таким поняттям оптимізації як тренування та випробування, пов'язаним із допасовуванням та узагальнюванням відповідно. Конкретніше, ймовірнісна інтерпретація розглядає нелінійність передавальної функції як кумулятивну функцію розподілу.[28] Імовірнісна інтерпретація призвела до запровадження виключення (Шаблон:Lang-en) як регуляризатора в нейронних мережах. Імовірнісну інтерпретацію було запроваджено дослідниками включно з Гопфілдом, Шаблон:Нп та Шаблон:Нп, й популяризовано в оглядах, таких як від Шаблон:Нп.[31]

Історія

Існує два типи нейронних мереж: нейронні мережі прямого поширення (НМПП, Шаблон:Lang-en) та рекурентні нейронні мережі (РНМ, Шаблон:Lang-en). РНМ мають цикли у структурі зв'язності, а НМПП — ні. У 1920-х роках Шаблон:Нп та Шаблон:Нп створили та проаналізували модель Ізінга,[32] яка, по суті, є архітектурою РНМ, що не навчається, і складається з нейроноподібних порогових елементів. 1972 року Шаблон:Нп зробив цю архітектуру адаптивною.[33][34] Його навчання РНМ популяризував Джон Гопфілд 1982 року.[35] РНМ стали центральними для розпізнавання мовлення та Шаблон:Нп.

Чарльз Тапперт пише, що Френк Розенблат розробив та дослідив усі основні складові сучасних систем глибокого навчання,[36] посилаючись на книгу Розенблата 1962 року,[37] якою було запроваджено багатошаровий перцептрон (БШП) із 3 шарами: шаром входу, прихованим шаром із випадковими вагами, що не навчалися, та шаром виходу. Він також запропонував варіанти, включно з версією з чотирьохшаровими перцептронами, де останні два шари мають ваги, що навчаються (й отже, справжній багатошаровий перцептрон).[37]Шаблон:Rp Крім того, термін глибоке навчання запропонувала 1986 року Шаблон:Нп,[38] хоча історія його появи, схоже, набагато складніша.[39]

Перший загальний, робочий алгоритм навчання для глибоких багатошарових перцептронів прямого поширення керованим навчанням опублікували 1967 року Олексій Івахненко та Валентин Лапа.[40] У статті 1971 року описано глибоку мережу з восьми шарів, треновану методом групового урахування аргументів.[41]

Перший багатошаровий перцептрон глибокого навчання, тренований стохастичним градієнтним спуском,[42] опублікував 1967 року Шаблон:Нп.[43][34] У комп'ютерних експериментах, проведених учнем Амарі, Сайто, п'ятишаровий БШП із двома змінними шарами навчився внутрішніх подань для класифікування нелінійно роздільних класів образів.[34] 1987 року Метью Бренд повідомив, що широкі 12-шарові нелінійні перцептрони можливо повністю наскрізно тренувати відтворювати логічні функції нетривіальної глибини ланцюга за допомогою градієнтного спуску на невеликих пакетах випадкових вибірок входів/виходів, але зробив висновок, що час тренування на тогочасному обладнанні (домегафлопних комп'ютерах) зробив цю методику непрактичною, та запропонував використовувати незмінні випадкові ранні шари як хеш входу для єдиного змінюваного рівня.[44] Натомість подальші розробки апаратного забезпечення та підлаштовування гіперпараметрів зробили наскрізний стохастичний градієнтний спуск нині переважною методикою тренування.

1970 року Шаблон:Нп опублікував зворотний режим автоматичного диференціювання дискретно зв'язаних мереж вкладених диференційовних функцій.[45][46][47] Він став відомим як зворотне поширення.[17] Це ефективне застосування ланцюгового правила, виведеного Готфрідом Вільгельмом Лейбніцем 1673 року,[48] до мереж диференційовних вузлів.[34] Термінологію «зворотно поширювані похибки» (Шаблон:Lang-en) фактично запровадив 1962 року Розенблат,[37][34] але він не знав, як це втілити, хоча Шаблон:Нп вже 1960 року мав безперервного попередника зворотного поширення[49] в контекст теорії керування.[34] 1982 року Шаблон:Нп застосував зворотне поширення до БШП у спосіб, який став стандартним.[50][51][34] 1985 року Девід Румельхарт зі співавт. опублікували експериментальний аналіз цієї методики.[52]

Ахітектури глибокого навчання для згорткових нейронних мереж (ЗНМ, Шаблон:Lang-en) зі згортковими шарами та шарами зниження роздільності почалися з неокогнітрона, запропонованого Шаблон:Нп 1980 року.[53] 1969 року він також запропонував передавальну функцію ReLU (Шаблон:Lang-en, випрямлений лінійний вузол).[29][34] Цей випрямляч (Шаблон:Lang-en) став найпопулярнішою передавальною функцією для ЗНМ та глибокого навчання в цілому.[54] ЗНМ стали важливим інструментом комп'ютерного бачення.

Термін глибоке навчання (Шаблон:Lang-en) у спільноті машинного навчання запровадила 1986 року Шаблон:Нп,[38] а для штучних нейронних мереж — Ігор Айзенберг з колегами у 2000 року в контексті Шаблон:Нп порогових нейронів.[55][56]

1988 року Вей Чжан зі співавт. застосували алгоритм зворотного поширення до згорткової нейронної мережі (спрощений неокогнітрон зі згортковими взаємозв'язками між шарами ознак зображення та останнім повноз'єднаним шаром) для розпізнавання абетки. Вони також запропонували втілення ЗНМ з оптичною обчислювальною системою.[57][58] 1989 року Ян ЛеКун зі співавт. застосували зворотне поширення до ЗНМ з метою розпізнавання рукописних поштових індексів у пошті. Хоч цей алгоритм і працював, тренування вимагало 3 днів.[59] Згодом Вей Чжан зі співавт. видозмінили свою модель, видаливши останній повноз'єднаний шар, та застосувавши її для сегментування об'єктів медичних зображень 1991 року,[60] та для виявляння раку молочної залози на мамограмах 1994 року.[61] LeNet-5 (1998), 7-рівневу ЗНМ від Яна ЛеКуна зі співавт.,[62] що класифікує цифри, кілька банків застосували для розпізнавання рукописних чисел на чеках, оцифрованих у зображення 32×32 пікселі.

У 1980-х роках зворотне поширення не працювало добре для глибокого навчання з довгими шляхами розподілу внеску. Щоби подолати цю проблему, Юрген Шмідхубер (1992) запропонував ієрархію РНМ, попередньо тренованих порівнево самокерованим навчанням.[63] Вона використовує Шаблон:Нп для навчання внутрішніх подань у кількох самоорганізованих масштабах часу. Це може істотно полегшувати наступне глибоке навчання. Цю ієрархію РНМ можливо скласти (Шаблон:Lang-en) в єдину РНМ шляхом Шаблон:Нп фрагментувальної (Шаблон:Lang-en) мережі вищого рівня до автоматизаторної (Шаблон:Lang-en) мережі нижчого рівня.[63][34] 1993 року фрагментувальник розв'язав завдання глибокого навчання, чия глибина перевищувала 1000.[64]

1992 року Юрген Шмідхубер також опублікував альтернативу РНМ (Шаблон:Lang-en),[65] яку зараз називають лінійним трансформером (Шаблон:Lang-en) або трансформером з лінеаризованою самоувагою[66][67][34] (за винятком оператора нормування). Він навчається внутрішніх центрів уваги (Шаблон:Lang-en):[68] повільна нейронна мережа прямого поширення вчиться за допомогою градієнтного спуску керувати швидкими вагами іншої нейронної мережі через тензорні добутки самопороджуваних шаблонів збудження FROM і TO (званих тепер ключем, Шаблон:Lang-en, та значенням, Шаблон:Lang-en, самоуваги).[66] Це відображення уваги (Шаблон:Lang-en) швидких ваг застосовують до шаблону запиту.

Сучасний трансформер (Шаблон:Lang-en) запропонували Ашиш Васвані зі співавт. у своїй праці 2017 року «Увага — це все, що вам треба».[69] Він поєднує це з оператором softmax та проєкційною матрицею.[34] Трансформери все частіше обирають за модель для обробки природної мови.[70] Багато сучасних великих мовних моделей, таких як ChatGPT, GPT-4 та BERT, використовують саме його. Трансформери також все частіше використовують у комп'ютернім баченні.[71]

1991 року Юрген Шмідхубер також опублікував змагальні нейронні мережі (Шаблон:Lang-en), які змагаються між собою у формі антагоністичної гри, де виграш однієї мережі є програшем іншої.[72][73][74] Перша мережа є породжувальною моделлю, яка моделює розподіл імовірності над образами на виході. Друга мережа навчається градієнтним спуском передбачувати реакцію середовища на ці образи. Це було названо «штучною цікавістю» (Шаблон:Lang-en). 2014 року цей принцип використали у породжувальній змагальній мережі (Шаблон:Lang-en) Ян Ґудфелоу зі співавт.[75] Тут реакція навколишнього середовища дорівнює 1 або 0 залежно від того, чи належить вихід першої мережі до заданого набору. Це можливо використовувати для створення реалістичних дипфейків.[76] Відмінної якості зображення досягла Шаблон:Нп Nvidia (2018)[77] на основі прогресивної породжувальної змагальної мережі (Шаблон:Lang-en) Теро Карраса зі співавт.[78] Тут породжувач вирощується від малого до великого пірамідним чином.

Дипломну працю Шаблон:Нп (1991)[79] його керівник Шмідхубер назвав «одним із найважливіших документів в історії машинного навчання».[34] Він не лише випробував нейронний стискач історії,[63] але й виявив та проаналізував проблему зникання градієнта.[79][80] Для розв'язання цієї проблеми Хохрайтер запропонував рекурентні залишкові зв'язки. Це призвело до появи методу глибокого навчання, званого довгою короткочасною пам'яттю (ДКЧП, Шаблон:Lang-en), опублікованого 1997 року.[81] Рекурентні нейронні мережі ДКЧП можуть навчатися задач «дуже глибокого навчання»[17] з довгими шляхами розподілу внеску, які вимагають спогадів про події, що відбулися тисячі дискретних часових кроків тому. «Стандартну ДКЧП» (Шаблон:Lang-en) із забувальним вентилем запропонували 1999 року Шаблон:Нп, Шмідхубер та Фред Каммінс.[82] ДКЧП стала найцитованішою нейронною мережею XX століття.[34] 2015 року Рупеш Кумар Шрівастава, Клаус Ґрефф і Шмідхубер використали принцип ДКЧП для створення магістралевої мережі, нейронної мережі прямого поширення з сотнями шарів, набагато глибшої за попередні.[83][84] 7 місяців потому, Каймін Хе, Сян'ю Чжан; Шаоцін Рен та Цзянь Сунь виграли Шаблон:Нп 2015 із відкритовентильним або безвентильним варіантом магістралевої мережі, названим за́лишковою нейронною мережею (Шаблон:Lang-en).[85] Вона стала найцитованішою нейронною мережею XXI століття.[34]

1994 року Андре де Карвальо разом з Майком Фейргерстом та Девідом Біссетом опублікували експериментальні результати багатошарової булевої нейронної мережі, відомої також як безвагова нейронна мережа (Шаблон:Lang-en), складеної з 3-шарового самоорганізовуваного нейромережного модуля виділяння ознак (Шаблон:Lang-en), з багатошаровим класифікаційним нейромережним модулем (Шаблон:Lang-en) за ним, тренованих незалежно. Кожен шар у модулі виділяння ознак виділяв ознаки все вищої складності відносно попереднього шару.[86]

1995 року Шаблон:Нп продемонстрував можливість натренувати (протягом двох днів) мережу із шести повноз'єднаних шарів та кількох сотень прихованих вузлів, використовуючи Шаблон:Нп, розроблений спільно з Шаблон:Нп та Гінтоном.[87]

З 1997 року Свен Бенке розширив ієрархічний згортковий підхід прямого поширення у нейронній піраміді абстракцій (Шаблон:Lang-en)[88] за допомогою бічних та зворотних з'єднань, щоби гнучко включати контекст у рішення та ітеративно розв'язувати локальні неоднозначності.

У 1990-х і 2000-х роках популярністю користувалися простіші моделі, які використовують сконструйовані вручну ознаки для конкретних завдань, такі як фільтри Ґабора (Шаблон:Lang-en) та опорновекторні машини (ОВМ, Шаблон:Lang-en), через обчислювальну витратність штучних нейронних мереж (ШНМ) та брак розуміння того, як мозок сплітає свої біологічні мережі.

Як неглибоке, так і глибоке навчання (наприклад, рекурентні мережі) ШНМ для розпізнавання мовлення досліджували протягом багатьох років.[89][90][91] Ці методи ніколи не перевершували технологію неоднорідних внутрішньо-ручних гауссових Шаблон:Нп/прихованих марковських моделей (ГСМ-ПММ, Шаблон:Lang-en) на основі породжувальних моделей мовлення, тренованих розрізнювально.[92] Було проаналізовано основні труднощі, включно зі зниканням градієнта[79] й слабкою структурою часової кореляції в нейронних передбачувальних моделях.[93][94] Додатковими труднощами були брак тренувальних даних та обмежена обчислювальна потужність. Більшість дослідників розпізнавання мовлення відійшли від нейронних мереж, щоби займатися породжувальним моделюванням. Винятком був SRI International наприкінці 1990-х років. Фінансований агенціями уряду США АНБ та DARPA, SRI вивчав глибокі нейронні мережі в розпізнаванні мовлення та мовця. Команда розпізнавання мовців на чолі з Шаблон:Нп повідомила про значний успіх із глибокими нейронними мережами в обробці мовлення на оцінюванні розпізнавання мовців Національного інституту стандартів і технологій 1998 року.[95] Потім глибоку нейронну мережу SRI було розгорнуто в Nuance Verifier, що стало першим великим промисловим застосуванням глибокого навчання.[96] Принцип піднесення «сирих» ознак над ручною оптимізацією було вперше успішно досліджено в архітектурі глибокого автокодувальника на «сирій» спектрограмі або ознаках лінійного Шаблон:Нп наприкінці 1990-х,[96] що показало його перевагу над мел-кепстровими ознаками, які містять етапи незмінного перетворення зі спектрограм. Сирі ознаки мовлення, хвилеформи, згодом дали чудові великомасштабні результати.[97]

Розпізнавання мовлення перейняла ДКЧП. 2003 року ДКЧП на певних завданнях почала конкурувати з традиційними розпізнавачами мовлення.[98] 2006 року Шаблон:Нп, Сантьяго Фернандес, Фаустіно Ґомес та Шмідхубер поєднали її з Шаблон:Нп (НЧК, Шаблон:Lang-en)[99] у стеках РНМ ДКЧП.[100] 2015 року в розпізнаванні мовлення Google, як було повідомлено, стався різкий 49-відсотковий стрибок продуктивності завдяки НЧК-тренованій ДКЧП, яку вони зробили доступною через голосовий пошук Google.[101]

Вплив глибокого навчання в промисловості почався на початку 2000-х років, коли, за словами Яна ЛеКуна, ЗНМ вже обробляли приблизно від 10 % до 20 % усіх чеків, виписуваних у США.[102] Промислові застосування глибокого навчання для широкомасштабного розпізнавання мовлення почалися приблизно 2010 року.

2006 року публікації Джеффа Гінтона, Шаблон:Нп, Осіндеро та Шаблон:Нп[103][104][105] показали, як багатошарову нейронну мережу прямого поширення можливо ефективно попередньо тренувати шар за шаром, розглядаючи кожен шар по черзі як некеровану обмежену машину Больцмана, а потім тонко налаштовувати її за допомогою керованого зворотного поширення.[106] Ці праці стосувалися навчання для глибоких мереж переконань.

Мотивом семінару NIPS 2009 року з глибокого навчання для розпізнавання мовлення були обмеження глибоких породжувальних моделей мовлення та можливість того, що завдяки потужнішому апаратному забезпеченню та великомасштабним наборам даних глибокі нейронні мережі (ГНМ, Шаблон:Lang-en) можуть стати практичними. Вважалося, що попереднє тренування ГНМ за допомогою породжувальних моделей глибоких мереж переконань (ГМП, Шаблон:Lang-en) дозволить подолати основні труднощі нейронних мереж. Проте було виявлено, що заміна попереднього тренування великими обсягами тренувальних даних для безпосереднього зворотного поширення при використанні ГНМ з великими контекстнозалежними шарами виходу призводить до різко нижчих рівнів похибок, ніж у гауссової сумішевої моделі (ГСМ)/прихованої марковської моделі (ПММ), що була на рівні останніх досягнень на той час, а також ніж у передовіших систем на основі породжувальних моделей.[107] Природа похибок розпізнавання, породжуваних цими двома типами систем, характерно відрізнялася,[108] пропонуючи технічні прояснення щодо того, як інтегрувати глибоке навчання в наявну високоефективну систему декодування мовлення в реальному часі, розгорнуту всіма основними системами розпізнавання мовлення.[12][109][110] Аналіз близько 2009—2010 років, порівнюючи ГСМ (та інші породжувальні моделі мовлення) з моделями ГНМ, стимулював перші промислові інвестиції в глибоке навчання для розпізнавання мовлення.[108] Цей аналіз було зроблено з порівнянною продуктивністю (менше 1,5 % у рівні похибок) між розрізнювальними ГНМ та породжувальними моделями.[107][108][111] 2010 року дослідники розширили глибоке навчання від Шаблон:Нп до великословникового розпізнавання мовлення, застосувавши великі шари виходу ГНМ на основі контекстнозалежних станів ПММ, побудованих за допомогою дерев рішень.[112][113][114][109]

Глибоке навчання є частиною систем рівня останніх досягнень у різних дисциплінах, зокрема в комп'ютернім баченні та автоматичному розпізнаванні мовлення (АРМ, Шаблон:Lang-en). Результати на загальновживаних оцінювальних наборах, таких як Шаблон:Нп (АРМ) та MNIST (класифікування зображень), а також низці завдань великословникового розпізнавання мовлення, постійно покращувалися.[107][115] Згорткові нейронні мережі (ЗНМ) для АРМ було витіснено НЧК[99] для ДКЧП,[81][101][116][117][118] але в комп'ютернім баченні вони успішніші.

Удосконалення апаратного забезпечення відновило інтерес до глибокого навчання. 2009 року Nvidia брала участь у так званому «великому вибуху» глибокого навчання, «оскільки нейронні мережі глибокого навчання тренували за допомогою графічних процесорів (ГП) Nvidia».[119] Того року Ендрю Ин визначив, що ГП можуть підвищити швидкість систем глибокого навчання приблизно в 100 разів.[120] Зокрема, ГП добре підходять для матричних/векторних обчислень, задіяних у машинному навчанні.[121][122][123] ГП прискорюють алгоритми тренування на порядки, скорочуючи час роботи з тижнів до днів.[124][125] Крім того, для ефективної обробки моделей глибокого навчання можливо використовувати спеціалізоване обладнання та оптимізацію алгоритмів.[126]

Революція глибокого навчання

Як глибоке навчання є підмножиною машинного навчання і як машинне навчання є підмножиною штучного інтелекту (ШІ)

Наприкінці 2000-х глибоке навчання почало перевершувати інші методи в змаганнях з машинного навчання. 2009 року довга короткочасна пам'ять, натренована Шаблон:Нп (Шаблон:Нп, Сантьяго Фернандес, Фаустіно Ґомес та Юрген Шмідхубер, 2006)[99] стала першою РНМ, яка виграла конкурси з розпізнавання образів, вигравши три змагання з розпізнавання неперервного рукописного тексту.[127][17] Пізніше Google використала натреновану НЧК ДКЧП для розпізнавання мовлення на смартфоні.[128][101]

Значний вплив на розпізнавання зображень або об'єктів відчувався з 2011 по 2012 роки. Хоча ЗНМ, треновані зворотним поширенням, існували десятиліттями,[57][59] а втілення НМ на ГП — роками,[121] включно із ЗНМ,[123][17] для прогресу в комп'ютернім баченні знадобилися швидші втілення ЗНМ на графічних процесорах. 2011 року DanNet[129][6] Дена Чирешана, Улі Меєра, Джонатана Маскі, Шаблон:Нп та Юргена Шмідхубера вперше досягла надлюдських результатів у змаганні з розпізнавання візуальних образів, перевершивши традиційні методи втричі.[17] Також 2011 року DanNet виграла конкурс із китайського рукописного тексту ICDAR, а в травні 2012 року перемогла в конкурсі з сегментування зображень ISBI.[130] До 2011 року ЗНМ не відігравали великої ролі на конференціях з комп'ютерного бачення, але в червні 2012 року публікація Чирешана зі співавт. на провідній конференції CVPR[6] показала, як максимізувально агрегувальні ЗНМ на ГП можуть значно покращувати багато еталонних рекордів у баченні. У вересні 2012 року DanNet також виграла конкурс ICPR з аналізу великих медичних зображень для виявляння раку, а наступного року також і MICCAI Grand Challenge на ту ж тему.[131] У жовтні 2012 року подібна AlexNet Олексія Крижевського, Іллі Суцкевера та Джефрі Гінтона[7] виграла великомасштабне Шаблон:Нп зі значним відривом від неглибоких методів машинного навчання. Мережа VGG-16 Шаблон:Нпні та Шаблон:Нп[132] ще більше знизила рівень похибок і виграла конкурс ImageNet 2014, слідуючи подібній тенденції у широкомасштабному розпізнаванні мовлення.

Потім класифікування зображень було розширено до складнішого завдання Шаблон:Нп (підписів) для зображень, часто як поєднання ЗНМ та ДКЧП.[133][134][135]

2012 року команда під проводом Джорджа Даля виграла конкурс «Merck Molecular Activity Challenge», використовуючи багатозадачні глибокі нейронні мережі для передбачування Шаблон:Нп одного препарату.[136][137] 2014 року група Шаблон:Нп використала глибоке навчання для виявляння нецільових і токсичних впливів хімічних речовин навколишнього середовища у поживних речовинах, побутових товарах і ліках, і виграла «Tox21 Data Challenge» NIH, FDA та Шаблон:Нп.[138][139][140]

2016 року Роджер Парлофф зазначив «революцію глибокого навчання», яка змінила галузь ШІ.[141]

У березні 2019 року Шаблон:Нп, Джефрі Гінтона та Яна ЛеКуна було нагороджено премією Тюрінга за концептуальні та інженерні прориви, які зробили глибокі нейронні мережі критично важливою складовою обчислювальної техніки.

Нейронні мережі

Шаблон:Main Шаблон:Multiple image

Шту́чні нейро́нні мере́жі (ШНМ, Шаблон:Lang-en) або коннекціоні́стські систе́ми (Шаблон:Lang-en) — це обчислювальні системи, натхненні біологічними нейронними мережами, які складають мозок тварин. Такі системи вчаться (поступово вдосконалюють свої здібності) виконувати завдання, розглядаючи приклади, як правило, без програмування під конкретне завдання. Наприклад, у розпізнаванні зображень вони можуть навчитися встановлювати зображення, які містять котів, аналізуючи приклади зображень, Шаблон:Нп вручну як «кіт» чи «кота нема», і використовуючи результати цього аналізу для встановлювання котів на інших зображеннях. Вони знайшли найбільше використання в застосуваннях, які важко висловити за допомогою традиційного комп'ютерного алгоритму з використанням програмування на основі правил .

ШНМ ґрунтується на сукупності з'єднаних вузлів, званих штучними нейронами (аналогічно біологічним нейронам у біологічному мозку). Кожне з'єднання (синапс) між нейронами може передавати сигнал іншому нейронові. Приймальний (постсинаптичний) нейрон може обробляти сигнал(и), а потім сигналізувати подальшим нейронам. Нейрони можуть мати стан, як правило, поданий дійсними числами, зазвичай між 0 та 1. Нейрони та синапси також можуть мати вагу, яка змінюється в міру навчання, що може збільшувати або зменшувати силу сигналу, який вони надсилають далі.

Як правило, нейрони впорядковано в шари (Шаблон:Lang-en). Різні шари можуть виконувати різні типи перетворень над своїми входами. Сигнали проходять від першого шару (шару входу) до останнього шару (шару виходу), можливо, після проходження шарами декілька разів.

Початкова мета нейромережного підходу полягала у розв'язуванні задач таким же чином, як це робив би людський мозок. З часом увага зосередилася на відповідності конкретним розумовим здібностям, що призвело до відхилень від біології, таких як зворотне поширення, або передавання інформації у зворотному напрямку з підлаштовуванням мережі відображувати цю інформацію.

Нейронні мережі використовували для різноманітних завдань, включно з комп'ютерним баченням, розпізнаванням мовлення, машинним перекладом, фільтруванням соціальних мереж, Шаблон:Нп та медичною діагностикою.

Станом на 2017 рік нейронні мережі зазвичай мають від кількох тисяч до кількох мільйонів вузлів та мільйони з'єднань. Незважаючи на те, що це число на кілька порядків менше за число нейронів у мозку людини, ці мережі можуть виконувати багато завдань на рівні, що перевершує людський (наприклад, розпізнавати обличчя або грати в «Ґо»[142]).

Глибокі нейронні мережі

Глибока нейронна мережа (ГНМ, Шаблон:Lang-en) — це штучна нейронна мережа (ШНМ) із кількома шарами між шарами входу та виходу.[14][17] Існують різні типи нейронних мереж, але вони завжди складаються з тих же складових: нейронів, синапсів, ваг, зміщень та функцій.[143] Ці складові в цілому функціонують у спосіб, що імітує функціювання людського мозку, і їх, як і будь-який інший алгоритм МН, можливо тренувати.Шаблон:Джерело

Наприклад, ГНМ, тренована розпізнавати породи собак, проходитиме заданим зображенням й обчислюватиме ймовірність того, що зображений собака належить до певної породи. Користувач може переглядати результати й обирати, які ймовірності мережа повинна відображувати (вище певного порогу тощо) й повертати запропоновану мітку. Кожну математичну маніпуляцію як таку вважають шаром,Шаблон:Джерело і складні ГНМ мають багато шарів, звідси й назва «глибокі» мережі.

ГНМ можуть моделювати складні нелінійні зв'язки. Архітектури ГНМ породжують композиційні моделі, де об'єкт виражають багатошаровою композицією примітивів.[144] Додаткові шари дозволяють комбінувати ознаки з нижчих шарів, потенційно моделюючи складні дані меншою кількістю вузлів, ніж неглибокі мережі з подібною продуктивністю.[14] Наприклад, було доведено, що розріджені багатовимірні многочлени експоненційно легше наближувати за допомогою ГНМ, ніж за допомогою неглибоких мереж.[145]

До глибоких архітектур належать багато варіантів кількох основних підходів. Кожна архітектура досягла успіху в певних областях. Не завжди можливо порівняти продуктивність кількох архітектур, якщо їх оцінювали не на однакових наборах даних.

ГНМ, як правило, є мережами прямого прямого поширення, в яких дані проходять з шару входу до шару виходу без повернення назад. Спочатку ГНМ створює карту віртуальних нейронів і призначує зв'язкам між ними випадкові числові значення, або «ваги». Ваги та входи перемножуються й повертають результат між 0 та 1. Якщо мережа не розпізнає певний образ точно, алгоритм підлаштовує ці ваги.[146] Таким чином алгоритм може робити певні параметри впливовішими, доки не визначить правильну математичну операцію для повної обробки даних.

Рекурентні нейронні мережі (РНМ, Шаблон:Lang-en), в яких дані можуть простувати в будь-якому напрямку, використовують для таких застосувань як моделювання мови.[147][148][149][150][151] Для цього використання особливо ефективна довга короткочасна пам'ять.[81][152]

Згорткові глибокі нейронні мережі (ЗНМ, Шаблон:Lang-en) використовують у комп'ютернім баченні.[153] ЗНМ також застосовували до Шаблон:Нп для автоматичного розпізнавання мовлення (АРМ, Шаблон:Lang-en).[154]

Виклики

Як і з ШНМ, при наївному тренуванні ГНМ може виникати багато проблем. Двома поширеними проблемами є перенавчання та обчислювальний час.

ГНМ схильні до перенавчання через додані шари абстрагування, які дозволяють їм моделювати рідкісні залежності в тренувальних даних. Для боротьби з перенавчанням під час тренування можливо застосовувати методи регуляризації, такі як обрізання вузлів (Шаблон:Lang-en) Івахненка,[41] Шаблон:Нп (Шаблон:Lang-en, 2-регуляризація) та розрідженість (Шаблон:Lang-en, 1-регуляризація).[155] Альтернативна регуляризація виключенням (Шаблон:Lang-en) випадковим чином вилучає вузли з прихованих шарів під час тренування. Це допомагає виключати рідкісні залежності.[156] Нарешті, дані можливо доповнювати за допомогою таких методів як обрізання та обертання, щоби менші тренувальні набори можливо було збільшити в розмірі задля зменшення ймовірності перенавчання.[157]

ГНМ повинні враховувати багато параметрів тренування, таких як розмір (кількість шарів і кількість вузлів на шар), темп навчання та первинні ваги. Прочісування простору параметрів для отримання оптимальних значень може бути недосяжним через часові та обчислювальні витрати. Обчислення прискорюють різні трюки, такі як пакетування (Шаблон:Lang-en, обчислення градієнта на кількох тренувальних прикладах одночасно, замість обчислення на окремих).[158] Великі оброблювальні можливості багатоядерних архітектур (таких як графічні процесори та Intel Xeon Phi) призвели до значного прискорення тренування через придатність таких оброблювальних архітектур для матричних та векторних обчислень.[159][160]

Крім того, інженери можуть шукати інші типи нейронних мереж із простішими та збіжнішими алгоритмами тренування. Одним із таких видів нейронних мереж є АКММ (Шаблон:Нп, Шаблон:Lang-en). Він не потребує темпів навчання та увипадковлених первинних ваг. Може бути гарантовано збіжність його процесу тренування за один крок із новим пакетом даних, а обчислювальна складність алгоритму тренування лінійна щодо кількості задіяних нейронів.[161][162]

Апаратне забезпечення

З 2010-х років прогрес як в алгоритмах машинного навчання, так і в комп'ютерному апаратному забезпеченні призвів до ефективніших методів тренування глибоких нейронних мереж, які містять багато шарів нелінійних прихованих вузлів і дуже великий шар виходу.[163] До 2019 року графічні процесори (ГП), часто зі спеціальними вдосконаленнями для ШІ, витіснили ЦП як переважний метод тренування великомасштабного комерційного хмарного ШІ.[164] OpenAI оцінила апаратні обчислення, які використовували в найбільших проєктах глибокого навчання від AlexNet (2012) і до AlphaZero (2017), і виявила 300 000-кратне збільшення необхідного обсягу обчислень із тенденцією подвоєння часу кожні 3,4 місяці.[165][166]

Для прискорення алгоритмів глибокого навчання було розроблено спеціальні електронні схеми, звані процесорами глибокого навчання. До процесорів глибокого навчання належать нейронні процесори (НП, Шаблон:Lang-en) у мобільних телефонах Huawei[167] та серверах хмарних обчислень, такі як тензорні процесори (ТП, Шаблон:Lang-en) у Google Cloud Platform.[168] Шаблон:Нп також створила спеціальну систему для обробки великих моделей глибокого навчання, CS-2, що ґрунтується на найбільшому процесорі в галузі, другому поколінні Wafer Scale Engine (WSE-2).[169][170]

Атомарно тонкі напівпровідники вважають перспективними для енергоефективного апаратного забезпечення глибокого навчання, де одну й ту ж базову структуру пристрою використовують як для логічних операцій, так і для зберігання даних. 2020 року Марега зі співавт. опублікували експерименти з активноканальним матеріалом великої площі для розробки пристроїв і схем з логічною пам'яттю на основі польових транзисторів з плавни́м затвором (Шаблон:Lang-en).[171]

2021 року Й. Фельдманн зі співавт. запропонували інтегрований фотонний апаратний прискорювач для паралельної згорткової обробки.[172] Автори виділяють дві ключові переваги інтегрованої фотоніки над її електронними аналогами: (1) масивна паралельна передача даних через мультиплексування за довжиною хвилі в поєднанні з частотними гребінцями та (2) надзвичайно висока швидкість модуляції даних.[172] Їхня система може виконувати трильйони операцій множення-додавання за секунду, що вказує на потенціал інтегрованої фотоніки у застосуваннях штучного інтелекту, які потребують великих даних.[172]

Застосування

Автоматичне розпізнавання мовлення

Шаблон:Main

Великомасштабне автоматичне розпізнавання мовлення — це перший і найпереконливіший успішний приклад глибокого навчання. РНМ ДКЧП можуть навчатися завдань «дуже глибокого навчання»,[17] до яких належать багатосекундні інтервали, що містять мовленнєві події, розділені тисячами дискретних часових кроків, де один часовий крок відповідає приблизно 10 мс. ДКЧП із забувальними вентилями[152] на певних завданнях конкурентоспроможні з традиційними розпізнавачами мовлення.[98]

Початковий успіх у розпізнаванні мовлення ґрунтувався на невеликих завданнях розпізнавання на основі Шаблон:Нп. Цей набір даних містить 630 носіїв восьми основних діалектів американської англійської, де кожен читає 10 речень.[173] Його невеликий розмір дозволяє випробувати багато конфігурацій. Що ще важливіше, завдання TIMIT стосується розпізнавання Шаблон:Нп послідовностей, яке, на відміну від розпізнавання послідовності слів, дозволяє використовувати слабкі фонобіграмні мовні моделі. Це дозволяє легше аналізувати силу аспектів акустичного моделювання розпізнавання мовлення. Частоту похибки, наведену нижче, включно з цими ранніми результатами, виміряну у відсотках рівнів фональних похибок (РФП, Шаблон:Lang-en), було узагальнено з 1991 року.

Метод Відсоток рівня
фональної похибки (РФП) (%)
РНМ з випадковими початковими значеннями[174] 26,1
Баєсова трифональна Шаблон:Нп-ПММ 25,6
Модель прихованої траєкторії (породжувальна) 24,8
Монофональна ГНМ з випадковими початковими значеннями 23,4
Монофональна ГМП-ГНМ 22,4
Трифональна Шаблон:Нп-ПММ з навчанням Шаблон:H:title 21,7
Монофональна ГМП-ГНМ на Шаблон:Нп 20,7
Згорткова ГНМ[175] 20,0
Згорткова ГНМ з Шаблон:H:title 18,7
Ансамблева ГНМ/ЗНМ/РНМ[176] 18,3
Двоспрямована ДКЧП 17,8
Шаблон:H:title[177] 16,5

Дебют ГНМ для розпізнавання мовців наприкінці 1990-х та розпізнавання мовлення приблизно в 2009—2011 роках, а також ДКЧП приблизно в 2003—2007 роках прискорили прогрес у восьми основних областях:[12][111][109]

  • Масштабування вгору/назовні та прискорення тренування та декодування ГНМ
  • Послідовнісно розрізнювальне тренування
  • Обробка ознак глибокими моделями з цілісним розумінням механізмів, що лежать в їхній основі
  • Пристосування ГНМ та споріднених глибоких моделей
  • Шаблон:Нп та передавальне навчання за допомогою ГНМ і споріднених глибоких моделей
  • ЗНМ та як їх проєктувати, щоби найкращим чином використати предметні знання щодо мовлення
  • РНМ та їхні численні варіанти з ДКЧП
  • Інші типи глибоких моделей, включно з моделями на основі тензорів та комбінованими породжувально/розрізнювальними моделями.

Усі основні комерційні системи розпізнавання мовлення (наприклад, Microsoft Cortana, Xbox, Шаблон:Нп, Amazon Alexa, Google Now, Apple Siri, Baidu та голосовий пошук Шаблон:Нп, а також низка мовленнєвих продуктів Шаблон:Нп тощо) ґрунтуються на глибокому навчанні.[12][178][179]

Розпізнавання зображень

Шаблон:Main

Поширеним оцінковим набором для класифікування зображень є набір даних бази даних MNIST. Він складається з рукописних цифр і містить 60 000 навчальних та 10 000 випробувальних прикладів. Як і у випадку з TIMIT, його невеликий розмір дозволяє користувачам випробувати кілька конфігурацій. Доступний вичерпний перелік результатів на цьому наборі.[180]

Розпізнавання зображень на основі глибокого навчання стало «надлюдським», даючи точніші результати, ніж люди, учасники змагання. Вперше це сталося 2011 року з розпізнаванням дорожніх знаків, а 2014 року з розпізнаванням облич людей.[181][182]

Треновані глибоким навчанням транспортні засоби тепер інтерпретують камери кругового огляду.[183] Іншим прикладом є новітній аналіз у лицевій дисморфології (Шаблон:Lang-en), який використовують для аналізу випадків вад розвитку людини, пов'язаних із великою базою даних генетичних синдромів.

Обробка образотворчого мистецтва

Візуальна художня обробка Джиммі Вейлза у Франції у стилі «Крику» Мунка, застосованого за допомогою нейронного перенесення стилю

З прогресом, досягнутим у розпізнаванні зображень, тісно пов'язане все ширше застосування методик глибокого навчання до різноманітних завдань образотворчого мистецтва. ГНМ довели свою здатність, наприклад, у

  • встановлюванні періоду стилю заданої картини[184][185]
  • Шаблон:Нп — вловлюванні стилю певного твору мистецтва та застосуванні його візуально приємним чином до довільної фотографії чи відео[184][185]
  • створенні вражаючих зображень на основі випадкових вхідних зорових полів.[184][185]

Обробка природної мови

Шаблон:Main

Нейронні мережі використовують для втілення мовних моделей з початку 2000-х років.[147] ДКЧП допомогла покращити машинний переклад і моделювання мови.[148][149][150]

Іншими ключовими методиками в цій галузі є негативне вибирання (Шаблон:Lang-en)[186] та вкладання слів. Вкладання слів, наприклад word2vec, можливо розглядати як шар подання в архітектурі глибокого навчання, який перетворює атомарне слово в подання розташування слова відносно інших слів у наборі даних; розташування подається як точка у векторному просторі. Використання вкладення слів як вхідного рівня РНМ дозволяє цій мережі аналізувати речення та фрази за допомогою ефективної композиційної векторної граматики. Композиційну векторну граматику можливо розглядати як Шаблон:Нп (ІКВГ, Шаблон:Lang-en), втілену РНМ.[187] Рекурсивні автокодувальники, збудовані поверх вкладень слів, можуть оцінювати схожість речень та виявляти перефразування.[187] Глибокі нейронні архітектури забезпечують найкращі результати для аналізу складників,[188] тональності,[189] пошуку інформації,[190][191] розуміння розмовної мови,[192] машинного перекладу,[148][193] контекстного зв'язування об'єктів,[193] розпізнавання стилю написання,[194] розпізнавання іменованих сутностей (класифікування лексем),[195] класифікування тексту та інших.[196]

Останні розробки узагальнюють вкладання слів до вкладання речень.

Перекладач Google використовує велику наскрізну мережу довгої короткочасної пам'яті (ДКЧП).[197][198][199][200] Нейронний машинний переклад Google використовує метод машинного перекладу на основі прикладів, у якому система «вчиться на мільйонах прикладів».[198] Він перекладає «цілі речення за раз, а не частини». Перекладач Google підтримує понад сто мов.[198] Мережа кодує «семантику речення, а не просто запам'ятовує пофразові переклади».[198][201] Перекладач Google використовує англійську як проміжну між більшістю мовних пар.[201]

Пошук нових ліків та токсикологія

Шаблон:Докладніше

Значний відсоток ліків-кандидатів не отримує схвалення регуляторних органів. Ці невдачі спричинені недостатньою ефективністю (впливом на мішень), небажаними взаємодіями (впливами поза мішенню) або непередбаченими токсичними впливами.[202][203] Дослідники вивчали використання глибокого навчання для передбачування Шаблон:Нп,[136][137] Шаблон:Нп та токсичних впливів хімічних речовин навколишнього середовища у поживних речовинах, побутових товарах і ліках.[138][139][140]

AtomNet — це система глибокого навчання для раціонального конструювання ліків на основі структури.[204] AtomNet використовували для передбачування новітніх біомолекул-кандидатів для мішеней таких захворювань як вірус Ебола[205] та розсіяний склероз.[206][205]

2017 року Шаблон:Нп було вперше використано для передбачування різних властивостей молекул у великому наборі токсикологічних даних.[207] 2019 року породжувальні нейронні мережі було використано для створення молекул, які було перевірено експериментально від початку до кінця на мишах.[208][209]

Управління відносинами з клієнтами

Шаблон:Main

Шаблон:Нп використовували для наближування цінності можливих дій прямого маркетингу, визначених у термінах змінних RFM. Було показано, що ця функція оцінки цінності має природну інтерпретацію як пожиттєва цінність клієнта.[210]

Рекомендаційні системи

Шаблон:Main

Рекомендаційні системи використовували глибоке навчання для виділяння значущих ознак для моделі латентних чинників для музичних та журнальних рекомендацій на основі вмісту.[211][212] Для навчання уподобань користувачів із кількох областей було застосовано багатоаспектне глибоке навчання (Шаблон:Lang-en).[213] Ця модель використовує гібридний спільний та оснований на вмісті підхід, і покращує рекомендації в декількох завданнях.

Біоінформатика

Шаблон:Main

Автокодувальну ШНМ використовували в біоінформатиці для передбачування анотацій генної онтології та зв'язків між генами й функціями.[214]

У медичній інформатиці глибоке навчання використовували для передбачування якості сну на основі даних з носимих пристроїв[215] та для передбачування ускладнень здоров'я з даних електронних медичних записів.[216]

Оцінювання глибокими нейронними мережами

Глибокі нейронні мережі (ГНМ) можливо використовувати для оцінювання ентропії стохастичних процесів, їх називають нейронними оцінювачами спільної ентропії (НОСЕ, Шаблон:Lang-en).[217] Таке оцінювання дає уявлення про вплив випадкових змінних входу на незалежну випадкову змінну. На практиці, ГНМ тренують як класифікатор, який відображує вектор або матрицю входу X у розподіл імовірності виходу над можливими класами випадкової змінної Y за заданого входу X. Наприклад, у завданнях класифікування зображень НОСЕ відображує вектор значень кольорів пікселів у ймовірності над можливими класами зображень. На практиці розподіл імовірності Y отримують за допомогою шару Softmax із кількістю вузлів, яка дорівнює розміру абетки Y. НОСЕ використовує неперервно диференційовні передавальні функції, так що умови теореми про універсальне наближення виконуються. Показано, що цей метод забезпечує сильно слушну оцінку й перевершує інші методи в разі великих розмірів абетки.[217]

Аналіз медичних зображень

Було показано, що глибоке навчання дає конкурентоспроможні результати в медичних застосуваннях, таких як класифікування ракових клітин, виявляння уражень, сегментування органів та покращування зображень.[218][219] Сучасні інструменти глибокого навчання демонструють високу точність виявляння різних захворювань та доцільність використання їх фахівцями для підвищення ефективності діагностування.[220][221]

Мобільна реклама

Знайти відповідну мобільну аудиторію для мобільної реклами завжди складно, оскільки необхідно розглянути та проаналізувати багато точок даних, перш ніж стане можливо створити цільовий сегмент і використати його для розміщення реклами на будь-якому рекламному сервері.[222] Глибоке навчання використовували для інтерпретування великих, багатовимірних наборів рекламних даних. Під час циклу інтернет-реклами запит/подача/натискання збирають багато точок даних. Ця інформація може ставати основою машинного навчання для покращення обирання оголошень.

Відновлювання зображень

Глибоке навчання було успішно застосовано до Шаблон:Нп, таких як знешумлювання, Шаблон:Нп, Шаблон:Нп та кольоризування фільмів.[223] До цих застосувань входять такі методи навчання як «Shrinkage Fields for Effective Image Restoration»,[224] який тренується на наборі зображень, та Шаблон:Нп (Шаблон:Lang-en), що тренується на зображенні, якому потрібне відновлення.

Виявляння фінансового шахрайства

Глибоке навчання успішно застосовують для виявляння фінансового шахрайства, ухилення від сплати податків[225] та боротьби з відмиванням грошей.[226]

Матеріалознавство

У листопаді 2023 року дослідники з Google DeepMind та Національної лабораторії ім. Лоуренса в Берклі оголосили, що вони розробили систему ШІ, відому як GNoME. Ця система зробила внесла внесок до матеріалознавства, відкривши понад 2 мільйони нових матеріалів за відносно короткий час. GNoME використовує методики глибокого навчання для ефективного дослідження потенційних структур матеріалів, досягаючи значного зростання у встановлюванні стабільних неорганічних кристалічних структур. Передбачення цієї системи були підтверджені за допомогою автономних роботизованих експериментів, продемонструвавши вражаючий рівень успішності в 71 %. Дані про нововідкриті матеріали доступні публічно через базу даних Шаблон:Нп, надаючи дослідникам можливість встановлювати матеріали з бажаними властивостями для різних застосувань. Цей розвиток має наслідки для майбутнього наукових відкриттів та інтегрування ШІ в дослідження матеріалознавства, потенційно прискорюючи нововведення в матеріалах та знижуючи вартість розробки продуктів. Використання ШІ та глибокого навчання натякає на можливість мінімізації або виключення ручних лабораторних експериментів та дозволяє науковцям більше зосередитися на проєктуванні й аналізі унікальних сполук.[227][228][229]

Військові

Міністерство оборони Сполучених Штатів застосовувало глибоке навчання, щоб тренувати роботів виконувати нові завдання через спостереження.[230]

Диференціальні рівняння з частинними похідними

Фізичні нейронні мережі (Шаблон:Lang-en) використовували для розв'язування диференціальних рівнянь із частинними похідними як у прямих, так і в обернених задачах на основі даних.[231] Одним із прикладів є відбудова потоку рідини, керована рівняннями Нав'є — Стокса. Використання фізичних нейронних мереж не потребує часто витратного породжування сітки, на яке спираються звичайні методи обчислювальної гідродинаміки.[232][233]

Відбудова зображень

Відбудова зображень (Шаблон:Lang-en) — це відбудова зображень, що лежать в основі пов'язаних із зображеннями вимірювань. Декілька праць показали кращу та відмінну продуктивність методів глибокого навчання порівняно з аналітичними методами для різних застосувань, наприклад, спектральних[234] та ультразвукових зображень.[235]

Епігенетичний годинник

Шаблон:Main

Епігенетичний годинник (Шаблон:Lang-en) — це біохімічний тест, який можливо використовувати для вимірювання віку. Галкін зі співавт. використали глибокі нейронні мережі, щоби натренувати епігенетичний годинник старіння з безпрецедентною точністю, використавши понад 6000 зразків крові.[236] Цей годинник використовує інформацію з 1000 CpG-острівців і передбачує людей з певними станами старше здорових контрольних груп: Шаблон:Нп, лобово-скроневою деменцією, раком яєчника, ожирінням. Цей годинник старіння планувала випустити для загального використання в 2021 року дочірня компанія компанії Шаблон:Нп, Deep Longevity.

Відношення до когнітивного розвитку людини та розвитку мозку

Глибоке навчання тісно пов'язане з класом теорій Шаблон:Нп (особливо нової кори), запропонованих когнітивними нейробіологами на початку 1990-х років.[237][238][239][240] Ці теорії розвитку було втілено в обчислювальних моделях, що зробило їх попередниками систем глибокого навчання. Ці моделі розвитку поділяють таку властивість, що різні запропоновані динаміки навчання в мозку (наприклад, хвиля чинника росту нервів) підтримують самоорганізацію, дещо аналогічну нейронним мережам, які використовують у моделях глибокого навчання. Як і нова кора, нейронні мережі використовують ієрархію багатошарових фільтрів, у яких кожен шар розглядає інформацію з попереднього шару (або робочого середовища), а потім передає свій вихід (і, можливо, початковий вхід) іншим шарам. Цей процес видає самоорганізований стос вимірювальних перетворювачів, добре підлаштованих до їхнього робочого середовища. В описі 1995 року зазначено: «…мозок немовляти, здається, організовується під впливом хвиль так званих чинників росту… різні ділянки мозку стають з'єднаними послідовно, причому один шар тканини дозріває раніше іншого, і так далі, поки не дозріє весь мозок».[241]

Було використано різноманітні підходи для дослідження правдоподібності моделей глибокого навчання з нейробіологічної точки зору. З одного боку, було запропоновано декілька варіантів алгоритму зворотного поширення з метою підвищення реалістичності його обробки.[242][243] Інші дослідники стверджують, що до біологічної дійсності можуть бути ближчими форми некерованого глибокого навчання, такі як ті, що ґрунтуються на ієрархічних породжувальних моделях та глибоких мережах переконань.[244][245] У цьому відношенні моделі породжувальних нейронних мереж пов'язували з нейробіологічними свідченнями обробки в корі головного мозку на основі вибірки.[246]

Хоча систематичного порівняння між організацією людського мозку та нейронним кодуванням у глибоких мережах створено ще не було, було повідомлено про кілька аналогій. Наприклад, обчислення, які виконуються блоками глибокого навчання, можуть бути подібними до обчислень справжніх нейронів[247] і нейронних популяцій.[248] Подібним чином, подання, вироблені моделями глибокого навчання, подібні до тих, які вимірюють у зоровій системі приматів[249] як на рівні окремого вузла[250], так і на рівні популяції.[251]

Комерційна діяльність

Лабораторія ШІ Facebook виконує такі завдання як Шаблон:Нп іменами людей на них.[252]

Google DeepMind Technologies розробила систему, здатну навчитися грати у відеоігри Atari, використовуючи як дані входу лише пікселі. 2015 року вони продемонстрували свою систему AlphaGo, яка навчилася грі Ґо настільки добре, що перемогла професійного гравця.[253][254][255] Перекладач Google використовує нейронну мережу, щоби перекладати між понад 100 мовами.

2017 року було запущено Covariant.ai, зосереджений на інтегруванні глибокого навчання на заводах.[256]

Станом на 2008 рік[257] дослідники Техаського університету в Остіні (UT) розробили систему машинного навчання під назвою Training an Agent Manually via Evaluative Reinforcement (Шаблон:Lang-uk), або TAMER, яка запропонувала нові методи для роботів та комп'ютерних програм, як вчитися виконувати завдання шляхом взаємодії з людиною-інструктором.[230] Спершу розроблений як TAMER, новий алгоритм під назвою Deep TAMER було пізніше представлено 2018 року під час співпраці між Дослідницькою лабораторією армії США (ARL) та дослідниками UT. Deep TAMER використовував глибоке навчання, щоби забезпечити роботові здатність навчатися нових завдань шляхом спостерігання.[230] Використовуючи Deep TAMER, робот навчався завдання разом із тренером-людиною, переглядаючи відеопотоки або спостерігаючи, як людина виконує завдання особисто. Пізніше робот відпрацьовував завдання за допомогою тренера, який давав відгуки, такі як «добра робота» та «погана робота».[258]

Критика та коментарі

Глибоке навчання притягувало як критику, так і коментарі, у деяких випадках поза межами галузі інформатики.

Теорія

Шаблон:See also

Основна критика стосується браку теорії навколо деяких методів.[259] Навчання в найпоширеніших глибоких архітектурах втілено за допомогою добре зрозумілого градієнтного спуску. Проте теорія навколо цих алгоритмів, таких як контрастове розходження, не така яснаШаблон:Джерело (наприклад: Він збігається? Якщо так, то як швидко? Що він наближує?). На методи глибокого навчання часто дивляться як на чорну скриньку, роблячи більшість підтверджень емпірично, а не теоретично.[260]

Інші зазначають, що глибоке навчання слід розглядати як крок до втілення сильного ШІ, а не як всеохопне рішення. Незважаючи на потужність методів глибокого навчання, їм все ще бракує значної частини функціональності, необхідної, щоби втілити цю мету повністю. Психолог-дослідник Шаблон:Нп зазначив:

Насправді, глибоке навчання це лише частина більшого завдання створення розумних машин. Таким методикам бракує способів подання причинно-наслідкових зв'язків (…) вони не мають очевидних способів здійснення логічних висновків, і вони також ще далекі від поєднання абстрактних знань, таких як інформація про те, чим є об'єкти, для чого вони, і як їх зазвичай використовують. Найпотужніші системи ШІ, такі як Watson (…) використовують такі методики, як глибоке навчання, як лише один з елементів у дуже складному ансамблі методик, починаючи від статистичних методик баєсового висновування, і аж до дедуктивного міркування.[261]

Серед подальших відсилань до тієї ідеї, що художня чутливість може бути притаманна відносно низьким рівням когнітивної ієрархії, опублікована низка графічних зображень внутрішніх станів глибоких (20—30 шарів) нейронних мереж, які намагаються розгледіти серед по суті випадкових даних зображення, на яких їх було треновано,[262] демонструє візуальну привабливість: первинне повідомлення про це дослідження отримало набагато більше за 1000 коментарів і було предметом протягом деякого часу найвідвідуванішої статті на вебсайті Ґардіан.[263]

Помилки

Деякі архітектури глибокого навчання демонструють проблематичну поведінку,[264] наприклад, впевнене класифікування невпізнанних зображень як належних до знайомої категорії звичайних зображень (2014)[265] та неправильне класифікування незначних збурень правильно класифікованих зображень (2013).[266] Ґьорцель припустив, що така поведінка зумовлена обмеженнями у їхніх внутрішніх поданнях, і що ці обмеження перешкоджатимуть інтегруванню до гетерогенної багатокомпонентної архітектури загального штучного інтелекту (ЗШІ).[264] Можливо, ці проблеми можна розв'язати за допомогою архітектур глибокого навчання, які внутрішньо утворюють стани, гомологічні розкладам граматики зображень[267] спостережуваних об'єктів та подій.[264] Шаблон:Нп (візуальної чи мовної) з тренувальних даних було би рівнозначним обмеженню системи міркуваннями здорового глузду, які оперують поняттями в термінах граматичних Шаблон:Нп, і є основною метою як засвоєння мови людиною,[268] так і штучного інтелекту (ШІ).[269]

Кіберзагроза

Коли глибоке навчання переміщується з лабораторії у світ, дослідження та досвід показують вразливість штучних нейронних мереж до хакерів та обману.[270] Визначаючи схеми, які ці системи використовують для функціювання, зловмисники можуть змінювати вхідні дані до ШНМ таким чином, що ШНМ знаходить відповідність, яку люди-спостерігачі не розпізнають. Наприклад, зловмисник може внести незначні зміни в зображення таким чином, що ШНМ знайде збіг, навіть якщо для людини зображення виглядає зовсім не схожим на ціль пошуку. Таке маніпулювання називають «змагальною атакою» (Шаблон:Lang-en).[271]

2016 року дослідники скористалися однією ШНМ, щоби, підкориговуючи зображення, методом спроб і помилок визначити, на чому зосереджується інша, й таким чином створити зображення, які вводили її в оману. Для людського ока змінені зображення нічим не відрізнялися. Інша група показала, що роздруківки підроблених зображень, які потім фотографували, успішно обманювали систему класифікування зображень.[272] Одним із засобів захисту є зворотний пошук зображень, під час якого можливе підроблене зображення надсилається на сайт, наприклад TinEye, який потім може знайти інші його примірники. Одне із вдосконалень полягає у пошуку з використанням лише частин зображення, щоби встановити зображення, з яких цей фрагмент могло бути взято.[273]

Інша група показала, що певні психоделічні видовища можуть змусити систему розпізнавання облич вважати звичайних людей знаменитостями, потенційно дозволяючи одній людині видавати себе за іншу. 2017 року дослідники додали наліпки до знаків заборони проїзду без зупинки, змусивши ШНМ класифікувати їх неправильно.[272]

Проте ШНМ можливо додатково тренувати виявляти спроби обману, що потенційно веде до перегонів озброєнь між зловмисниками й захисниками, подібних до тих, які вже є основою індустрії захисту від зловмисних програм. ШНМ було навчено перемагати програмне забезпечення захисту від зловмисного програмного забезпечення на основі ШНМ шляхом повторюваних атак на захист зловмисним програмним забезпеченням, яке постійно змінювалося генетичним алгоритмом, доки воно не ошукало протизловмисне програмне забезпечення, зберігаючи свою здатність пошкоджувати ціль.[272]

2016 року інша група продемонструвала, що певні звуки можуть змусити систему голосових команд Google Now відкрити певну веб-адресу, й висунула гіпотезу, що це може «послужити сходинкою для подальших атак (наприклад, відкривання вебсторінки, на якій розміщено зловмисне програмне забезпечення)».[272]

В «Шаблон:Нп» до тренувального набору системи машинного навчання систематично підкидають хибні дані, щоби завадити їй досягти майстерності.[272]

Етика збирання даних

Шаблон:Недостатньо джерел

Більшість систем глибокого навчання покладаються на тренувальні та контрольні (Шаблон:Lang-en) дані, породжувані та/або розмічувані людьми.[274] У філософії засобів масової інформації стверджують, що для цієї мети регулярно використовують не лише низькооплачувану Шаблон:Нп (наприклад, на Amazon Mechanical Turk), а й неявні форми людської Шаблон:Нп, які часто не визнають як таку.[275] Філософ Шаблон:Нп розрізняє п'ять типів «машинного заволодівання» людською мікропрацею для породжування тренувальних даних: (1) ігрофікація (вбудовування розмічування або обчислювальних завдань у потік гри), (2) «захоплювання та відстежування» (наприклад, CAPTCHA для розпізнавання зображень, або відстежування кліків на сторінках результатів пошуку Google), (3) використання соціальних мотивів (наприклад, позначування облич у Facebook для отримування позначених зображень обличчя), (4) розроблення інформації (наприклад, за допомогою пристроїв Шаблон:Нп, таких як відстежувачі активності), та (5) Шаблон:Нп.[275]

Мюльхоф стверджує, що в більшості комерційних застосувань глибокого навчання для кінцевих користувачів, таких як Шаблон:Нп, потреба в тренувальних даних після тренування ШНМ не зникає. Скоріше, існує постійна потреба в контрольних даних, створюваних людьми, щоби постійно калібрувати та уточнювати ШНМ. З цією метою Facebook запровадив функцію, що щойно користувачів автоматично розпізнано на зображенні, вони отримують сповіщення. Вони можуть обрати, чи хочуть вони бути публічно позначеними на цьому зображенні, чи повідомити Facebook, що на зображенні не вони.[276] Цей інтерфейс користувача є механізмом породжування «постійного потоку контрольних даних»[275] для подальшого тренування мережі в режимі реального часу. Як стверджує Мюльхоф, залучення людей-користувачів до породжування тренувальних та контрольних даних настільки типове для більшості комерційних застосувань глибокого навчання для кінцевих користувачів, що такі системи можна назвати «штучним інтелектом з участю людини» (Шаблон:Lang-en).[275]

Див. також

Примітки

Шаблон:Примітки

Література

Шаблон:Refbegin

Шаблон:Refend

Додаткова література

Книги

Статті

Шаблон:Диференційовні обчислення Шаблон:Бібліоінформація

  1. Шаблон:Cite journal
  2. Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою ХомаБенч2019 не вказано текст
  3. Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою ДорошЦаплюк2021 не вказано текст
  4. Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою БродкевичРемесло2018 не вказано текст
  5. Шаблон:Cite journal
  6. 6,0 6,1 6,2 Шаблон:Cite book
  7. 7,0 7,1 Шаблон:Cite journal
  8. Шаблон:Cite web
  9. Шаблон:Cite journal
  10. Шаблон:Cite arXiv
  11. Шаблон:Cite web
  12. 12,0 12,1 12,2 12,3 12,4 12,5 Шаблон:Cite journal
  13. Шаблон:Cite book
  14. 14,0 14,1 14,2 14,3 Шаблон:Cite journal
  15. 15,0 15,1 15,2 15,3 15,4 Шаблон:Cite journal
  16. Шаблон:Cite journal
  17. 17,00 17,01 17,02 17,03 17,04 17,05 17,06 17,07 17,08 17,09 Шаблон:Cite journal
  18. Шаблон:Cite book
  19. Шаблон:Cite conference
  20. 20,0 20,1 Шаблон:Cite journal
  21. Шаблон:Cite journal
  22. 22,0 22,1 22,2 Шаблон:Cite journal
  23. 23,0 23,1 23,2 Шаблон:Cite journal
  24. 24,0 24,1 Шаблон:Cite book
  25. 25,0 25,1 Шаблон:Cite book
  26. 26,0 26,1 Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width Шаблон:Webarchive. Neural Information Processing Systems, 6231-6239. Шаблон:Ref-en
  27. Шаблон:Cite journal
  28. 28,0 28,1 28,2 28,3 Шаблон:Cite book
  29. 29,0 29,1 Шаблон:Cite journal
  30. Шаблон:Cite journal
  31. Шаблон:Cite book
  32. Шаблон:Cite journal
  33. Шаблон:Cite journal
  34. 34,00 34,01 34,02 34,03 34,04 34,05 34,06 34,07 34,08 34,09 34,10 34,11 34,12 34,13 Шаблон:Cite arXiv
  35. Шаблон:Cite journal
  36. Шаблон:Cite book
  37. 37,0 37,1 37,2 Шаблон:Cite book
  38. 38,0 38,1 Шаблон:Нп (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.Online Шаблон:Webarchive Шаблон:Ref-en
  39. Шаблон:Cite journal
  40. Шаблон:Cite book
  41. 41,0 41,1 Шаблон:Cite journal
  42. Шаблон:Cite journal
  43. Шаблон:Cite journal
  44. Matthew Brand (1988) Machine and Brain Learning. University of Chicago Tutorial Studies Bachelor's Thesis, 1988. Reported at the Summer Linguistics Institute, Stanford University, 1987 Шаблон:Ref-en
  45. Шаблон:Cite thesis
  46. Шаблон:Cite journal
  47. Шаблон:Cite journal
  48. Шаблон:Cite book
  49. Шаблон:Cite journal
  50. Шаблон:Cite book
  51. Шаблон:Cite journal
  52. Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation Шаблон:Webarchive". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986. Шаблон:Ref-en
  53. Шаблон:Cite journal
  54. Шаблон:Cite arXiv
  55. Шаблон:Cite book
  56. Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C., pp. 1795–1802, ACM Press, New York, NY, USA, 2005. Шаблон:Ref-en
  57. 57,0 57,1 Шаблон:Cite journal
  58. Шаблон:Cite journal
  59. 59,0 59,1 LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition", Neural Computation, 1, pp. 541–551, 1989. Шаблон:Ref-en
  60. Шаблон:Cite journal
  61. Шаблон:Cite journal
  62. Шаблон:Cite journal
  63. 63,0 63,1 63,2 Шаблон:Cite journal
  64. Шаблон:Cite book
  65. Шаблон:Cite journal
  66. 66,0 66,1 Шаблон:Cite conference
  67. Шаблон:Cite arXiv
  68. Шаблон:Cite conference
  69. Шаблон:Cite arXiv
  70. Шаблон:Cite book
  71. Шаблон:Cite web
  72. Шаблон:Cite conference
  73. Шаблон:Cite journal
  74. Шаблон:Cite journal
  75. Шаблон:Cite conference
  76. Шаблон:Cite web
  77. Шаблон:Cite web
  78. Шаблон:Cite arXiv
  79. 79,0 79,1 79,2 S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen". Шаблон:Webarchive. Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991. Шаблон:Ref-de
  80. Шаблон:Cite book
  81. 81,0 81,1 81,2 Шаблон:Cite journal
  82. Шаблон:Cite book
  83. Шаблон:Cite arXiv
  84. Шаблон:Cite journal
  85. Шаблон:Cite conference
  86. Шаблон:Cite journal
  87. Шаблон:Cite journal
  88. Шаблон:Cite book
  89. Шаблон:Cite journal
  90. Шаблон:Cite journal
  91. Шаблон:Cite journal
  92. Шаблон:Cite journal
  93. Шаблон:Cite web
  94. Шаблон:Cite journal
  95. Шаблон:Cite journal
  96. 96,0 96,1 Шаблон:Cite journal
  97. Шаблон:Cite web
  98. 98,0 98,1 Шаблон:Cite web
  99. 99,0 99,1 99,2 Шаблон:Cite journal
  100. Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting Шаблон:Webarchive. Proceedings of ICANN (2), pp. 220–229. Шаблон:Ref-en
  101. 101,0 101,1 101,2 Шаблон:Cite web
  102. Yann LeCun (2016). Slides on Deep Learning Online Шаблон:Webarchive Шаблон:Ref-en
  103. Шаблон:Cite journal
  104. Шаблон:Cite journal
  105. Шаблон:Cite arXiv
  106. G. E. Hinton., "Learning multiple layers of representation". Шаблон:Webarchive. Trends in Cognitive Sciences, 11, pp. 428–434, 2007. Шаблон:Ref-en
  107. 107,0 107,1 107,2 Шаблон:Cite journal
  108. 108,0 108,1 108,2 Шаблон:Cite web
  109. 109,0 109,1 109,2 Шаблон:Cite book
  110. Шаблон:Cite web
  111. 111,0 111,1 Шаблон:Cite web
  112. Шаблон:Cite journal
  113. Шаблон:Cite journal
  114. Шаблон:Cite journal
  115. Шаблон:Cite book
  116. Шаблон:Cite web
  117. Шаблон:Cite arXiv
  118. Шаблон:Cite web
  119. Шаблон:Cite web
  120. Шаблон:Cite news
  121. 121,0 121,1 Шаблон:Cite journal
  122. "A Survey of Techniques for Optimizing Deep Learning on GPUs Шаблон:Webarchive", S. Mittal and S. Vaishay, Journal of Systems Architecture, 2019 Шаблон:Ref-en
  123. 123,0 123,1 Шаблон:Citation
  124. Шаблон:Cite journal
  125. Шаблон:Cite book
  126. Шаблон:Cite arXiv
  127. Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552 Шаблон:Ref-en
  128. Google Research Blog. The neural networks behind Google Voice transcription. August 11, 2015. By Françoise Beaufays http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html Шаблон:Ref-en
  129. Шаблон:Cite journal
  130. Шаблон:Cite book
  131. Шаблон:Cite book
  132. Шаблон:Cite arXiv
  133. Шаблон:Cite arXiv.
  134. Шаблон:Cite arXiv.
  135. Шаблон:Cite arXiv.
  136. 136,0 136,1 Шаблон:Cite web
  137. 137,0 137,1 Шаблон:Cite web
  138. 138,0 138,1 "Toxicology in the 21st century Data Challenge" Шаблон:Ref-en
  139. 139,0 139,1 Шаблон:Cite web
  140. 140,0 140,1 Шаблон:Cite web
  141. Шаблон:Cite news
  142. Шаблон:Cite journal
  143. Шаблон:Citation
  144. Шаблон:Cite journal
  145. Шаблон:Cite conference
  146. Шаблон:Cite news
  147. 147,0 147,1 Шаблон:Cite journal
  148. 148,0 148,1 148,2 Шаблон:Cite journal
  149. 149,0 149,1 Шаблон:Cite arXiv
  150. 150,0 150,1 Шаблон:Cite arXiv
  151. Шаблон:Cite journal
  152. 152,0 152,1 Шаблон:Cite web
  153. Шаблон:Cite journal
  154. Шаблон:Cite book
  155. Шаблон:Cite book
  156. Шаблон:Cite journal
  157. Шаблон:Cite web
  158. Шаблон:Cite journal
  159. Шаблон:Cite book
  160. Шаблон:Cite journal
  161. Ting Qin, et al. "A learning algorithm of CMAC based on RLS". Neural Processing Letters 19.1 (2004): 49-61. Шаблон:Ref-en
  162. Ting Qin, et al. "Continuous CMAC-QRLS and its systolic array". Шаблон:Webarchive. Neural Processing Letters 22.1 (2005): 1-16. Шаблон:Ref-en
  163. Шаблон:Cite web
  164. Шаблон:Cite news
  165. Шаблон:Cite news
  166. Шаблон:Cite web
  167. Шаблон:Cite web
  168. Шаблон:Cite journal
  169. Шаблон:Cite web
  170. Шаблон:Cite web
  171. Шаблон:Cite journal
  172. 172,0 172,1 172,2 Шаблон:Cite journal
  173. Шаблон:Cite book
  174. Шаблон:Cite journal
  175. Шаблон:Cite journal
  176. Шаблон:Cite journal
  177. Шаблон:Cite journal
  178. Шаблон:Cite magazine
  179. Шаблон:Cite arXiv
  180. Шаблон:Cite web
  181. Шаблон:Cite journal
  182. Шаблон:Cite arXiv
  183. Nvidia Demos a Car Computer Trained with "Deep Learning" (6 January 2015), David Talbot, MIT Technology Review Шаблон:Ref-en
  184. 184,0 184,1 184,2 Шаблон:Cite journal
  185. 185,0 185,1 185,2 Шаблон:Cite journal
  186. Шаблон:Cite arXiv
  187. 187,0 187,1 Шаблон:Cite web
  188. Шаблон:Cite journal
  189. Шаблон:Cite journal
  190. Шаблон:Cite journal
  191. Шаблон:Cite journal
  192. Шаблон:Cite journal
  193. 193,0 193,1 Шаблон:Cite journal
  194. Шаблон:Cite journal
  195. Шаблон:Cite journal
  196. Шаблон:Cite news
  197. Шаблон:Cite web
  198. 198,0 198,1 198,2 198,3 Шаблон:Cite web
  199. Шаблон:Cite arXiv
  200. Шаблон:Cite magazine
  201. 201,0 201,1 Шаблон:Cite web
  202. Шаблон:Cite journal
  203. Шаблон:Cite journal
  204. Шаблон:Cite arXiv
  205. 205,0 205,1 Шаблон:Cite news
  206. Шаблон:Cite web
  207. Шаблон:Cite arXiv
  208. Шаблон:Cite journal
  209. Шаблон:Cite magazine
  210. Шаблон:Cite arXiv
  211. Шаблон:Cite book
  212. Шаблон:Cite journal
  213. Шаблон:Cite journal
  214. Шаблон:Cite book
  215. Шаблон:Cite journal
  216. Шаблон:Cite journal
  217. 217,0 217,1 Шаблон:Cite journal
  218. Шаблон:Cite journal
  219. Шаблон:Cite book
  220. Шаблон:Cite journal
  221. Шаблон:Cite journal
  222. Шаблон:Cite book
  223. Шаблон:Cite web
  224. Шаблон:Cite conference
  225. Шаблон:Cite journal
  226. Шаблон:Cite journal
  227. Шаблон:Cite web
  228. Шаблон:Cite journal
  229. Шаблон:Cite journal
  230. 230,0 230,1 230,2 Шаблон:Cite web
  231. Шаблон:Cite journal
  232. Шаблон:Cite journal
  233. Шаблон:Cite journal
  234. Шаблон:Cite journal
  235. Шаблон:Cite journal
  236. Шаблон:Cite journal
  237. Шаблон:Cite journal
  238. Шаблон:Cite book
  239. Шаблон:Cite journal
  240. Шаблон:Cite journal
  241. S. Blakeslee, "In brain's early growth, timetable may be critical", The New York Times, Science Section, pp. B5–B6, 1995. Шаблон:Ref-en
  242. Шаблон:Cite journal
  243. Шаблон:Cite journal
  244. Шаблон:Cite journal
  245. Шаблон:Cite journal
  246. Шаблон:Cite journal
  247. Шаблон:Cite journal
  248. Шаблон:Cite journal
  249. Шаблон:Cite journal
  250. Шаблон:Cite journal
  251. Шаблон:Cite journal
  252. Шаблон:Cite magazine
  253. Шаблон:Cite journal
  254. Шаблон:Cite journalШаблон:Closed access
  255. Шаблон:Cite web
  256. Шаблон:Cite news
  257. Шаблон:Cite book
  258. Шаблон:Cite web
  259. Шаблон:Cite web
  260. Шаблон:Cite web
  261. Шаблон:Cite magazine
  262. Шаблон:Cite web
  263. Шаблон:Cite news
  264. 264,0 264,1 264,2 Шаблон:Cite web
  265. Шаблон:Cite arXiv
  266. Шаблон:Cite arXiv
  267. Шаблон:Cite journal
  268. Miller, G. A., and N. Chomsky. "Pattern conception". Paper for Conference on pattern detection, University of Michigan. 1957. Шаблон:Ref-en
  269. Шаблон:Cite web
  270. Шаблон:Cite web
  271. Шаблон:Cite web
  272. 272,0 272,1 272,2 272,3 272,4 Шаблон:Cite news
  273. Шаблон:Cite journal
  274. Шаблон:Cite journal
  275. 275,0 275,1 275,2 275,3 Шаблон:Cite journal
  276. Шаблон:Cite magazine