Пристосовування області визначення

Шаблон:Short description Шаблон:Technical

Пристосо́вування о́бласті ви́значення (Шаблон:Lang-en)^[1]^[2]^[3] — це область, пов'язана з машинним та передавальним навчанням. Цей сценарій виникає тоді, коли ми маємо на меті навчання з первинного розподілу даних ефективної моделі на іншому (але пов'язаному) цільовому розподілі даних. Наприклад, одна з підзадач поширеної задачі фільтрування спаму полягає в пристосовуванні моделі від одного користувача (первинний розподіл) до нового користувача, який отримує суттєво відмінні електронні листи (цільовий розподіл). Пристосовування області визначення виявилося корисним і для навчання непов'язаних джерел.^[4] Зауважте, що, коли доступно більше одного первинного розподілу, цю задачу називають багатоджерельним пристосовуванням області визначення (Шаблон:Lang-en).^[5]

Огляд

Пристосовування області визначення — це здатність застосовувати алгоритм, навчений в одній або декількох «первинних областях визначення» (Шаблон:Lang-en), до іншої (але пов'язаної) «цільової області визначення» (Шаблон:Lang-en). Пристосовування області визначення є підкатегорією передавального навчання. У пристосовуванні області визначення як первинні, так і цільові області визначення мають один і той же простір ознак (але різні розподіли), а передавальне навчання, на відміну від цього, включає також і випадки, коли простір ознак цільової області визначення від первинного простору чи просторів ознак відрізняється.^[6]

Зсув області визначення

Зсув о́бласті ви́значення (Шаблон:Lang-en),^[7] або розпо́діловий зсув (Шаблон:Lang-en),^[8] — це зміна в розподілі даних між тренувальним набором даних алгоритму та набором даних, з яким він стикається при розгортанні. Ці зсуви областей визначення є поширеними в практичному застосуванні штучного інтелекту. Звичайні алгоритми машинного навчання часто погано пристосовуються до зсувів областей визначення. Сучасна спільнота машинного навчання має багато різних стратегій намагання досягнення кращого пристосування області визначення.

Приклади

Алгоритмові, натренованому на новинах, може довестися пристосовуватися до нового набору біомедичних документів.^[9]
Спамовий фільтр, натренований на певній групі користувачів електронної пошти під час тренування, при розгортанні мусить пристосовуватися до нового цільового користувача.^[10]
Застосування алгоритмів встановлювання діагнозу за допомогою ШІ, натренованих на мічених даних, пов'язаних із попередніми захворюваннями, до нових немічених даних, пов'язаних із пандемією COVID-19.^[11]
Раптові соціальні зміни, такі як спалах пандемії, можуть створювати зсув області визначення та спричинювати збої алгоритмів машинного навчання, натренованих на вже застарілих даних про споживачів, і вимагати втручання.^[12]^[13]

До інших застосувань належать встановлювання положення за Wi-Fi та багато аспектів комп'ютерного бачення.^[6]

Формальний виклад

Нехай $X$ є простором входу (або простором опису, Шаблон:Lang-en), і нехай $Y$ є простором виходу (або простором міток, Шаблон:Lang-en). Завданням алгоритму машинного навчання є навчитися математичної моделі (гіпотези) $h : X \to Y$ , здатної приписувати мітку з $Y$ прикладові з $X$ . Навчання цієї моделі відбувається з навчальної вибірки $S = {(x_{i}, y_{i}) \in (X \times Y)}_{i = 1}^{m}$ .

Зазвичай за керованого навчання (без пристосовування області визначення) ми виходимо з того, що ці зразки $(x_{i}, y_{i}) \in S$ витягуються н. о. р. з розподілу $D_{S}$ носія $X \times Y$ (невідомого та незмінного). Завдання відтак полягає в тім, щоби навчитися (з $S$ ) такої $h$ , щоби вона припускалася найменшої можливої похибки при міченні нових зразків, що надходять із розподілу $D_{S}$ .

Головна відмінність між керованим навчанням та пристосовуванням області визначення полягає в тім, що в другій ситуації ми вивчаємо два різні (але пов'язані) розподіли $D_{S}$ і $D_{T}$ на $X \times Y$ Шаблон:Cn. Завдання пристосовування області визначення відтак складається з передавання знань з первинної області визначення $D_{S}$ до цільової $D_{T}$ . Метою відтак є навчитися такої $h$ (з мічених або немічених зразків, що надходять із двох областей визначення), щоби вона припускалася якомога меншої похибки на цільовій області визначення $D_{T}$ Шаблон:Cn.

Головною проблемою є наступна: якщо модель навчається з первинної області визначення, якою буде її здатність правильно мітити дані, що надходять із цільової області визначення?

Різні типи пристосовування області визначення

Існує кілька контекстів пристосовування області визначення. Вони відрізняються інформацією, яка враховується для цільової області визначення.

Спонта́нне пристосо́вування о́бласті ви́значення (Шаблон:Lang-en): навчальна вибірка містить набір мічених первинних зразків, набір немічених первинних зразків, та набір немічених цільових зразків.
Напівавтомати́чне присто́совування о́бласті ви́значення (Шаблон:Lang-en): у цій ситуації ми також розглядаємо «невеликий» набір мічених цільових зразків.
Керо́ване пристосо́вування о́бласті ви́значення (Шаблон:Lang-en): усі зразки, що розглядаються, мають бути міченими.

Чотири алгоритмічні принципи

Алгоритми перезважування

Мета полягає в перезважуванні первинної міченої вибірки таким чином, щоби вона «виглядала як» цільова вибірка (з точки зору розгляданої міри похибки).^[14]^[15]

Ітеративні алгоритми

Цей метод для пристосовування полягає в ітеративному «автоматичному міченні» цільових зразків. Принцип є простим:

модель $h$ навчається з мічених зразків;
$h$ автоматично мітить деякі цільові зразки;
нова модель навчається з нових мічених зразків.

Зауважте, що існують й інші ітеративні підходи, але вони зазвичай потребують мічених цільових зразків.^[16]^[17]

Пошук спільного простору подань

Метою є знайти або побудувати спільний простір подань (Шаблон:Lang-en) для двох областей визначення. Мета полягає в отриманні простору, в якому ці області визначення перебуватимуть близько одна до одної, за умови збереження доброї продуктивності в первинній задачі маркування. Цього можливо досягати за допомогою застосування методів Шаблон:Нп, де подання ознак із вибірок у різних областях визначення заохочуються бути нерозрізненними.^[18]^[19]

Ієрархічна баєсова модель

Метою є побудувати баєсову ієрархічну модель $p (n)$ , що є по суті множниковою моделлю для чисел $n$ , щоби вивести не залежні від області визначення латентні подання, які можуть містити як специфічні для областей визначення, так і глобально спільні латентні множники.^[4]

Примітки

Шаблон:Примітки

↑ Шаблон:Cite book Шаблон:Ref-en
↑ Шаблон:Cite book Шаблон:Ref-en
↑ Шаблон:Cite journal Шаблон:Ref-en
↑ ^4,0 ^4,1 Шаблон:Cite arXiv Шаблон:Ref-en
↑ Шаблон:Cite journal Шаблон:Ref-en
↑ ^6,0 ^6,1 Шаблон:Cite journal Шаблон:Ref-en
↑ Sun, Baochen, Jiashi Feng, and Kate Saenko. «Return of frustratingly easy domain adaptation.» In Thirtieth AAAI Conference on Artificial Intelligence. 2016. Шаблон:Ref-en
↑ Amodei, Dario, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Mané. «Concrete problems in AI safety.» arXiv preprint arXiv:1606.06565 (2016). Шаблон:Ref-en
↑ Daumé III, Hal. «Frustratingly easy domain adaptation.» arXiv preprint arXiv:0907.1815 (2009). Шаблон:Ref-en
↑ Ben-David, Shai, John Blitzer, Koby Crammer, and Fernando Pereira. «Analysis of representations for domain adaptation.» In Advances in neural information processing systems, pp. 137—144. 2007. Шаблон:Ref-en
↑ Шаблон:Cite journal Шаблон:Ref-en
↑ Шаблон:Cite news Шаблон:Ref-en
↑ Шаблон:Cite news Шаблон:Ref-en
↑ Шаблон:Cite book Шаблон:Ref-en
↑ Шаблон:Cite journal Шаблон:Ref-en
↑ Шаблон:Cite conference Шаблон:Ref-en
↑ Шаблон:Cite journal Шаблон:Ref-en
↑ Шаблон:Cite journal Шаблон:Ref-en
↑ Шаблон:Cite arXiv Шаблон:Ref-en

[1] Шаблон:Cite book Шаблон:Ref-en

[2] Шаблон:Cite book Шаблон:Ref-en

[3] Шаблон:Cite journal Шаблон:Ref-en

[:bmdl-4] 4,0 ^4,1 Шаблон:Cite arXiv Шаблон:Ref-en

[5] Шаблон:Cite journal Шаблон:Ref-en

[survey_multi-source-6] 6,0 ^6,1 Шаблон:Cite journal Шаблон:Ref-en

[frustratingly-7] Sun, Baochen, Jiashi Feng, and Kate Saenko. «Return of frustratingly easy domain adaptation.» In Thirtieth AAAI Conference on Artificial Intelligence. 2016. Шаблон:Ref-en

[8] Amodei, Dario, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Mané. «Concrete problems in AI safety.» arXiv preprint arXiv:1606.06565 (2016). Шаблон:Ref-en

[9] Daumé III, Hal. «Frustratingly easy domain adaptation.» arXiv preprint arXiv:0907.1815 (2009). Шаблон:Ref-en

[10] Ben-David, Shai, John Blitzer, Koby Crammer, and Fernando Pereira. «Analysis of representations for domain adaptation.» In Advances in neural information processing systems, pp. 137—144. 2007. Шаблон:Ref-en

[11] Шаблон:Cite journal Шаблон:Ref-en

[12] Шаблон:Cite news Шаблон:Ref-en

[13] Шаблон:Cite news Шаблон:Ref-en

[14] Шаблон:Cite book Шаблон:Ref-en

[15] Шаблон:Cite journal Шаблон:Ref-en

[16] Шаблон:Cite conference Шаблон:Ref-en

[17] Шаблон:Cite journal Шаблон:Ref-en

[Domain-Adversarial_Training-18] Шаблон:Cite journal Шаблон:Ref-en

[ADA-19] Шаблон:Cite arXiv Шаблон:Ref-en

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]