T-розподілене вкладення стохастичної близькості

Матеріал з testwiki
Версія від 07:01, 2 лютого 2023, створена imported>SashkoR0B0T (автоматична заміна {{Не перекладено}} вікі-посиланнями на перекладені статті)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

Шаблон:Машинне навчання Шаблон:Унаочнення даних T-розподілене вкладення стохастичної близькості (Шаблон:Lang-en, t-SNE) — це метод машинного навчання візуалізації даних, розроблений Лоренсом ван дер Маатеном і Джефрі Гінтоном.[1] Це зручний Шаблон:Нп шляхом вкладення багатовимірних даних у дво- або тривимірний простір для подальшої візуалізації. Зокрема, він відображає кожну точку багатовимірного простору в дво- або тривимірну точку евклідового простору так, що подібні об'єкти розташовуються поруч, а несхожі об'єкти відповідають віддаленим точкам з високою ймовірністю.

Алгоритм t-SNE складається з двох основних етапів. Спочатку, t-SNE створює розподіл імовірностей по парах багатовимірних об'єктів таким чином, що подібні об'єкти мають високу ймовірність бути вибраними, у той час як несхожі точки мають надзвичайно малу ймовірність бути вибраними разом. Далі, t-SNE визначає подібний розподіл ймовірностей для точок у карті низьковимірного простору та мінімізує розбіжності за відстанню Кульбака–Лейблера між двома розподілами за місцем розташування точок на карті. Зверніть увагу, що хоч оригінальний алгоритм і використовує евклідову відстань між об'єктами, як основну метрику подібності об'єктів, проте, вона може бути змінена при необхідності.

t-SNE використовується для візуалізації в різноманітних застосунках, таких як дослідження по комп'ютерній безпеці,[2] аналізу музики,[3] Шаблон:Нп,[4] біоінформатики,[5] та біомедичній обробці сигналів.[6] Він часто використовується для візуалізації високорівневих представлень, отриманих за допомогою штучної нейронної мережі.[7]

Хоча візуалізації отримані за допомогою t-SNE часто використовуються для відображення кластерів, отримане зображення може суттєво залежати від обраної параметризації і тому потрібне глибоке розуміння параметрів, які використовуються для t-SNE. Навіть для некластеризованих даних можуть з'явитись «кластери»[8], що може привести до помилкових висновків. Тим самим, для правильного підбору параметрів і перевірки результатів може бути потрібне інтерактивне дослідження даних.[9][10] Було продемонстровано, що t-SNE часто здатний відновлювати добре розділені кластери, та зі спеціальним вибором параметрів, він наближається до простої форми спектральної кластеризації.[11]

Деталі

Для даного набору N багатовимірних об'єктів 𝐱1,,𝐱N t-SNE спочатку обчислює ймовірності pij пропорційні схожості 𝐱i і 𝐱j наступним чином:

pji=exp(𝐱i𝐱j2/2σi2)kiexp(𝐱i𝐱k2/2σi2),

Ван дер Маатен та Гінтон пояснюють такий вибір відстані наступним чином: «подібність точки даних xj до точки даних xi — це умовна ймовірність, pj|i, що xi вибрав би xj як свого сусіда, якби сусіди були обрані пропорційно їх гаусовій густині ймовірності з центром в xi[1]

pij=pji+pij2N

Більш того, коли i=j, ймовірності дорівнюють нулю: pij=0

Пропускна здатність Гаусового ядра σiвстановлюється за допомогою методу бісекції так, що перплексивність умовного розподілу дорівнює попередньо визначеній перплексивності. У результаті пропускна здатність адаптується до густини даних: менші значення σi використовуються у більш густих частинах даних.

Через те що Гаусове ядро використовує евклідову відстань xixj, то, у випадку дуже високої розмірності даних, слід мати на увазі ефект прокляття розмірності, коли відстані втрачають здатність до розділення і pij стають дуже схожими (асимптотично, вони збігаються до константи). Для пом'якшення цього ефекту запропоновано[12] регулювати відстані степеневим перетворенням, спираючись на Шаблон:Нп кожної точки.

t-SNE намагається дізнатись d-вимірне відображення 𝐲1,,𝐲N (де 𝐲id), яке відображає подібність pij наскільки це можливо. З цією метою він вимірює схожість qij між двома точками відображення 𝐲i та 𝐲j за допомогою аналогічного підходу. Зокрема, qij визначається як:

qij=(1+𝐲i𝐲j2)1kl(1+𝐲k𝐲l2)1

Тут використовується T-розподіл Стьюдента з обважнілим кінцем (з одним ступенем свободи, який є по суті розподілом Коші) для вимірювання подібностей між точками у низьковимірному просторі для того, щоб різнорідні об'єкти були змодельовані далеко один від одного при відображенні. Зверніть увагу, що в даному випадку ми прирівнюємо qii=0.

Координати точок 𝐲i при відображенні визначаються шляхом мінімізації (несиметричної) відмінності по мірі Кульбака–Лейблера розподілу Q від розподілу P, тобто:

KL(P||Q)=ijpijlogpijqij

Мінімізація розбіжностей Кульбака–Лейблера по точкам 𝐲i здійснюється за допомогою градієнтного спуску. Результатом такої оптимізації є відображення, яке добре зберігає подібність між входовими даними високої розмірності.

Програмне забезпечення

Примітки

Шаблон:Reflist

Посилання