T-розподілене вкладення стохастичної близькості

Шаблон:Машинне навчання Шаблон:Унаочнення даних T-розподілене вкладення стохастичної близькості (Шаблон:Lang-en, t-SNE) — це метод машинного навчання візуалізації даних, розроблений Лоренсом ван дер Маатеном і Джефрі Гінтоном.^[1] Це зручний Шаблон:Нп шляхом вкладення багатовимірних даних у дво- або тривимірний простір для подальшої візуалізації. Зокрема, він відображає кожну точку багатовимірного простору в дво- або тривимірну точку евклідового простору так, що подібні об'єкти розташовуються поруч, а несхожі об'єкти відповідають віддаленим точкам з високою ймовірністю.

Алгоритм t-SNE складається з двох основних етапів. Спочатку, t-SNE створює розподіл імовірностей по парах багатовимірних об'єктів таким чином, що подібні об'єкти мають високу ймовірність бути вибраними, у той час як несхожі точки мають надзвичайно малу ймовірність бути вибраними разом. Далі, t-SNE визначає подібний розподіл ймовірностей для точок у карті низьковимірного простору та мінімізує розбіжності за відстанню Кульбака–Лейблера між двома розподілами за місцем розташування точок на карті. Зверніть увагу, що хоч оригінальний алгоритм і використовує евклідову відстань між об'єктами, як основну метрику подібності об'єктів, проте, вона може бути змінена при необхідності.

t-SNE використовується для візуалізації в різноманітних застосунках, таких як дослідження по комп'ютерній безпеці,^[2] аналізу музики,^[3] Шаблон:Нп,^[4] біоінформатики,^[5] та біомедичній обробці сигналів.^[6] Він часто використовується для візуалізації високорівневих представлень, отриманих за допомогою штучної нейронної мережі.^[7]

Хоча візуалізації отримані за допомогою t-SNE часто використовуються для відображення кластерів, отримане зображення може суттєво залежати від обраної параметризації і тому потрібне глибоке розуміння параметрів, які використовуються для t-SNE. Навіть для некластеризованих даних можуть з'явитись «кластери»^[8], що може привести до помилкових висновків. Тим самим, для правильного підбору параметрів і перевірки результатів може бути потрібне інтерактивне дослідження даних.^[9]^[10] Було продемонстровано, що t-SNE часто здатний відновлювати добре розділені кластери, та зі спеціальним вибором параметрів, він наближається до простої форми спектральної кластеризації.^[11]

Деталі

Для даного набору $N$ багатовимірних об'єктів $𝐱_{1}, \dots, 𝐱_{N}$ t-SNE спочатку обчислює ймовірності $p_{i j}$ пропорційні схожості $𝐱_{i}$ і $𝐱_{j}$ наступним чином:

p_{j ∣ i} = \frac{\exp (- ‖ 𝐱_{i} - 𝐱_{j} ‖^{2} / 2 σ_{i}^{2})}{\sum_{k \neq i} \exp (- ‖ 𝐱_{i} - 𝐱_{k} ‖^{2} / 2 σ_{i}^{2})},

Ван дер Маатен та Гінтон пояснюють такий вибір відстані наступним чином: «подібність точки даних $x_{j}$ до точки даних $x_{i}$ — це умовна ймовірність, $p_{j | i}$ , що $x_{i}$ вибрав би $x_{j}$ як свого сусіда, якби сусіди були обрані пропорційно їх гаусовій густині ймовірності з центром в $x_{i}$ .»^[1]

p_{i j} = \frac{p_{j ∣ i} + p_{i ∣ j}}{2 N}

Більш того, коли $i = j$ , ймовірності дорівнюють нулю: $p_{i j} = 0$

Пропускна здатність Гаусового ядра $σ_{i}$ встановлюється за допомогою методу бісекції так, що перплексивність умовного розподілу дорівнює попередньо визначеній перплексивності. У результаті пропускна здатність адаптується до густини даних: менші значення $σ_{i}$ використовуються у більш густих частинах даних.

Через те що Гаусове ядро використовує евклідову відстань $‖ x_{i} - x_{j} ‖$ , то, у випадку дуже високої розмірності даних, слід мати на увазі ефект прокляття розмірності, коли відстані втрачають здатність до розділення і $p_{i j}$ стають дуже схожими (асимптотично, вони збігаються до константи). Для пом'якшення цього ефекту запропоновано^[12] регулювати відстані степеневим перетворенням, спираючись на Шаблон:Нп кожної точки.

t-SNE намагається дізнатись $d$ -вимірне відображення $𝐲_{1}, \dots, 𝐲_{N}$ (де $𝐲_{i} \in ℝ^{d}$ ), яке відображає подібність $p_{i j}$ наскільки це можливо. З цією метою він вимірює схожість $q_{i j}$ між двома точками відображення $𝐲_{i}$ та $𝐲_{j}$ за допомогою аналогічного підходу. Зокрема, $q_{i j}$ визначається як:

q_{i j} = \frac{(1 + ‖ 𝐲_{i} - 𝐲_{j} ‖^{2})^{- 1}}{\sum_{k \neq l} (1 + ‖ 𝐲_{k} - 𝐲_{l} ‖^{2})^{- 1}}

Тут використовується T-розподіл Стьюдента з обважнілим кінцем (з одним ступенем свободи, який є по суті розподілом Коші) для вимірювання подібностей між точками у низьковимірному просторі для того, щоб різнорідні об'єкти були змодельовані далеко один від одного при відображенні. Зверніть увагу, що в даному випадку ми прирівнюємо $q_{i i} = 0 .$

Координати точок $𝐲_{i}$ при відображенні визначаються шляхом мінімізації (несиметричної) відмінності по мірі Кульбака–Лейблера розподілу $Q$ від розподілу $P$ , тобто:

K L (P | | Q) = \sum_{i \neq j} p_{i j} \log \frac{p_{i j}}{q_{i j}}

Мінімізація розбіжностей Кульбака–Лейблера по точкам $𝐲_{i}$ здійснюється за допомогою градієнтного спуску. Результатом такої оптимізації є відображення, яке добре зберігає подібність між входовими даними високої розмірності.

Програмне забезпечення

t-SNE від Лоренса ван дер Маатена https://lvdmaaten.github.io/tsne/ Шаблон:Webarchive
Шаблон:Нп містить t-SNE. Див. https://github.com/elki-project/elki/blob/master/elki/src/main/java/de/lmu/ifi/dbs/elki/algorithm/projection/TSNE.java Шаблон:Недоступне посилання

Примітки

Шаблон:Reflist

Посилання

Візуалізація даних за допомогою t-SNE Шаблон:Webarchive, Google Tech Talk про t-SNE
Реалізація t-SNE різними мовами програмування Шаблон:Webarchive, список посилань підтримує Лоренс ван дер Маатен
Шаблон:Cite news

[MaatenHinton-1] 1,0 ^1,1 Шаблон:Cite journal

[2] Шаблон:Cite journal

[3] Шаблон:Cite journal

[4] Шаблон:Cite journal

[5] Шаблон:Cite journal

[6] Шаблон:Cite book

[7] Шаблон:Cite web

[8] Шаблон:Cite web

[9] Шаблон:Cite journal

[10] Шаблон:Cite web

[11] Шаблон:Cite arxiv

[12] Шаблон:Cite conference

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

T-розподілене вкладення стохастичної близькості

Зміст

Деталі

Програмне забезпечення

Примітки

Посилання

Навігаційне меню

T-розподілене вкладення стохастичної близькості

Деталі

Програмне забезпечення

Примітки

Посилання

Навігаційне меню

Пошук