Кластеризація методом к–середніх

Шаблон:Машинне навчання Кластериза́ція ме́тодом k-сере́дніх (Шаблон:Lang-en) — популярний метод кластеризації, — впорядкування множини об'єктів у порівняно однорідні групи. Винайдений в 1950-х роках математиком Гуґо Штайнгаузом^[1] і майже одночасно Стюартом Ллойдом^[2]. Особливу популярність отримав після виходу роботи МакКвіна (1967)^[3].

Мета методу — розділити Шаблон:Mvar спостережень на Шаблон:Mvar кластерів, так щоб кожне спостереження належало до кластера з найближчим до нього середнім значенням. Метод базується на мінімізації суми квадратів відстаней між кожним спостереженням та центром його кластера, тобто функції

\sum_{i = 1}^{N} d (x_{i}, m_{j} (x_{i}))^{2}

,

де d — метрика, $x_{i}$ — і-ий об'єкт даних, а $m_{j} (x_{i})$ — центр кластера, якому на j-ій ітерації приписаний елемент $x_{i}$ .

Історія

Термін «k-середні» уперше вжив Джеймс МакКвін (Шаблон:Lang-en) у 1967 році^[3], хоча ідею методу вперше озвучив Гуґо Штайнгауз (Шаблон:Lang-en) у 1957 році^[1]. Стандартний алгоритм вперше запропонував Стюарт Лойд (Шаблон:Lang-en) у 1957 р^[2].

Алгоритм

Опис алгоритму

Маємо масив спостережень (об'єктів), кожен з яких має певні значення за рядом ознак. Відповідно до цих значень об'єкт розташовується у багатовимірному просторі.

Дослідник визначає кількість кластерів $k$ , що необхідно утворити
Випадковим чином обирається $k$ спостережень, які на цьому кроці вважаються центрами кластерів
Кожне спостереження «приписується» до одного з $k$ кластерів — того, відстань до якого найкоротша
Розраховується новий центр кожного кластера як елемент, ознаки якого розраховуються як середнє арифметичне ознак об'єктів, що входять у цей кластер
Відбувається така кількість ітерацій (повторюються кроки 3-4), поки кластерні центри стануть стійкими (тобто при кожній ітерації в кожен кластер потрапляють одні й ті самі об'єкти), дисперсія всередині кластера буде мінімізована, а між кластерами — максимізована

Вибір кількості кластерів робиться на основі дослідницької гіпотези. Якщо її немає, то рекомендують спочатку створити 2 кластери, далі 3, 4, 5, порівнюючи отримані результати.

Демонстрація алгоритму
1. $k$ початкових «середніх» (тут $k = 3$ ) випадково згенеровані у межах домени даних (кольорові).
2. створено $k$ кластерів, асоціюючи кожне спостереження з найближчим середнім. Розбиття відбувається згідно з діаграмою Вороного утвореною середніми.
3. Центроїд кожного з $k$ кластерів стає новим середнім.
4. Кроки 2 і 3 повторюються до досягнення збіжності.

Принцип дії

Принцип алгоритму полягає в пошуку таких центрів кластерів та наборів елементів кожного кластера при наявності деякої функції Ф(°), що виражає якість поточного розбиття множини на k кластерів, коли сумарне квадратичне відхилення елементів кластерів від центрів цих кластерів буде найменшим:

V = \sum_{i = 1}^{k} \sum_{x_{j} \in S_{i}} (x_{j} - μ_{i})^{2}

де $k$ — число кластерів, $S_{i}$ — отримані кластери, $i = 1, 2, \dots, k$ , $μ_{i}$ — центри мас векторів $x_{j} \in S_{i}$ .

У початковий момент роботи алгоритму довільним чином обираються центри кластерів, далі для кожного елемента множини ітеративно обраховується відстань від центрів з приєднанням кожного елемента до кластера з найближчим центром. Для кожного з отриманих кластерів обчислюються нові значення центрів, намагаючись при цьому мінімізувати функцію Ф(°), після чого повторюється процедура перерозподілу елементів між кластерами.

Алгоритм методу «Кластеризація за схемою к-середніх»:

вибрати k інформаційних точок як центри кластерів поки не завершиться процес зміни центрів кластерів;
зіставити кожну інформаційну точку з кластером, відстань до центра якого мінімальна;
переконатися, що в кожному кластері міститься хоча б одна точка. Для цього кожний порожній кластер потрібно доповнити довільною точкою, що розташована «далеко» від центра кластера;
центр кожного кластера замінити середнім від елементів кластера;
кінець.

Переваги

Головні переваги методу k-середніх — його простота та швидкість виконання. Метод k-середніх більш зручний для кластеризації великої кількості спостережень, ніж метод ієрархічного кластерного аналізу (у якому дендограми стають перевантаженими і втрачають наочність).

Недоліки

Одним із недоліків простого методу є порушення умови зв'язності елементів одного кластера, тому розвиваються різні модифікації методу, а також його нечіткі аналоги (Шаблон:Lang-en), у яких на першій стадії алгоритму допускається приналежність одного елемента множини до декількох кластерів (із різним ступенем приналежності).

Попри очевидні переваги методу, він має суттєві недоліки:

Результат класифікації сильно залежить від початкових позицій кластерних центрів
Алгоритм чутливий до викидів, які можуть викривлювати середнє
Кількість кластерів має бути заздалегідь визначена дослідником

Застосування

Метод k-середніх є доволі простим і прозорим, тому успішно застосовується в різноманітних галузях — маркетингових сегментаціях, геостатистиці, астрономії, сільському господарстві тощоШаблон:Джерело?.

Див. також

Шаблон:Проєкт

Примітки

Шаблон:Reflist

Посилання

Шаблон:Math-stub

[Steinhaus-1] 1,0 ^1,1 Шаблон:Cite journal

[lloyd57-2] 2,0 ^2,1 Шаблон:Cite journal

[MacQueen-3] 3,0 ^3,1 Шаблон:Cite journal

[1]

[2]

[3]

Кластеризація методом к–середніх

Зміст

Історія

Алгоритм

Опис алгоритму

Принцип дії

Переваги

Недоліки

Застосування

Див. також

Примітки

Посилання

Навігаційне меню

Кластеризація методом к–середніх

Історія

Алгоритм

Опис алгоритму

Принцип дії

Переваги

Недоліки

Застосування

Див. також

Примітки

Посилання

Навігаційне меню

Пошук