Коефіцієнт кореляції рангу Кендала

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

У статистиці коефіцієнт кореляції рангу Кендала, як правило, називають τ-коефіцієнт (тау-коефіцієнт) Кендла. Він використовується у статистиці для вимірювання зв'язку між двома величинами. τ-тест — це непараметричний тест статистичних гіпотез залежності на основі τ-коефіцієнта. Зокрема, він є мірою рангової кореляції, тобто подібності упорядкування даних, коли вони упорядкуванні за своєю величиною. Цей коефіцієнт названий на честь Моріса Кендала, який розробив теорію, в якій використовував цей коефіцієнт, в 1938 році, хоча Густав Фехнер запропонував аналогічну міру в контексті часових рядів ще в 1897 році.

Означення

Усі точки в сірих прямокутниках є узгодженими, а всі точки в білих прямокутниках є неузгодженими з точкою (X1,Y1). Загалом на графіку є n=30 точок, які утворюють (302)=435 можливих пар. 395 з цих пар є узгодженими, 40 пар — неузгодженими, що дає коефіцієнт кореляції рангу Кендала 0,816.

Нехай (x1,y1),(x2,y2),,(xn,yn) — набір спостережень спільних випадкових величин X і Y відповідно, так що всі значення (xк) і (yк) не є однаковими для будь-якого k=1..n. Будь-яка пара спостережень (xi,yi) і (xj,yj) називається узгодженою, якщо узгоджені ряди для обох елементів: тобто, якщо xi>xj та yi>yj або якщо xi<xj та yi<yj . Вони називаються неузгодженими (або дисонуючими), якщо xi>xj та yi<yj або якщо xi<xj та yi>yj. Якщо xi=xj або yi=yj, то пара не є ні узгодженою ні неузгодженою.

τ — коефіцієнт Кендалла визначається наступним чином:

τ=s1s212n(n1)

Де s1 — кількість узгоджених пар, s2 — кількість неузгоджених пар.

Властивості
  • Знаменник — це загальна кількість пар, отже коефіцієнт знаходить в діапазоні 1τ1.
  • Якщо узгодженість між двома величинами X та Y є ідеальною (тобто ранги двох величин збігаються), то коефіцієнт має значення 1.
  • Якщо розбіжність між двома величинами X та Y є ідеальною (тобто вони мають обернені порядки зростання), то коефіцієнт дорівнює −1.
  • Якщо X та Y незалежні, то математичне сподівання τ дорівнює нулю.
  • Використовуючи signum-функцію формулу можна записати у вигляді τ=2n(n1)i<jsgn(xixj)sgn(yiyj).

Перевірка гіпотези


Коефіцієнт рангу Кендала часто використовується для статистичної оцінки в перевірці статистичних гіпотез для визначення чи можуть дві змінні розглядатись як статистично залежні. Цей тест є непараметричний, так як він не залежить від будь-яких припущень про розподіл X або Y або розподіл (x, y). При нульовій гіпотезі незалежності X і Y, вибірковий розподіл τ має очікуване значення -нуль. Точний розподіл не може бути охарактеризований з точки зору спільних розподілів, але може вираховуватись для малих вибірок; для більших вибірок, поширеним є використання наближення для нормального розподілу з математичним сподіванням рівним нулю і дисперсією випадкової величини.

Облік зв'язків

Пара {(xi, yi), (xj, yj)}, як кажуть, зв'язані, якщо xi = xi або yi=yj; зв'язні пари не є ні узгодженими ні неузгодженими. Якщо пов'язанні пари виникають в даних, коефіцієнт може бути змінений декількома способами, щоб тримати його в діапазоні [-1, 1]:

τ-a

Статистична величина τ-a перевіряє міру узгодженості таблиці всіх пар (xi, yi),. Обидві змінні повинні бути порядковим.

τ-b

Статистична величина τ-b, на відміну від τ-a, вносить зміни в зв'язки. Значення τ-b знаходяться в діапазоні від −1 до +1. Нульове значення свідчить про відсутність узгодженості. τ-b коефіцієнт визначається таким чином:

τB=ncnd(n0n1)(n0n2)

Де:

n0=n(n1)/2n1=iti(ti1)/2n2=juj(uj1)/2

nc= кількість узгоджених пар
nd= кількість неузгоджених пар
ti= кількість зв'язків величин в i-тій групі зв'язків першої величини
uj= зв'язків величин в j-тій групі зв'язків другої величини

τ-c

τ-c відрізняється від τ-b тим, що більш підходить для прямокутних ніж для квадратних таблиць.

Приклад


Коли дві величини є статистично незалежними, то розподіл τ не можна легко описати виходячи з відомих розподілів. Проте, для τA наступна величина — ZA — наближено розподілена у вигляді нормального розподілу, якщо зміні є статистично незалежними:
zA=3(ncnd)n(n1)(2n+5)/2


Таким чином, щоб перевірити чи є дві змінні залежними, обчислюють ZA та знаходять кумулятивну ймовірність для стандартного нормального розподілу на -|ZA|.

ZB має той самий розподіл, що й τB розподіл і приблизно дорівнює стандартному нормальному розподілу, коли величини статистично незалежні:

B=ncndv


Де

v=(v0vtvu)/18+v1+v2v0=n(n1)(2n+5)vt=iti(ti1)(2ti+5)vu=juj(uj1)(2uj+5)v1=iti(ti1)juj(uj1)/(2n(n1))v2=iti(ti1)(ti2)juj(uj1)(uj2)/(9n(n1)(n2))

Посилання

Шаблон:Статистика