Коефіцієнт кореляції Пірсона

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Короткий опис

Приклади діаграм розсіювання з різними значеннями коефіцієнта кореляції (ρ)

Шаблон:Не плутати

Декілька наборів точок (xy), з коефіцієнтом кореляції між x та y для кожного набору. Кореляція відображує силу та напрямок лінійного зв'язку (верхній ряд), але не нахил цього зв'язку (середній), ані багато аспектів нелінійних зв'язків (нижній). Примітка: фігура в центрі має нахил 0, але в цьому випадку коефіцієнт кореляції невизначений, оскільки дисперсія Y нульова.

У статистиці, коефіціє́нт кореля́ції Пі́рсона (ККП, Шаблон:Lang-en)Шаблон:Efn — це коефіцієнт кореляції, який вимірює Шаблон:Нп кореляцію між двома наборами даних. Це відношення коваріації двох змінних до добутку їхніх стандартних відхилень; таким чином, це, по суті, унормована міра коваріації, така, що її результат завжди має значення між −1 та 1. Як і сама коваріація, ця міра може відображати лише лінійну кореляцію змінних, і не враховує багатьох інших типів взаємозв'язків і кореляцій. Як простий приклад, можна було би очікувати, що вік і зріст групи підлітків із середньої школи матимуть коефіцієнт кореляції Пірсона значно більший за 0, але менший за 1 (оскільки 1 означало би нереалістично ідеальну кореляцію).

Назва й історія

Розробив його Карл Пірсон на основі спорідненої ідеї, запропонованої Френсісом Гальтоном у 1880-х роках, математичну формулу для якої вивів та опублікував Огюст Браве 1844 року.Шаблон:Efn[1][2][3][4] Назва цього коефіцієнта є одним із прикладів закону Стіглера.

Визначення

Коефіцієнт кореляції Пірсона це коваріація двох змінних, поділена на добуток їхніх стандартних відхилень. Вигляд цього визначення містить «момент добутку», тобто середнє значення (перший момент відносно початку координат) добутку змінних, скоригованих на їхні середні значення; тому в назві й використовують означення «моменту добутку».

Для сукупності

Коефіцієнт кореляції Пірсона, коли його застосовують до сукупності, зазвичай позначують грецькою літерою ρ (ро), й можуть називати коефіцієнтом кореляції сукупності (Шаблон:Lang-en) або коефіцієнтом кореляції Пірсона для сукупності (Шаблон:Lang-en). Для пари випадкових змінних (X,Y) (наприклад, Зріст та Вага), формулою для ρ[5] є[6]

ρX,Y=cov(X,Y)σXσY

де

Формулу для cov(X,Y) можливо виразити через середнє значення та математичне сподівання. Оскільки[5]

cov(X,Y)=𝔼[(XμX)(YμY)],

формулу для ρ також можливо записати як

ρX,Y=𝔼[(XμX)(YμY)]σXσY

де

  • σY та σX визначено як вище
  • μX — середнє значення X
  • μY — середнє значення Y
  • 𝔼 — математичне сподівання.

Формулу для ρ можливо виразити через нецентровані моменти. Оскільки

μX=𝔼[X]μY=𝔼[Y]σX2=𝔼[(X𝔼[X])2]=𝔼[X2](𝔼[X])2σY2=𝔼[(Y𝔼[Y])2]=𝔼[Y2](𝔼[Y])2𝔼[(XμX)(YμY)]=𝔼[(X𝔼[X])(Y𝔼[Y])]=𝔼[XY]𝔼[X]𝔼[Y],

формулу для ρ також можливо записати як ρX,Y=𝔼[XY]𝔼[X]𝔼[Y]𝔼[X2](𝔼[X])2𝔼[Y2](𝔼[Y])2.

Для вибірки

Коефіцієнт кореляції Пірсона, коли його застосовують до вибірки, зазвичай позначують через rxy і можуть називати коефіцієнтом кореляції вибірки (Шаблон:Lang-en) або коефіцієнтом кореляції Пірсона для вибірки (Шаблон:Lang-en). Формулу для rxy можливо отримати, підставивши оцінки коваріацій та дисперсій на основі вибірки до наведеної вище формули. Для парних даних {(x1,y1),,(xn,yn)}, що складаються з n пар, rxy визначають як

rxy=i=1n(xix¯)(yiy¯)i=1n(xix¯)2i=1n(yiy¯)2

де

  • n — розмір вибірки
  • xi,yi — окремі точки вибірки з індексом i
  • x¯=1ni=1nxi (середнє значення вибірки); й аналогічно для y¯.

Перегрупування дає таку формулу для rxy:

rxy=nxiyixiyinxi2(xi)2nyi2(yi)2,

де n,xi,yi визначено як вище.

Ця формула пропонує зручний однопрохідний алгоритм обчислення кореляцій вибірок, хоча, залежно від задіяних чисел, вона іноді може бути чисельно нестійкою.

Подальше перегрупування дає таку[5] формулу для rxy:

rxy=ixiyinx¯y¯ixi2nx¯2iyi2ny¯2,

де n,xi,yi,x¯,y¯ визначено як вище.

Еквівалентний вираз дає формулу для rxy як середнє добутків стандартних оцінок наступним чином:

rxy=1n1i=1n(xix¯sx)(yiy¯sy)

де

  • n,xi,yi,x¯,y¯ визначено як вище, а sx,sy визначено нижче
  • (xix¯sx) — стандартна оцінка (й аналогічно для стандартної оцінки y).

Доступні й альтернативні формули для rxy. Наприклад, можливо використовувати наступну формулу для rxy:

rxy=xiyinx¯y¯(n1)sxsy

де

Для спільно гауссових розподілів

Якщо (X,Y) спільно гауссові, з нульовим середнім значенням і дисперсією Σ, то Σ=[σX2ρX,YσXσYρX,YσXσYσY2].

Практичні проблеми

В умовах сильного шуму виділяння коефіцієнта кореляції між двома наборами стохастичних змінних нетривіальне, особливо коли канонічно-кореляційний аналіз показує зниження значень кореляції через значний внесок шуму. Узагальнення цього підходу наведено в іншому місці.[7]

У випадку відсутності даних, Ґаррен вивів оцінювання максимальною правдоподібністю.[8]

Деякі розподіли (наприклад, стійкі розподіли, відмінні від нормального) не мають визначеної дисперсії.

Математичні властивості

Значення коефіцієнта кореляції Пірсона як для вибірки, так і для сукупності перебувають на або між −1 та 1. Кореляції, які дорівнюють +1 чи −1, відповідають точкам даних, що лежать точно на прямій (у випадку коефіцієнта кореляції вибірки), або двовимірному розподілу, Шаблон:Нп якого лежить на прямій (у випадку коефіцієнта кореляції сукупності). Коефіцієнт кореляції Пірсона симетричний: corr(X,Y) = corr(Y,X).

Ключовою математичною властивістю коефіцієнта кореляції Пірсона є його Шаблон:Нп щодо окремих змін розташування та масштабу в обох змінних. Тобто ми можемо перетворити X на Шаблон:Math, і перетворити Y на Шаблон:Math, де a, b, c, та d сталі, а Шаблон:Math, не змінивши коефіцієнта кореляції. (Це справджується як для коефіцієнта кореляції сукупності, так і для коефіцієнта кореляції вибірки.) Загальніші лінійні перетворення кореляцію змінюють: щодо того, як це застосовувати, див. Шаблон:Section link.

Тлумачення

Коефіцієнт кореляції набуває значень з −1 по 1. Абсолютне рівне значення 1 означає, що лінійне рівняння описує взаємозв'язок між X та Y ідеально, з усіма точками даних на одній прямій. Знак кореляції визначається нахилом регресії: значення +1 означає, що всі точки даних лежать на прямій, за якої Y зростає зі зростанням X, і навпаки для −1.[9] Значення 0 означає, що між змінними немає лінійної залежності.[10]

Загальніше, Шаблон:Math додатний тоді й лише тоді, коли Xi та Yi перебувають з одного боку від своїх середніх значень. Відтак, коефіцієнт кореляції додатний, коли Xi та Yi схильні бути одночасно більшими або одночасно меншими за свої середні значення. Коефіцієнт кореляції від'ємний (антикореляція), коли Xi та Yi схильні перебувати по різні боки від своїх середніх значень. Більше того, що сильніша будь-яка з цих тенденцій, то більше абсолютне значення коефіцієнта кореляції.

Роджерс та Найсвандер[11] перелічили тринадцять способів тлумачення кореляції або простих функцій від неї:

  • Функція від сирих оцінок та середніх значень
  • Стандартизована коваріація
  • Стандартизований нахил лінії регресії
  • Геометричне середнє двох нахилів регресії
  • Квадратний корінь відношення двох дисперсій
  • Середній векторний добуток стандартизованих змінних
  • Функція кута між двома стандартизованими регресійними лініями
  • Функція кута між двома векторами змінних
  • Перемасштабована дисперсія різниці стандартизованих оцінок
  • Оцінка за правилом повітряної кульки
  • Пов'язана з двовимірними еліпсами ізоконцентрації
  • Функція статистичного критерію із запланованих експериментів
  • Відношення двох середніх

Геометричне тлумачення

Лінії регресії для Шаблон:Math [[[:Шаблон:Color]]] та Шаблон:Math [[[:Шаблон:Color]]

]

Для нецентрованих даних існує зв'язок між коефіцієнтом кореляції та кутом φ між двома регресійними лініями, Шаблон:Nowrap та Шаблон:Nowrap, отриманими в результаті регресії y на x та x на y відповідно. (Тут φ відкладають проти годинникової стрілки в першому квадранті, утвореному навколо точки перетину ліній, якщо Шаблон:Math, чи проти годинникової стрілки з четвертого до другого квадранту, якщо Шаблон:Nowrap.) Можливо показати,[12] що якщо стандартні відхилення рівні, то Шаблон:Nowrap, де sec та tg — тригонометричні функції.

Для центрованих даних (тобто даних, зміщених на середні значення їхніх відповідних змінних, таким чином, щоби середнє значення кожної змінної було нульовим) коефіцієнт кореляції також можливо розглядати як косинус кута θ між двома спостережуваними векторами в N-вимірному просторі (для N спостережень кожної змінної).[13]

Коефіцієнти як нецентрованої (не пірсоново сумісної), так і центрованої кореляції можливо визначати для набору даних. Наприклад, припустімо, що виявлено, що п'ять країн мають валовий національний продукт 1, 2, 3, 5 та 8 мільярдів доларів відповідно. Припустімо, що ці ж п'ять країн (у тому ж порядку) мають 11 %, 12 %, 13 %, 15 % та 18 % бідності. Тоді нехай x та y будуть впорядкованими 5-елементними векторами, що містять наведені вище дані: Шаблон:Nowrap та Шаблон:Nowrap.

За звичайною процедурою визначення кута θ між двома векторами (див. скалярний добуток) коефіцієнт нецентрованої кореляції становить

cosθ=𝐱𝐲|𝐱||𝐲|=2.931030.0983=0.920814711.

Цей коефіцієнт нецентрованої кореляції ідентичний косинусній подібності. Наведені вище дані було свідомо обрано так, щоби вони бути ідеально корельованими: Шаблон:Math. Тому коефіцієнт кореляції Пірсона мусить дорівнювати рівно одиниці. Центрування даних (зміщення x на Шаблон:Math та y на Шаблон:Math) дає Шаблон:Math та Шаблон:Math, звідки

cosθ=𝐱𝐲|𝐱||𝐲|=0.30830.80.00308=1=ρxy,

як і очікувалося.

Тлумачення розміру кореляції

Цей рисунок дає уявлення про те, як корисність кореляції Пірсона для передбачування значень змінюється залежно від її величини. Для спільно нормальних X, Y з кореляцією ρ, 11ρ2 (зображений тут як функція ρ) це коефіцієнт, на який може бути зменшено заданий Шаблон:Нп для Y з урахуванням відповідного значення X. Наприклад, якщо ρ = 0.5, то 95 %-вий інтервал передбачення Y|X буде приблизно на 13 % меншим за 95 %-вий інтервал передбачення Y.

Декілька авторів запропонували настанови для тлумачення коефіцієнта кореляції.[14][15] Проте всі такі критерії дещо довільні.[15] Тлумачення коефіцієнта кореляції залежить від контексту та цілей. Кореляція 0,8 може бути дуже низькою, якщо йдеться про перевірку фізичного закону з використанням високоякісних інструментів, але може вважатися дуже високою в соціальних науках, де внесок від ускладнювальних чинників може бути більшим.

Висновування

Статистичне висновування на основі коефіцієнті кореляції Пірсона часто зосереджується на одній з наступних двох цілей:

  • Одна мета полягає в перевірці нульової гіпотези, що істинний коефіцієнт кореляції ρ дорівнює 0, на основі значення коефіцієнта кореляції вибірки r.
  • Інша мета полягає в тому, щоби вивести довірчий інтервал, який при повторюваному вибиранні має задану ймовірність містити ρ.

Методи досягнення однієї або обох цих цілей обговорюються нижче.

Використання перестановкового критерію

Перстановкові критерії забезпечують прямий підхід до здійснення перевірок гіпотез і побудови довірчих інтервалів. Перестановковий критерій для коефіцієнта кореляції Пірсона містить наступні два кроки:

  1. Використовуючи первинні паровані дані (xiyi), випадково визначити пари заново, створивши новий набір даних (xiyi′), де i′ — перестановка множини {1,…,n}. Перестановку i′ вибирають випадково, з рівними ймовірностями для всіх n! можливих перестановок. Це рівнозначне вибиранню i′ випадково без повторів з множини {1, …, n}. У натяжці, тісно пов'язаному підході, i та i′ є рівними й вибираються з {1, …, n} з повторами;
  2. Побудувати коефіцієнт кореляції r з цих увипадковлених даних.

Щоби виконати перевірку перестановкового критерію, повторіть кроки (1) та (2) велику кількість разів. p-значення для перестановкового критерію — це частка значень r, породжених на кроці (2), більших за коефіцієнт кореляції Пірсона, обчислений із первинних даних. Тут «більший» може означати як більший за абсолютним значенням, так і більший за значенням зі знаком, залежно від того, чи потрібен Шаблон:Нп, чи Шаблон:Нп критерій.

Використання натяжки

Для побудови довірчих інтервалів для коефіцієнта кореляції Пірсона можливо використовувати натяжку. В «непараметричній» натяжці n пар (xiyi) перевибирають зі спостережуваного набору з n пар «з повторами», й коефіцієнт кореляції r обчислюють на основі цих перевибраних даних. Цей процес повторюють велику кількість разів, і цей емпіричний розподіл перевибраних значень r використовують для наближення вибіркового розподілу цієї статистики. 95 %-вий довірчий інтервал для ρ можливо визначити як інтервал, що простягається від 2,5-го до 97,5-го перцентиля перевибраних значень r.

Стандартна похибка

Якщо x та y — випадкові змінні, то стандартною похибкою, пов'язаною з кореляцією у випадку нульової гіпотези, є

σr=1r2n2

де r — кореляція (за припущення r≈0), а n — розмір вибірки.[16][17]

Перевірка з використанням розподілу Ст'юдента

Критичні значення коефіцієнта кореляції Пірсона, які має бути перевищено, щоби вважати його значно ненульовим на рівні 0,05.

Для пар з некорельованого двовимірного нормального розподілу, вибірковий розподіл ст'юдентованого коефіцієнта кореляції Пірсона дотримується t-розподілу Ст'юдента зі ступенями вільності n − 2. Зокрема, якщо змінні в основі мають двовимірний нормальний розподіл, то змінна

t=rσr=rn21r2

у випадку нульової гіпотези (нульової кореляції) має розподіл Ст'юдента.[18] Це приблизно виконується у випадку не нормальних спостережуваних значень, якщо розміри вибірок достатньо великі.[19] Для визначення критичних значень для r потрібна обернена функція:

r=tn2+t2.

Також можливо використовувати асимптотичні підходи для великих вибірок.

Інша рання стаття[20] пропонує графіки та таблиці для загальних значень ρ, для малих розмірів вибірки, та обговорює підходи до обчислень.

У випадку, якщо змінні в основі не нормальні, вибірковий розподіл коефіцієнта кореляції Пірсона дотримується розподілу Ст'юдента, але ступені вільності знижуються.[21]

Використання точного розподілу

Для даних, що слідують двовимірному нормальному розподілу, точною функцією густини f(r) для вибіркового коефіцієнта кореляції r нормального двовимірного розподілу є[22][23][24]

f(r)=(n2)Γ(n1)(1ρ2)n12(1r2)n422πΓ(n12)(1ρr)n322F1(12,12;12(2n1);12(ρr+1))

де Γ — це гамма-функція, а 2F1(a,b;c;z) — гауссова гіпергеометрична функція.

В окремому випадку, коли ρ=0 (нульова кореляція в сукупності), точну функцію густини f(r) можливо записати як

f(r)=(11r2)n12n2B(12,n22),

де B — це бета-функція, що є одним зі способів запису густини t-розподілу Ст'юдента для ст'юдентованого вибіркового коефіцієнта кореляції, як зазначено вище.

Використання точного довірчого розподілу

Довірчі інтервали та критерії можливо розраховувати з Шаблон:Нп. Точна довірча густина для ρ становить[25]

π(ρr)=ν(ν1)Γ(ν1)2πΓ(ν+12)(1r2)ν12(1ρ2)ν22(1rρ)12ν2F(32,12;ν+12;1+rρ2)

де F — це гауссова гіпергеометрична функція, а ν=n1>1.

Використання перетворення Фішера

Шаблон:Main

На практиці обчислення довірчих інтервалів та перевірки гіпотез щодо ρ зазвичай виконують за допомогою Шаблон:Нп, F:

F(r)12ln(1+r1r)=arth(r)

F(r) приблизно дотримується нормальному розподілу, де

середнє=F(ρ)=arth(ρ),Шаблон:Spacesа стандартна похибка =SE=1n3,

де n — розмір вибірки. Похибка наближення найнижча для великого розміру вибірки n і малих значень r та ρ0, і збільшується в іншому випадку.

За використання цього наближення z-оцінка становить

z=xсереднєSE=[F(r)F(ρ0)]n3

за нульовою гіпотезою, що ρ=ρ0, за припущення, що пари вибірки незалежні й однаково розподілені та дотримуються двовимірного нормального розподілу. Відтак, можливо отримати наближене p-значення з таблиці нормальної ймовірності. Наприклад, якщо спостерігається z = 2.2 й потрібне двобічне p-значення для перевірки нульової гіпотези, що ρ=0, то p-значення становитиме Шаблон:Nowrap, де Φ — це стандартна нормальна функція розподілу.

Щоб отримати довірчий інтервал для ρ, спочатку обчислімо довірчий інтервал для F(ρ):

100(1α)%CI:arth(ρ)[arth(r)±zα/2SE]

Обернене перетворення Фішера повертає інтервал до шкали кореляції.

100(1α)%CI:ρ[th(arth(r)zα/2SE),th(arth(r)+zα/2SE)]

Наприклад, припустімо, що ми спостерігаємо r = 0.7 з розміром вибірки n=50, і хочемо отримати 95 %-вий довірчий інтервал для ρ. Перетворене значення становить arth(r)=0.8673, тому довірчий інтервал у перетвореній шкалі становить 0.8673±1.9647, або (0.5814, 1.1532). Перетворення назад до шкали кореляції дає (0.5237, 0.8188).

В регресійному аналізі методом найменших квадратів

Шаблон:For

Квадрат коефіцієнта кореляції вибірки зазвичай позначують через r2, він є окремим випадком коефіцієнта детермінації. У цьому випадку він оцінює частку дисперсії Y, яку пояснює X через просту лінійну регресію. Отже, якщо є спостережуваний набір даних Y1,,Yn та допасований набір даних Y^1,,Y^n, то як відправну точку повну дисперсію Yi навколо їхнього середнього значення можливо розкласти як

i(YiY¯)2=i(YiY^i)2+i(Y^iY¯)2,

де Y^i — це допасовані значення з регресійного аналізу. Це можливо переформулювати як

1=i(YiY^i)2i(YiY¯)2+i(Y^iY¯)2i(YiY¯)2.

Обидва доданки вище — це частка дисперсії в Y, яку пояснює X (правий), та яку X не пояснює (лівий).

Далі, ми застосовуємо властивість регресійних моделей найменших квадратів, що вибіркова коваріація між Y^i та YiY^i нульова. Тож вибірковий коефіцієнт кореляції між спостережуваними та допасованими значеннями відгуку в регресії можливо записати (обчислення виконується виходячи з очікування гауссової статистики) як

r(Y,Y^)=i(YiY¯)(Y^iY¯)i(YiY¯)2i(Y^iY¯)2=i(YiY^i+Y^iY¯)(Y^iY¯)i(YiY¯)2i(Y^iY¯)2=i[(YiY^i)(Y^iY¯)+(Y^iY¯)2]i(YiY¯)2i(Y^iY¯)2=i(Y^iY¯)2i(YiY¯)2i(Y^iY¯)2=i(Y^iY¯)2i(YiY¯)2.

Тож

r(Y,Y^)2=i(Y^iY¯)2i(YiY¯)2

де r(Y,Y^)2 — частка дисперсії Y, пояснювана лінійною функцією X.

У наведеному вище виведенні той факт, що

i(YiY^i)(Y^iY¯)=0

можливо довести, відмітивши, що частинні похідні Шаблон:Нп (Шаблон:Math) за β0 та β1 у моделі найменших квадратів дорівнюють 0, де

RSS=i(YiY^i)2.

Кінець кінцем, рівняння можливо записати як

r(Y,Y^)2=SSregSStot

де

  • SSreg=i(Y^iY¯)2
  • SStot=i(YiY¯)2.

Символ SSreg називають сумою квадратів регресії, також відомою як пояснена сума квадратів, а SStot — Шаблон:Нп (пропорційна дисперсії даних).

Чутливість до розподілу даних

Шаблон:Further

Існування

Коефіцієнт кореляції Пірсона для сукупності визначено через моменти, й тому він існує для будь-якого двовимірного розподілу ймовірності, для якого визначені коваріація сукупності та відособлені дисперсії сукупності, й вони ненульові. Деякі розподіли ймовірності, такі як розподіл Коші, мають невизначену дисперсію, й відтак якщо X або Y відповідають такому розподілові, то ρ невизначений. У деяких практичних застосуваннях, дані в яких підозрюють на відповідність Шаблон:Нп, це важливий аспект. Проте, існування коефіцієнта кореляції зазвичай не проблема; наприклад, якщо діапазон розподілу обмежений, ρ завжди визначений.

Розмір вибірки

  • Якщо розмір вибірки помірний або великий і сукупність нормальна, то у випадку двовимірного нормального розподілу вибірковий коефіцієнт кореляції є максимально-правдоподібнісною оцінкою коефіцієнта кореляції сукупності, Шаблон:Нп Шаблон:Нп та Шаблон:Нп, що приблизно означає неможливість побудувати оцінку, точнішу за вибірковий коефіцієнт кореляції.
  • Якщо розмір вибірки великий і сукупність не нормальна, то вибірковий коефіцієнт кореляції залишається приблизно незміщеним, але може не бути ефективним.
  • Якщо розмір вибірки великий, то вибірковий коефіцієнт кореляції є слушною оцінкою коефіцієнта кореляції сукупності, за умови, що середні значення вибірки, дисперсії та коваріація слушні (що гарантовано, коли можливо застосувати закон великих чисел).
  • Якщо розмір вибірки малий, то вибірковий коефіцієнт кореляції r не є незміщеною оцінкою ρ.[5] Замість цього слід використовувати скоригований коефіцієнт кореляції: визначення див. далі у цій статті.
  • Кореляції можуть бути різними для незбалансованих дихотомних даних, коли у вибірці є помилка дисперсії.[26]

Робастність

Як і багато інших часто використовуваних статистик, вибіркова статистика r не робастна,[27] тож за наявності викидів її значення може бути оманливим.[28][29] Зокрема, коефіцієнт кореляції моменту добутку не робастний ані щодо розподілу,[30] ані щодо викидів[27] (див. Шаблон:Section link). Перевірка діаграми розсіяння між X та Y зазвичай виявляє ситуацію, коли робастність може бути проблемою, і в таких випадках може бути рекомендовано використовувати робастну міру пов'язаності. Проте слід зазначити, що хоч більшість робастних оцінювачів пов'язаності і вимірюють якимось чином статистичну залежність, вони зазвичай не інтерпретовні тою ж мірою, що й коефіцієнт кореляції Пірсона.

Статистичне висновування для коефіцієнта кореляції Пірсона чутливе до розподілу даних. Точні критерії та асимптотичні критерії на основі Шаблон:Нп можливо застосовувати, якщо дані розподілені приблизно нормально, але в іншому разі вони можуть бути оманливими. У деяких ситуаціях можливо використовувати натяжку для створення довірчих інтервалів, а перестановкові критерії — для здійснення перевірки гіпотез. Ці Шаблон:Нп підходи можуть давати змістовніші результати в деяких ситуаціях, коли двовимірна нормальність не виконується. Проте стандартні версії цих підходів покладаються на Шаблон:Нп даних, що означає, що не існує впорядкування чи групування аналізованих пар даних, які могли би вплинути на поведінку оцінки кореляції.

Стратифікований аналіз — це один зі способів або пристосування до відсутності двовимірної нормальності, або для відокремлення кореляції, що випливає з одного чинника при контролі над іншим. Якщо W подає приналежність до кластеру або інший чинник, який хочеться контролювати, можливо стратифікувати дані на основі значення W, а потім обчислити коефіцієнт кореляції в межах кожної страти. Оцінки на рівні страт потім можливо об'єднати для оцінки загальної кореляції при контролі над W.[31]

Варіанти

Шаблон:Див. також

Існують різні варіації коефіцієнта кореляції, які можливо обчислювати для різних цілей. Ось декілька прикладів.

Скоригований коефіцієнт кореляції

Вибірковий коефіцієнт кореляції Шаблон:Mvar не є незміщеною оцінкою Шаблон:Mvar. Для даних, що дотримуються двовимірному нормальному розподілу, математичне сподівання Шаблон:Math вибіркового коефіцієнта кореляції Шаблон:Mvar нормальної двовимірності становить[32]

𝔼[r]=ρρ(1ρ2)2n+, тож Шаблон:Mvar є зміщеним оцінювачем ρ.

Унікальний мінімально-дисперсійний незміщений оцінювач (Шаблон:Lang-en) Шаблон:Math задається як[33]

Шаблон:NumBlk

де:

Приблизно незміщений оцінювач (Шаблон:Lang-en) Шаблон:Math можливо отриматиШаблон:Citation needed шляхом утинання Шаблон:Math та розв'язання цього утятого рівняння:

Шаблон:NumBlk

Приблизним розв'язкомШаблон:Citation needed рівняння (Шаблон:EquationNote) є

Шаблон:NumBlk

де у (Шаблон:EquationNote)

Іншим запропонованим[5] скоригованим коефіцієнтом кореляції (Шаблон:Lang-en) єШаблон:Citation needed

radj=1(1r2)(n1)(n2).

Шаблон:Math за великих значень Шаблон:Mvar.

Коефіцієнт зваженої кореляції

Покладімо, що спостереження, які потрібно скорелювати, мають різні ступені важливості, які можливо виразити ваговим вектором w. Щоб обчислити кореляцію між векторами x та y з ваговим вектором w (всі довжиною n),[34][35]

  • Зважене середнє: m(x;w)=iwixiiwi.
  • Зважена коваріація: cov(x,y;w)=iwi(xim(x;w))(yim(y;w))iwi.
  • Зважена кореляція (Шаблон:Lang-en): corr(x,y;w)=cov(x,y;w)cov(x,x;w)cov(y,y;w).

Віддзеркалювальний коефіцієнт кореляції

Віддзеркалювальна кореляція (Шаблон:Lang-en) — це варіант пірсонової кореляції, в якому дані не центровано навколо їхніх середніх значень.Шаблон:Citation needed Віддзеркалювальна кореляція сукупності це

corrr(X,Y)=𝔼[XY]𝔼[X2]𝔼[Y2].

Віддзеркалювальна кореляція симетрична, але не інваріантна щодо паралельного перенесення:

corrr(X,Y)=corrr(Y,X)=corrr(X,bY)corrr(X,a+bY),a0,b>0.

Віддзеркалювальна кореляція вибірки еквівалентна косинусній подібності:

rrxy=xiyi(xi2)(yi2).

Зважена версія вибіркової віддзеркалювальної кореляції це

rrxy,w=wixiyi(wixi2)(wiyi2).

Масштабний коефіцієнт кореляції

Шаблон:Основна стаття

Масштабна кореляція (Шаблон:Lang-en) — це варіант кореляції Пірсона, в якому діапазон даних обмежують навмисно й контрольовано, щоби виявляти кореляції між швидкими складовими в часових рядах.[36] Масштабну кореляцію визначають як середню кореляцію над короткими сегментами даних.

Нехай K це кількість сегментів, які можуть вміститися в загальну довжину сигналу T для заданого масштабу s:

K=round(Ts).

Тоді масштабну кореляцію над усім сигналом r¯s обчислюють як

r¯s=1Kk=1Krk,

де rk — коефіцієнт кореляції Пірсона для сегмента k.

Шляхом обирання параметра s зменшують діапазон значень, і кореляції на довгих часових масштабах відфільтровуються, так, що виявляються лише кореляції на коротких часових масштабах. Таким чином усувають внески повільних складових і зберігають внески швидких складових.

Відстань Пірсона

Метрику відстані для двох змінних X та Y, відому як відстань Пірсона (Шаблон:Lang-en), можливо визначати з коефіцієнта їхньої кореляції як[37]

dX,Y=1ρX,Y.

Враховуючи те, що коефіцієнт кореляції Пірсона перебуває в межах [−1, +1], відстань Пірсона лежить на проміжку [0, 2]. Відстань Пірсона використовували в кластерному аналізі та виявлянні даних для передавання та зберігання з невідомими передавальним коефіцієнтом та зміщенням.[38]

Визначена таким чином «відстань» Пірсона для від'ємних кореляцій встановлює відстань понад 1. Насправді, значення мають як сильна додатна, так і сильна від'ємна кореляції, тому потрібно бути обережними при використанні «відстані» Пірсона в алгоритмах найближчих сусідів, оскільки такі алгоритми включатимуть лише сусідів із додатною кореляцією й виключати сусідів із від'ємною. Як альтернативу, можливо застосовувати відстань з абсолютним значенням, dX,Y=1|ρX,Y|, яка враховуватиме як додатні, так і від'ємні кореляції. Інформацію про додатну та від'ємну пов'язаність можливо виділяти окремо пізніше.

Коловий коефіцієнт кореляціїШаблон:Anchor

Шаблон:Детальніше

Для змінних X = {x1,…,xn} та Y = {y1,…,yn}, визначених на одиничному колі [0,2π), можливо визначити коловий (Шаблон:Lang-en) аналог коефіцієнта Пірсона.[39] Це робиться шляхом такого перетворення даних в X та Y за допомогою функції синуса, що коефіцієнт кореляції визначається як

rcircular=i=1nsin(xix¯)sin(yiy¯)i=1nsin(xix¯)2i=1nsin(yiy¯)2

де x¯ та y¯ — Шаблон:Нп X та Y. Ця міра може бути корисною в таких галузях як метеорологія, де важливий кутовий напрямок даних.

Частинна кореляція

Шаблон:Основна стаття

Якщо сукупність або набір даних характеризується понад двома змінними, коефіцієнт частинної кореляції вимірює силу залежності між парою змінних, яка не пояснюється тим, як вони обидві змінюються у відповідь на варіації в обраній підмножині інших змінних.

Декореляція n випадкових змінних

Шаблон:Основна стаття

Завжди можливо усунути кореляції між усіма парами довільного числа випадкових змінних за допомогою перетворення даних, навіть якщо взаємозв'язок між цими змінними нелінійний. Подання цього результату для розподілів сукупностей навели Кокс та Гінклі.[40]

Існує відповідний результат для зведення до нуля й вибіркових кореляцій. Припустімо, що вектор з n випадкових змінних спостерігають m разів. Нехай X — матриця, де Xi,j — j-та змінна спостереження i. Нехай Zm,m — квадратна матриця m на m з усіма елементами 1. Тоді D — це дані, перетворені так, що кожна випадкова змінна має нульове середнє, а T — це дані, перетворені так, що всі змінні мають нульове середнє й нульову кореляцію з усіма іншими змінними, — вибіркова кореляційна матриця T буде одиничною матрицею. Це потрібно додатково поділити на стандартне відхилення, щоб отримати одиничну дисперсію. Перетворені змінні будуть некорельованими, хоч вони й можуть бути не незалежними.

D=X1mZm,mX
T=D(D𝖳D)12,

де степінь Шаблон:Frac подає квадратний корінь оберненої матриці. Матриця кореляції T буде одиничною. Якщо нове спостереження даних x це рядковий вектор з n елементів, то те саме перетворення можливо застосувати й до x, щоб отримати перетворені вектори d та t:

d=x1mZ1,mX,
t=d(D𝖳D)12.

Декореляція пов'язана з аналізом головних компонент для багатовимірних даних.

Програмні втілення

  • У базовому пакеті статистики R цей коефіцієнт кореляції втілено через cor(x, y), або (з P-значенням) через cor.test(x, y).
  • У бібліотеці Python SciPy — через pearsonr(x, y).
  • Бібліотека Python Pandas втілює обчислення коефіцієнта кореляції Пірсона як варіант за замовчуванням для методу pandas.DataFrame.corr
  • Wolfram Mathematica — через функцію Correlation, або (з P-значенням) через CorrelationTest.
  • Бібліотека C++ Boost — через функцію correlation_coefficient.
  • Excel має вбудовану функцію correl(array1, array2) для обчислення коефіцієнта кореляції Пірсона.

Див. також

Шаблон:Портал

Виноски

Шаблон:Notelist

Примітки

Шаблон:Примітки

Посилання

  • Шаблон:Cite web — Безкоштовний вебінтерфейс та пакет R для статистичного порівняння двох залежних або незалежних кореляцій з перетинними або неперетинними змінними.
  • Шаблон:Cite web — інтерактивна флешсимуляція кореляції двох нормально розподілених змінних.
  • Шаблон:Cite web
  • Шаблон:Cite web — велика таблиця.
  • Шаблон:Cite web — Гра, в якій гравці вгадують, наскільки корельовані дві змінні на діаграмі розсіювання, щоби краще зрозуміти поняття кореляції.

Шаблон:Статистика Шаблон:Бібліоінформація

  1. Шаблон:Cite journal
  2. Шаблон:Cite journal
  3. Шаблон:Cite journal
  4. Шаблон:Cite journal
  5. 5,0 5,1 5,2 5,3 5,4 Real Statistics Using Excel, "Basic Concepts of Correlation" Шаблон:Ref-en, отримано 22 лютого 2015 р.
  6. Шаблон:Cite web
  7. Шаблон:Cite book
  8. Шаблон:Cite journal
  9. Шаблон:Cite web
  10. Шаблон:Cite web
  11. Шаблон:Cite journal
  12. Шаблон:Cite journal
  13. Шаблон:Cite web
  14. Шаблон:Cite book
  15. 15,0 15,1 Шаблон:Cite book
  16. Шаблон:Cite journal
  17. Шаблон:Cite web
  18. Rahman, N. A. (1968) A Course in Theoretical Statistics Шаблон:Ref-en, Charles Griffin and Company, 1968
  19. Kendall, M. G., Stuart, A. (1973) The Advanced Theory of Statistics, Volume 2: Inference and Relationship Шаблон:Ref-en, Griffin. Шаблон:Isbn (Section 31.19)
  20. Шаблон:Cite journal
  21. Шаблон:Cite journal
  22. Шаблон:Cite journal
  23. Шаблон:Cite book
  24. Шаблон:Cite web
  25. Шаблон:Cite journal
  26. Шаблон:Cite journal
  27. 27,0 27,1 Шаблон:Cite book
  28. Шаблон:Cite journal
  29. Шаблон:Cite bookШаблон:Page needed
  30. Шаблон:Cite book
  31. Katz., Mitchell H. (2006) Multivariable Analysis – A Practical Guide for Clinicians. 2nd Edition. Cambridge University Press. Шаблон:Ref-en Шаблон:Isbn. Шаблон:Isbn
  32. Шаблон:Cite journal
  33. Шаблон:Cite journal.
  34. Шаблон:Cite web
  35. Шаблон:Cite web
  36. Шаблон:Cite journal
  37. Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer Шаблон:Ref-en (pp. 110) Шаблон:Isbn
  38. Шаблон:Cite journal
  39. Шаблон:Cite book
  40. Шаблон:Cite book