Відстань Кука

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

У статистиці відстань Кука є загальноприйнятою оцінкою впливу спостереження під час застосування методу найменших квадратів у регресійному аналізі.[1] На практиці, при застосуванні методу найменших квадратів, відстань Кука може використовуватися для наступних цілей: визначити впливові спостереження даних, які потрібно перевірити на валідність; визначення областей простору, у яких непогано було б отримати більше результатів спостереження. Відстань названа на честь американського статистика Шаблон:Не перекладено, який у 1977 році запропонував дану концепцію.[2][3]

Означення

Дані з великими значеннями залишків (викиди) та/або великими значеннями важелів можуть спотворювати результати й точність регресійної моделі. Відстань Кука вимірює ефект видалення даного спостереження з вибірки. Вважається, що для спостережень з великою відстанню Кука доцільно проводити більш глибокий аналіз.

Для алгебраїчного представлення спочатку визначимо:

𝐲n×1=𝐗n×pβp×1+ϵn×1

де ϵ𝒩(0,σ2𝐈) — похибки регресії, β=[β0β1βp1]𝖳 — параметри регресії, 𝐗 — матриця регресорів із одиничним першим стовпчиком. Тоді оцінка коефіцієнтів регресії методом найменших квадратів  має представлення 𝐛=(𝐗𝖳𝐗)1𝐗𝖳𝐲, а отже, відповідно, прогнозовані значення для 𝐲 обчислюються за формулою:

𝐲^=𝐗𝐛=𝐗(𝐗𝖳𝐗)1𝐗𝖳𝐲=𝐇𝐲

де 𝐇𝐗(𝐗𝖳𝐗)1𝐗𝖳проєкційна матриця. Причому i-тий діагональний елемент матриці 𝐇, що обчислюється як hi𝐱i𝖳(𝐗𝖳𝐗)1𝐱i,[4] називається важелем i-го спостереження. Аналогічно, i-тий елемент вектора залишків має вигляд 𝐞=𝐲𝐲^=(𝐈𝐇)𝐲 і позначається як ei.

Відстань Кука Di спостереження i(i=1,,n) визначається як сума всіх змін у регресійній моделі, у разі видалення i-го спостереження

Di=j=1n(y^jy^j(i))2ps2

де y^j(i) — прогноз відгука, отриманий вилученням i-го спостереження,

де s2(np)1𝐞𝐞 — середньоквадратична похибка регресійної моделі.[5]

Аналогічно, відстань Кука можна виразити через важелі

Di=ei2s2p[hi(1hi)2]

Визначення спостережень із великим впливом

Існують різні припущення щодо того, які межі використовувати для виявлення точок із великим впливом. Пропонується, у разі Di>1 ввжати спостереження впливовим.[6] Також, іноді використовується припущення, що слід враховувати Di>4/n, де n - кількість спостережень.[7]

Інтерпретація

Зокрема, Di можна інтерпретувати як відстань, яку проходить оцінка, в межах довірчого еліпсоїда, що є областю вірогідних значень параметра.Шаблон:Прояснити Це показується за допомогою альтернативного, проте еквівалентного зображення відстані Кука в термінах зміни оцінки параметра у випадку включення та виключення конкретного спотсереження з регресіного аналізу.

Посилання

Шаблон:Reflist

Література