Відстань Кука
У статистиці відстань Кука є загальноприйнятою оцінкою впливу спостереження під час застосування методу найменших квадратів у регресійному аналізі.[1] На практиці, при застосуванні методу найменших квадратів, відстань Кука може використовуватися для наступних цілей: визначити впливові спостереження даних, які потрібно перевірити на валідність; визначення областей простору, у яких непогано було б отримати більше результатів спостереження. Відстань названа на честь американського статистика Шаблон:Не перекладено, який у 1977 році запропонував дану концепцію.[2][3]
Означення
Дані з великими значеннями залишків (викиди) та/або великими значеннями важелів можуть спотворювати результати й точність регресійної моделі. Відстань Кука вимірює ефект видалення даного спостереження з вибірки. Вважається, що для спостережень з великою відстанню Кука доцільно проводити більш глибокий аналіз.
Для алгебраїчного представлення спочатку визначимо:
де — похибки регресії, — параметри регресії, — матриця регресорів із одиничним першим стовпчиком. Тоді оцінка коефіцієнтів регресії методом найменших квадратів має представлення , а отже, відповідно, прогнозовані значення для обчислюються за формулою:
де — проєкційна матриця. Причому -тий діагональний елемент матриці , що обчислюється як ,[4] називається важелем -го спостереження. Аналогічно, -тий елемент вектора залишків має вигляд і позначається як .
Відстань Кука спостереження визначається як сума всіх змін у регресійній моделі, у разі видалення -го спостереження
де — прогноз відгука, отриманий вилученням -го спостереження,
де — середньоквадратична похибка регресійної моделі.[5]
Аналогічно, відстань Кука можна виразити через важелі
Визначення спостережень із великим впливом
Існують різні припущення щодо того, які межі використовувати для виявлення точок із великим впливом. Пропонується, у разі ввжати спостереження впливовим.[6] Також, іноді використовується припущення, що слід враховувати , де - кількість спостережень.[7]
Інтерпретація
Зокрема, можна інтерпретувати як відстань, яку проходить оцінка, в межах довірчого еліпсоїда, що є областю вірогідних значень параметра.Шаблон:Прояснити Це показується за допомогою альтернативного, проте еквівалентного зображення відстані Кука в термінах зміни оцінки параметра у випадку включення та виключення конкретного спотсереження з регресіного аналізу.