Важіль (статистика)

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

У статистиці та, зокрема, у регресійному аналізі важіль — це міра віддаленості значень незалежної змінної спостереження від значень інших спостережень.

Точки із великими значеннями важелів — крайні спостереження або викиди незалежної змінної, тобто такі точки, що нестача сусідніх спостережень спричинить проходження побудованої регресійної моделі дуже близько до даної точки[1].

Сучасні пакети для статистичного аналізу включають до своїх властивостей різні кількісні міри виявлення впливових спостережень при проведенні регресійного аналізу; серед цих мір є частинний важіль, кількісна характеристика внеску змінної до важелів даних.

Лінійна регресійна модель

Означення

У лінійній регресійній моделі, оцінка важеля i-го спостереження визначається як:

hii=[𝐇]ii,

де i-й діагональний елемент проєкційної матриці 𝐇=𝐗(𝐗𝖳𝐗)1𝐗𝖳,

де 𝐗 — матриця регресорів із одиничним стовпчиком на початку.

Якщо в матриці тільки 2 стовпці, то: hii=1nj(xjxi)2j(xjx)2=1n+(xix)2j(xjx)2

Оцінка важеля також відома як самочутливість спостереження або самовпливовість[2], як видно з

hii=y^iyi,

де y^i та yi — прогноз відгуку та відгук спостереження відповідно.

Межі важеля

0hii1.

Доведення

Відмітимо, що матриця H — ідемпотентна: H2=X(XX)1XX(XX)1X=XI(XX)1X=H, а також симетрична.

Тоді, прирівнюючи елементи ii матриці H до елементів ii матриці H2, отримаємо

hii=hii2+jihij20

та

hiihii2hii1.

Вплив на дисперсію залишків

Якщо використовувати звичайний метод найменших квадратів із фіксованою матрицею X, регресійними похибками ϵi, та

Y=Xβ+ϵ
Var(ϵ)=σ2I

тоді Var(ei)=(1hii)σ2 де ei=YiY^i (i-й залишок регресії).

Іншими словами, якщо похибки моделі є гомоскедастичними, то оцінка важеля спостереження визначає ступінь шуму в помилковому передбаченні моделі.

Зауважимо, що IH — ідемпотентна та симетрична матриця. Із цього випливає, що

Var(e)=Var((IH)Y)=(IH)Var(Y)(IH)=σ2(IH)2=σ2(IH).

Таким чином Var(ei)=(1hii)σ2.

Відповідні стьюдентизовані залишки — залишки, скореговані спостереженнями — особлива дисперсія залишків має наступний вигляд:

ti=eiσ^1hii 

де σ^ — відповідна оцінка дисперсії σ.

Див. також

Примітки

Шаблон:Reflist

Шаблон:Ізольована стаття