Проста лінійна регресія

Матеріал з testwiki
Версія від 16:20, 19 травня 2024, створена imported>Tolsai (growthexperiments-addlink-summary-summary:1|1|0)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

Шаблон:Регресійний аналіз

Закон Оукена в макроекономіці є прикладом простої лінійної регресії. Тут ВВП (залежна змінна) вважається лінійно залежним від зміни рівня безробіття.

У статистиці, простою лінійною регресією є лінійна регресійна модель з однією незалежною змінною.[1][2][3][4] Тобто, її розглядають у двовимірному просторі вибірки, утвореному однією незалежною змінною та однією залежною змінною (зазвичай х і у — координати в декартовій системі координат). Модель призначена для знаходження лінійної функції (не вертикальною прямої) залежності, яка якомога точніше прогнозує значення залежної змінної як функції незалежної змінної. Прикметник простий вказує на залежність залежної змінної від одного предиктора.

Далі в статті вважатимемо, що використовується звичайна регресія отримана методом найменшого квадратичного відхилення. У цьому випадку, нахил (кутовий коефіцієнт прямої) цієї прямої дорівнює кореляції між y і x скоригований на коефіцієнти стандартних відхилень цих змінних. Точка перетину отриманої лінії проходить через центр мас Шаблон:Math даного набору точок.

Допасування регресійної лінії

Припустимо, що є n точок Шаблон:Math Функція, яка описує зв'язок х і y записується:

yi=α+βxi+εi.

Завдання полягає в тому, щоб знайти рівняння прямої лінії

y=α+βx,

яка б забезпечувала «найкращий» допасування наявних точок даних. Тут під «найкращий» розуміємо в сенсі найменшого квадратичного відхилення: лінія, що мінімізує суму квадратів похибок лінійної регресійної моделі. Іншими словами, α (перетин з віссю y) і β (нахил) є розв'язком наступної задачі мінімізації:

Find minα,βQ(α,β),for Q(α,β)=i=1nεi2=i=1n(yiαβxi)2 

Просто розкриваючи дужки у виразі отримуємо квадратичний вираз відносно α і β, можна показати, що значення α і β, які мінімізують цільову функцію Q[5] записуються формулами:

β^=i=1n(xix¯)(yiy¯)i=1n(xix¯)2=i=1n(xiyixiy¯x¯yi+x¯y¯)i=1n(xi22xix¯+x¯2)=i=1n(xiyi)y¯i=1nxix¯i=1nyi+nx¯y¯i=1n(xi2)2x¯i=1nxi+nx¯2=1ni=1nxiyix¯y¯1ni=1nxi2x2=xyx¯y¯x2x¯2=Cov[x,y]Var[x]=rxysysx,α^=y¯β^x¯,

де Шаблон:Math — коефіцієнт кореляції між x і y; а Шаблон:Math і Шаблон:Math — це стандартні відхилення x і y. Горизонтальна риска над величиною вказує середнє значення цієї величини. Наприклад:

xy=1ni=1nxiyi.

Підставляючи вирази α^ і β^ в

f=α^+β^x,

маємо

fy¯sy=rxyxx¯sx

Це показує, що Шаблон:Math — нахил регресійної лінії для стандартизованих точок вибірки (і ця лінія проходить через початок координат).

Іноді корисно вираховувати Шаблон:Math даних з інших причин, використовуючи формулу:

rxy=xyx¯y¯(x2x¯2)(y2y¯2)

Коефіцієнт детермінації (R-квадрат) дорівнює rxy2, коли маємо справу з лінійною моделлю з однією незалежною змінною. Докладніше в статті про коефіцієнт кореляції вибірки.

Чисельні властивості

  1. Регресійна лінія проходить через центр мас точок, (x¯,y¯), якщо модель включає в себе вільний член (тобто, не пересунена в початок координат)
  2. Сума похибок дорівнює нулю, якщо модель включає в себе вільний член:
i=1nε^i=0.
  1. Значення похибок і Шаблон:Mvar некорельовані, тобто (не залежно від того чи присутній в моделі вільний член):
i=1nxiε^i=0

Виведення оцінок в простій регресії

Знайдемо α^ і β^ які мінімізують суму квадратичних похибок (СКП):

minα^,β^SSE(α^,β^)minα^,β^i=1n(yiα^β^xi)2

Щоб знайти мінімум, візьмемо частинні похідні по α^ і β^

α^(SSE(α^,β^))=2i=1n(yiα^β^xi)=0i=1n(yiα^β^xi)=0i=1nyi=i=1nα^+β^i=1nxii=1nyi=nα^+β^i=1nxi1ni=1nyi=α^+1nβ^i=1nxiy¯=α^+β^x¯

Перед взяттям частинної похідно по β^, підставимо попередній результат для α^.

minα^,β^i=1n[yi(y¯β^x¯)β^xi]2=minα^,β^i=1n[(yiy¯)β^(xix¯)]2

Тепер візьмемо похідну по β^:

β^(SSE(α^,β^))=2i=1n[(yiy¯)β^(xix¯)](xix¯)=0i=1n(yiy¯)(xix¯)β^i=1n(xix¯)2=0β^=i=1n(yiy¯)(xix¯)i=1n(xix¯)2=Cov(x,y)Var(x)

І, нарешті, підставимо β^ у вираз для визначення α^

α^=y¯β^x¯

Див. також

Джерела

Примітки

Шаблон:Reflist

  1. Шаблон:Cite web
  2. Шаблон:Cite book
  3. Шаблон:Cite web
  4. Шаблон:Cite book
  5. Kenney, J. F. and Keeping, E. S. (1962) «Linear Regression and Correlation.» Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252—285