Лінійна регресія

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Мовні помилки Шаблон:Регресійний аналіз

Приклад простої лінійної регресії з однією незалежною змінною

У статистиці лінійна регресія — це метод моделювання залежності між скалярною змінною y та векторною (у загальному випадку) змінною X. У разі, якщо змінна X також є скаляром, регресію називають простою.

При використанні лінійної регресії взаємозв'язок між даними моделюється за допомогою лінійних функцій, а невідомі параметри моделі оцінюються за вхідними даними. Подібно до інших методів регресійного аналізу лінійна регресія повертає розподіл умовної імовірності y в залежності від X, а не розподіл спільної імовірності y та X, що стосується області мультиваріативного аналізу.

При розрахунках параметрів моделі лінійної регресії зазвичай застосовується метод найменших квадратів (МНК), але також можуть бути використані інші методи. Але метод найменших квадратів може бути використаний і для нелінійних моделей, тому МНК та лінійна регресія, хоч і є тісно пов'язаними, але не є синонімами.

Означення

Загальна лінійна регресійна модель має вигляд:

y=β0+β1x1++βKxK+u,
де y — залежна пояснювана змінна, (x1,x2,,xK) — незалежні пояснювальні змінні, u — випадкова похибка, розподіл якої в загальному випадку залежить від незалежних змінних, але математичне сподівання якої дорівнює нулеві.

Згідно з цією моделлю, математичне сподівання залежної змінної є лінійною функцією незалежних змінних:

𝔼(y)=β0+β1x1++βKxK+u.

Вектор параметрів (β0,β1,,βK) є невідомим і задача лінійної регресії полягає у пошуку цих параметрів на основі деяких експериментальних значень y і (x1,x2,,xK). Тобто для деяких n експериментів мають бути відомими значення {xi1,,xiK}i=1n незалежних змінних і відповідні їм значення yiзалежної змінної.

Згідно з означенням моделі для кожного експериментального випадку залежність між змінними визначається формулою

yi=β0+β1x1,i++βKxK,i+ui,

або, у матричних позначеннях, y=Xβ+u,

де:
y=(y1y2yn),X=(x'1x'2x'n)=(1x11x1K1x21x2K1xn1xnK),β=(β0β1βK),u=(u1u2un).

На основі цих даних потрібно оцінити значення параметрів (β0,β1,,βK), а також розподіл випадкової величини u. Зважаючи на характеристики досліджуваних змінних, можуть додаватися різні додаткові специфікації моделі і застосовуватися різні методи оцінки параметрів. Серед найпоширеніших специфікацій лінійних моделей є класична модель лінійної регресії і узагальнена модель лінійної регресії.

Класична модель лінійної регресії

Згідно з класичною моделлю додатково вводяться такі вимоги щодо специфікації моделі і відомих експериментальних даних:

попередні дві властивості можна також записати в матричних позначеннях 𝕍(u|X)=σ2In, де Inодинична матриця розмірності n.
  • Ранг матриці X дорівнює K+1.
  • Усі елементи матриці X є невипадковими.

Часто додається також умова нормальності випадкових відхилень, яка дозволяє провести значно ширший аналіз оцінок параметрів та їх значимості, хоча і не є обов'язковою для можливості використання наприклад методу найменших квадратів:

  • ui|xi𝒩(0,σ2).

Для асимптотичних властивостей оцінок додатково вимагається виконання деяких додаткових умов на матрицю X коли її розмірність прямує до безмежності. Однією з таких умов може бути існування границі при прямуванні розмірності до нескінченності:

  • limnλ(XX)=, де λ позначає найменше власне значення матриці.

Узагальнена модель лінійної регресії

Умови гомоскедастичності та відсутності кореляції між випадковими залишками у моделі не часто виконуються на практиці. Якщо замість цих двох умов у визначенні моделі взяти загальнішу умову 𝕍(u|X)=σ2W, де W — відома додатноозначена матриця, то одержана модель називається узагальненою моделлю лінійної регресії.

Оскільки для кожної додатноозначеної матриці W існує матриця N, така що W1=NN, то модель

Ny=NXβ+Nu,

вже буде класичною моделлю лінійної регресії.

Методи оцінювання

Залежно від об'єктів, що досліджуються за допомогою лінійної регресії, та конкретних цілей дослідження можуть використовуватися різні методи оцінки невідомих параметрів. Найпопулярнішим є звичайний метод найменших квадратів. Він приймає за оцінку параметра значення, що мінімізують суму квадратів залишків по всіх спостереженнях:

β^=argminβi=1n|yiβ0j=1KXijβj|2=argminβyXβ2.

Метод найменших квадратів можна застосувати у будь-яких задачах, в яких ранг матриці X рівний кількості її стовпців. Також цей метод дає простий аналітичний вираз для оцінки параметрів:

β^=(XX)1Xy.

У випадку класичної моделі лінійної регресії оцінка методу найменших квадратів є незміщеною, змістовною і найкращою лінійною незміщеною оцінкою (детальніше про ці статистичні властивості у статті метод найменших квадратів).

У випадку коли деякі з умов класичної лінійної регресії не виконуються метод найменших квадратів може не бути оптимальним. Так для узагальненої моделі лінійної регресії де 𝕍(u|X)=σ2W, найкращою лінійною незміщеною оцінкою є оцінка, що одержується так званим узагальненим методом найменших квадратів:

β^=(XTW1X)1XTW1y.

Узагальнений метод найменших квадратів теж одержується мінімізацією деякої норми вектора відхилень:

β^=argminβ(yXβ)TW1(yXβ).

Серед інших методів оцінювання:

  • Метод найменших модулів, що знаходить мінімум суми не квадратів відхилень, а їх абсолютних значень:
β^=argminβi=1n|yiβ0j=1KXijβj|.
Цей метод є найкращим в сенсі максимальної правдоподібності у випадку коли відхилення мають розподіл Лапласа. Метод найменших модулів є значно менш чутливим до викидів значень, ніж метод найменших квадратів, проте може мати більш ніж один розв'язок і не має простої формули визначення оцінки.
  • Метод максимальної правдоподібності. Використовується коли відомі всі розподіли відхилень для всіх спостережень. При класичній і узагальненій моделях лінійної регресії з умовою нормальності відхилень приводить до того ж результату, що і метод найменших квадратів і узагальнений метод найменших квадратів відповідно.
  • Ортогональна регресія. Застосовується у випадках коли в значення пояснюючих змінних теж можуть містити випадкові складові і при оцінці враховуються можливі відхилення по всіх змінних.

Див. також

Джерела

Шаблон:Статистика