Метод найменших квадратів

Матеріал з testwiki
Версія від 16:56, 15 січня 2025, створена imported>Олюсь
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

Шаблон:Регресійний аналіз Метод найменших квадратів — метод знаходження наближеного розв'язку надлишково-визначеної системи. Часто застосовується в регресійному аналізі. На практиці найчастіше використовується лінійний метод найменших квадратів, що використовується у випадку системи лінійних рівнянь. Зокрема важливим застосуванням у цьому випадку є оцінка параметрів у лінійній регресії, що широко застосовується у математичній статистиці і економетриці.

Мотиваційний приклад

Графік точок даних (червоним), лінія найменших квадратів (синім) і відстані (зеленим)

Нехай в результаті деякого досліду отримано чотири (x,y) точки даних: (1,6), (2,5), (3,7) і (4,10) (на малюнку ліворуч позначені червоним). Потрібно знайти пряму y=β1+β2x, яка найкраще підходить для цих точок. Інакше кажучи, ми хотіли б знайти числа β1 і β2, які приблизно розв'язують надвизначену лінійну систему

β1+1β2=6β1+2β2=5β1+3β2=7β1+4β2=10

чотирьох рівнянь з двома невідомими в деякому найкращому сенсі.

Підхід найменших квадратів розв'язання цієї проблеми полягає у спробі зробити якомога меншою суму квадратів похибок між правою і лівою сторонами цієї системи, тобто необхідно знайти мінімум функції

S(β1,β2)=[6(β1+1β2)]2+[5(β1+2β2)]2+[7(β1+3β2)]2+[10(β1+4β2)]2.

Мінімум визначають через обчислення часткової похідної від S(β1,β2) щодо β1 і β2 і прирівнюванням їх до нуля

Sβ1=0=8β1+20β256
Sβ2=0=20β1+60β2154.

Це приводить нас до системи з двох рівнянь і двох невідомих, які називаються нормальними рівняннями. Роз'язком СЛАР будуть

β1=3.5
β2=1.4,

звідки отримуємо y=3.5+1.4x, що є рівнянням прямої, яка проходить найближче до поданих чотирьох точок. Мінімальна сума квадратів похибок є S(3.5,1.4)=1.12+(1.3)2+(0.7)2+0.92=4.2.

Результат підгонки сукупності спостережень (xi,yi) (червоним) квадратичною функцією y=β1+β2x+β3x2 (синім). У лінійних найменших квадратах функція не повинна бути лінійною у своєму аргументі x, а лише щодо своїх параметрів βj, які треба визначити для отримання найкращого результату

Використання квадратичної моделі

Важливо, що у методі лінійних найменших квадратів ми не обмежені використанням прямої як моделі як у попередньому прикладі. Наприклад, ми могли вибрати обмежену квадратичну модель y=β1x2.[1] Ця модель все ще лінійна в сенсі параметру β1, отже ми все ще можемо здійснювати той самий аналіз, будуючи систему рівнянь з точок даних:

6=β1(1)25=β1(2)27=β1(3)210=β1(4)2

Часткові похідні щодо параметрів (цього разу лише одного) так само обчислюються і прирівнюються до 0:

Sβ1=0=708β1498

Розв'язок отриманого рівняння:

β1=0.703,

що призводить до визначення найбільш підходящої моделі y=0.703x2

Лінійний випадок

Одна незалежна змінна

Нехай маємо лінійну регресію зі скалярною змінною x:

y=xβ1+β0,

а також вибірку початкових даних (yi,xi) розміру M. Тоді

β0=1Miyiβ1Mixi,β1=MixiyiixiiyiMixi2(ixi)2

Множинна регресія (випадок багатьох незалежних змінних)

Для надлишково-визначеної системи m лінійних рівнянь з n невідомими βj,(m>n):

j=1nXijβj=yi,i=1,m,j=1,n

чи в матричній формі запису:

Xβ=𝐲,

зазвичай не існує точного розв'язку, і потрібно знайти такі β, які мінімізують наступну норму:

argminβi=1m|yij=1nXijβj|2=argminβ𝐲Xβ2.

Такий розв'язок завжди існує і він є єдиним:

β^=(XX)1X𝐲

хоч дана формула не є ефективною через необхідність знаходити обернену матрицю.

Виведення формули

Значення S=i=1m|yij=1nXijβj|2 досягає мінімуму в точці в якій похідна по кожному параметру рівна нулю. Обчислюючи ці похідні одержимо:

Sβj=2iririβj=0 (j=1,2,,n)

де використано позначення ri=yij=1nXijβj.

Також виконуються рівності:

riβj=Xij.

Підставляючи вирази для залишків і їх похідних одержимо рівність:

Sβj=2i=1mXij(yik=1nXikβk)=0.

Дану рівність можна звести до вигляду:

i=1mk=1nXijXikβ^k=i=1mXijyi (j=1,2,,n)

або в матричній формі:

(𝐗𝐗)β^=𝐗𝐲.

Числові методи для обчислення розв'язку

Якщо матриця  XX є невиродженою та додатноозначеною, тобто має повний ранг, тоді система може бути розв'язана за допомогою розкладу Холецького XX=RR, де R — верхня трикутна матриця.

RRβ^=X𝐲.

Розв'язок отримаємо в два кроки:

  1. Отримаємо 𝐳 з рівняння R𝐳=X𝐲,
  2. Підставимо і отримаємо β^ з Rβ^=𝐳.

В обох випадках використовуються властивості трикутної матриці.

Статистичні властивості

Одним із найважливіших застосувань лінійного МНК є оцінка параметрів лінійної регресії. Для заданого набору даних {yi,xi1,,xip}i=1n будується модель:

yi=β1xi1++βpxip+εi=x'iβ+εi,i=1,,n,

або в матричній формі:

y=Xβ+ε,

де:

y=(y1y2yn),X=(x'1x'2x'n)=(x11x1px21x2pxn1xnp),β=(β1βp),ε=(ε1ε2εn).

В цих формулах β — вектор параметрів, які оцінюються, наприклад, за допомогою методу найменших квадратів, а ε — вектор випадкових змінних.

У класичній моделі множинної лінійної регресії приймаються такі умови:

  • yi=β0β1xi1++βpxip+εi=x'iβ+εi,i=1,,n,
  • E[εi]=0.
  • E[εiεj]={σ2i=j0ij
тобто випадкові змінні є гомоскедастичними і між ними відсутня будь-яка залежність.

Для такої моделі оцінка β^ одержана методом найменших квадратів володіє властивостями:

  • Незміщеність. Оцінка β^ є незміщеною, тобто E[β^|X]=β. Справді:
E[β^]=E[(XX)1X(Xβ+ε)]=β+E[(XX)1Xε]=β+(XX)1XE(ε)=β
  • Коваріаційна матриця оцінки β^ рівна:
Var[β^]=σ2(XX)1.
Це випливає з того, що Var[Y]=Var[ε] і
E[β^]=Var[(XX)1XY]=(XX)1XVar[Y]X(XX)1=
=σ2(XX)1(XX)(XX)1=σ2(XX)1
  • Ефективність. Згідно з теоремою Гауса — Маркова оцінка, що одержана МНК, є найкращою лінійною незміщеною оцінкою.
  • Змістовність. При доволі слабких обмеженнях на матрицю X метод найменших квадратів є змістовним, тобто при збільшенні розміру вибірки, оцінка за імовірністю прямує до точного значення параметру. Однією з достатніх умов є наприклад прямування найменшого власного значення матриці (XX) до безмежності при збільшенні розміру вибірки.
  • Якщо додатково припустити нормальність змінних ε, то оцінка МНК має розподіл:
β^  𝒩(β, σ2(XX)1)

В математичному моделюванні

Нехай ми маємо вибірку початкових даних f(xi)=yi i=1..n. Функція f — невідома.

Якщо ми знаємо приблизний вигляд функції f(x), то задамо її у вигляді функціоналу F(xi,a0,,am)yi, де a0,,am — невідомі константи.

Нам потрібно мінімізувати відмінності між F та f. Для цього беруть за міру суму квадратів різниць значень цих функцій у всіх точках xi і її мінімізують (тому метод так і називається):

I(a0,,am)=i=0n(yiF(xi,a0,,am))2min

Коефіцієнти aj в яких така міра мінімальна знаходять з системи:

{I(a0,,am)a0=0I(a0,,am)am=0

Примітки

Шаблон:Reflist

Див. також

Джерела

Шаблон:Перекласти Шаблон:Statistics-stub


Шаблон:Статистика

  1. Повне квадратне рівняння у загальному випадку має три ненульові коефіцієнти і має вигляд y=β1x2+β2x+β3