Баєсова лінійна регресія

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Баєсова статистика Шаблон:Регресійний аналіз Ба́єсова ліні́йна регре́сія в статистиці — це підхід до лінійної регресії, в якому статистичний аналіз застосовується в контексті баєсового висновування. Якщо помилки регресійної моделі мають нормальний розподіл і якщо розглядається певна форма апріорного розподілу, то для апостеріорного розподілу ймовірності параметрів моделі доступні точні результати.

Налаштування моделі

Розгляньмо стандартну задачу лінійної регресії, в якій для i=1,...,n ми вказуємо умовну ймовірність yi для заданого вектора k×1 провісників 𝐱i:

yi=𝐱iTβ+ϵi,

де β є вектором завдовжки k×1, а ϵi є незалежними однаково розподіленими випадковими величинами з нормальним розподілом:

ϵiN(0,σ2).

Це відповідає такій функції правдоподібності:

ρ(𝐲|𝐗,β,σ2)(σ2)n/2exp(12σ2(𝐲𝐗β)T(𝐲𝐗β)).

Розв'язком Шаблон:Не перекладено є оцінка вектора коефіцієнтів за допомогою псевдообернення Мура-Пенроуза:

β^=(𝐗T𝐗)1𝐗T𝐲

де 𝐗 є Шаблон:Не перекладено n×k, кожен з рядків якої є вектором провісників 𝐱iT, а 𝐲 є вектором-стовпцем [y1yn]T.

Це є частотним підходом, що передбачає наявність достатньої кількості вимірювань, щоби сказати щось суттєве про β. За баєсового ж підходу дані надаються з додатковою інформацією у вигляді апріорного розподілу ймовірності. Ці апріорні переконання про параметри поєднуються з функцією правдоподібності даних згідно з теоремою Баєса для отримання апостеріорного переконання про параметри β та σ. Це апріорне може мати різний функціональний вигляд в залежності від області визначення та інформації, що доступна апріорі.

Зі спряженими апріорними

Спряжений апріорний розподіл

Для довільного апріорного розподілу може не існувати аналітичного розв'язку задачі пошуку апостеріорного розподілу. В цьому розділі ми розглянемо так зване спряжене апріорне, для якого апостеріорний розподіл може бути виведено аналітично.

Апріорне ρ(β,σ2) є спряженим до функції правдоподібності, якщо вона має такий самий функційний вигляд по відношенню до β та σ. Оскільки логарифмічна правдоподібність є квадратичною в β, логарифмічна правдоподібність переписується так, що правдоподібність стає нормальною в (ββ^). Запишімо

(𝐲𝐗β)T(𝐲𝐗β)=(𝐲𝐗β^)T(𝐲𝐗β^)+(ββ^)T(𝐗T𝐗)(ββ^).

Логарифмічна правдоподібність тепер переписується як

ρ(𝐲|𝐗,β,σ2)(σ2)v/2exp(vs22σ2)(σ2)(nv)/2×exp(12σ2(ββ^)T(𝐗T𝐗)(ββ^)),

де

vs2=(𝐲𝐗β^)T(𝐲𝐗β^), та v=nk,

де k є кількістю коефіцієнтів регресії.

Це підказує такий вигляд апріорного:

ρ(β,σ2)=ρ(σ2)ρ(β|σ2),

де ρ(σ2) є оберненим гамма-розподілом

ρ(σ2)(σ2)(v0/2+1)exp(v0s022σ2).

У записі, запропонованому в статті про обернений гамма-розподіл, це є густиною розподілу Inv-Gamma(a0,b0) з a0=v0/2 та b0=12v0s02 з v0 та s02 як апріорних значень v та s2 відповідно. Рівносильно, це також може бути описано як Шаблон:Нп, Scale-inv-χ2(v0,s02).

Далі густина умовного апріорного ρ(β|σ2) є нормальним розподілом,

ρ(β|σ2)(σ2)k/2exp(12σ2(βμ0)TΛ0(βμ0)).

У записі нормального розподілу густина умовного апріорного є 𝒩(μ0,σ2Λ01).

Апостеріорний розподіл

Із вже визначеним апріорним, апостеріорний розподіл може бути виражено як

ρ(β,σ2|𝐲,𝐗)ρ(𝐲|𝐗,β,σ2)ρ(β|σ2)ρ(σ2)
(σ2)n/2exp(12σ2(𝐲𝐗β)T(𝐲𝐗β))
×(σ2)k/2exp(12σ2(βμ0)TΛ0(βμ0))
×(σ2)(a0+1)exp(b0σ2).

За певного переформулювання[1] апостеріорне може бути переписано так, що апостеріорне середнє μn вектора параметрів β може бути виражено в термінах оцінки найменших квадратів β^ та апріорного середнього μ0, де підтримка апріорного вказується матрицею точності апріорного Λ0

μn=(𝐗T𝐗+Λ0)1(𝐗T𝐗β^+Λ0μ0).

Для підтвердження того, що μn дійсно є апостеріорним середнім, квадратні члени в експоненті може бути переформульовано як Шаблон:Нп в βμn.[2]

(𝐲𝐗β)T(𝐲𝐗β)+(βμ0)TΛ0(βμ0)=
(βμn)T(𝐗T𝐗+Λ0)(βμn)+𝐲T𝐲μnT(𝐗T𝐗+Λ0)μn+μ0TΛ0μ0.

Тепер апостеріорне може бути виражено як добуток нормального розподілу на обернений гамма-розподіл:

ρ(β,σ2|𝐲,𝐗)(σ2)k/2exp(12σ2(βμn)T(𝐗T𝐗+Λ0)(βμn))
×(σ2)(n+2a0)/21exp(2b0+𝐲T𝐲μnT(𝐗T𝐗+Λ0)μn+μ0TΛ0μ02σ2).

Отже, апостеріорний розподіл може бути параметризовано таким чином.

ρ(β,σ2|𝐲,𝐗)ρ(β|σ2,𝐲,𝐗)ρ(σ2|𝐲,𝐗),

де ці два множники відповідають густинам розподілів 𝒩(μn,σ2Λn1) та Inv-Gamma(an,bn), з їхніми параметрами, що задаються як

Λn=(𝐗T𝐗+Λ0),μn=(Λn)1(𝐗T𝐗β^+Λ0μ0),
an=a0+n2,bn=b0+12(𝐲T𝐲+μ0TΛ0μ0μnTΛnμn).

Це може інтерпретуватися як баєсове навчання, де параметри уточнюються відповідно до наступних рівнянь.

μn=(𝐗T𝐗+Λ0)1(Λ0μ0+𝐗T𝐗β^)=(𝐗T𝐗+Λ0)1(Λ0μ0+𝐗T𝐲),
Λn=(𝐗T𝐗+Λ0),
an=a0+n2,
bn=b0+12(𝐲T𝐲+μ0TΛ0μ0μnTΛnμn).

Свідчення моделі

Свідчення моделі p(𝐲|m) є ймовірністю даних за заданої моделі m. Воно також відоме як відособлена правдоподібність, а також як передбачувана апріорна густина. Тут модель визначається функцією правдоподібності p(𝐲|𝐗,β,σ) та апріорним розподілом параметрів, тобто, p(β,σ). Свідчення моделі фіксує одним числом, наскільки гарно така модель пояснює ці спостереження. Свідчення моделі баєсової лінійної регресії, представлене в цьому розділі, може застосовуватись для порівняння конкурентних лінійних моделей баєсовим порівнянням моделей. Ці моделі можуть відрізнятися як кількістю та значеннями змінних-провісників, так і своїми апріорними параметрами моделі. Складність моделі вже враховано свідченням моделі, оскільки воно відособлює параметри інтегруванням p(𝐲,β,σ|𝐗) над усіма можливими значеннями β та σ.

p(𝐲|m)=p(𝐲|𝐗,β,σ)p(β,σ)dβdσ

Цей інтеграл може бути обчислено аналітично, а розв'язок представлено наступним рівнянням.[3]

p(𝐲|m)=1(2π)n/2det(Λ0)det(Λn)b0a0bnanΓ(an)Γ(a0)

Тут Γ позначає гамма-функцію. Оскільки ми обрали спряжене апріорне, то відособлену правдоподібність також може бути легко обчислено розв'язанням наступного рівняння для довільних значень β та σ.

p(𝐲|m)=p(β,σ|m)p(𝐲|𝐗,β,σ,m)p(β,σ|𝐲,𝐗,m)

Зауважте, що це рівняння є ні чим іншим, як переформулюванням теореми Баєса. Підставлення формул для апріорного, правдоподібності та апостеріорного, та спрощення отримуваного виразу ведуть до аналітичного виразу, наведеного вище.

Інші випадки

Виводити апостеріорний розподіл аналітично в загальному випадку може бути неможливо або непрактично. Проте можливо наближувати апостеріорне методом приблизного баєсового висновування, таким як вибірка Монте-Карло[4] або Шаблон:Нп.

Особливий випадок μ0=0,Λ0=c𝐈 називається гребеневою регресією.

Схожий аналіз може виконуватись для загального випадку багатовимірної регресії, і його частина забезпечує баєсову Шаблон:Нп: див. Шаблон:Нп.

Див. також

Примітки

Шаблон:Примітки

Джерела

Посилання


Шаблон:Статистика

  1. Проміжні кроки цього обчислення може бути знайдено в O'Hagan (1994) на початку розділу про лінійні моделі.
  2. Проміжні кроки є в Fahrmeir et al. (2009) на С. 188.
  3. Проміжні кроки цього обчислення можна знайти в O'Hagan (1994) на С. 257.
  4. Carlin and Louis(2008) and Gelman, et al. (2003) пояснюють, як використовувати вибіркові методи для баєсової лінійної регресії.