Баєсова лінійна регресія

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Баєсова статистика Шаблон:Регресійний аналіз Ба́єсова ліні́йна регре́сія в статистиці — це підхід до лінійної регресії, в якому статистичний аналіз застосовується в контексті баєсового висновування. Якщо помилки регресійної моделі мають нормальний розподіл і якщо розглядається певна форма апріорного розподілу, то для апостеріорного розподілу ймовірності параметрів моделі доступні точні результати.

Налаштування моделі

Розгляньмо стандартну задачу лінійної регресії, в якій для i=1,...,n ми вказуємо умовну ймовірність yi для заданого вектора k×1 провісників 𝐱i:

yi=𝐱iT𝜷+ϵi,

де 𝜷 є вектором завдовжки k×1, а ϵi є незалежними однаково розподіленими випадковими величинами з нормальним розподілом:

ϵiN(0,σ2).

Це відповідає такій функції правдоподібності:

ρ(𝐲|𝐗,𝜷,σ2)(σ2)n/2exp(12σ2(𝐲𝐗𝜷)T(𝐲𝐗𝜷)).

Розв'язком Шаблон:Не перекладено є оцінка вектора коефіцієнтів за допомогою псевдообернення Мура-Пенроуза:

𝜷^=(𝐗T𝐗)1𝐗T𝐲

де 𝐗 є Шаблон:Не перекладено n×k, кожен з рядків якої є вектором провісників 𝐱iT, а 𝐲 є вектором-стовпцем [y1yn]T.

Це є частотним підходом, що передбачає наявність достатньої кількості вимірювань, щоби сказати щось суттєве про 𝜷. За баєсового ж підходу дані надаються з додатковою інформацією у вигляді апріорного розподілу ймовірності. Ці апріорні переконання про параметри поєднуються з функцією правдоподібності даних згідно з теоремою Баєса для отримання апостеріорного переконання про параметри 𝜷 та σ. Це апріорне може мати різний функціональний вигляд в залежності від області визначення та інформації, що доступна апріорі.

Зі спряженими апріорними

Спряжений апріорний розподіл

Для довільного апріорного розподілу може не існувати аналітичного розв'язку задачі пошуку апостеріорного розподілу. В цьому розділі ми розглянемо так зване спряжене апріорне, для якого апостеріорний розподіл може бути виведено аналітично.

Апріорне ρ(𝜷,σ2) є спряженим до функції правдоподібності, якщо вона має такий самий функційний вигляд по відношенню до 𝜷 та σ. Оскільки логарифмічна правдоподібність є квадратичною в 𝜷, логарифмічна правдоподібність переписується так, що правдоподібність стає нормальною в (𝜷𝜷^). Запишімо

(𝐲𝐗𝜷)T(𝐲𝐗𝜷)=(𝐲𝐗𝜷^)T(𝐲𝐗𝜷^)+(𝜷𝜷^)T(𝐗T𝐗)(𝜷𝜷^).

Логарифмічна правдоподібність тепер переписується як

ρ(𝐲|𝐗,𝜷,σ2)(σ2)v/2exp(vs22σ2)(σ2)(nv)/2×exp(12σ2(𝜷𝜷^)T(𝐗T𝐗)(𝜷𝜷^)),

де

vs2=(𝐲𝐗𝜷^)T(𝐲𝐗𝜷^), та v=nk,

де k є кількістю коефіцієнтів регресії.

Це підказує такий вигляд апріорного:

ρ(𝜷,σ2)=ρ(σ2)ρ(𝜷|σ2),

де ρ(σ2) є оберненим гамма-розподілом

ρ(σ2)(σ2)(v0/2+1)exp(v0s022σ2).

У записі, запропонованому в статті про обернений гамма-розподіл, це є густиною розподілу Inv-Gamma(a0,b0) з a0=v0/2 та b0=12v0s02 з v0 та s02 як апріорних значень v та s2 відповідно. Рівносильно, це також може бути описано як Шаблон:Нп, Scale-inv-χ2(v0,s02).

Далі густина умовного апріорного ρ(𝜷|σ2) є нормальним розподілом,

ρ(𝜷|σ2)(σ2)k/2exp(12σ2(𝜷𝝁0)T𝜦0(𝜷𝝁0)).

У записі нормального розподілу густина умовного апріорного є 𝒩(𝝁0,σ2𝜦01).

Апостеріорний розподіл

Із вже визначеним апріорним, апостеріорний розподіл може бути виражено як

ρ(𝜷,σ2|𝐲,𝐗)ρ(𝐲|𝐗,𝜷,σ2)ρ(𝜷|σ2)ρ(σ2)
(σ2)n/2exp(12σ2(𝐲𝐗𝜷)T(𝐲𝐗𝜷))
×(σ2)k/2exp(12σ2(𝜷𝝁0)T𝜦0(𝜷𝝁0))
×(σ2)(a0+1)exp(b0σ2).

За певного переформулювання[1] апостеріорне може бути переписано так, що апостеріорне середнє 𝝁n вектора параметрів 𝜷 може бути виражено в термінах оцінки найменших квадратів 𝜷^ та апріорного середнього 𝝁0, де підтримка апріорного вказується матрицею точності апріорного 𝜦0

𝝁n=(𝐗T𝐗+𝜦0)1(𝐗T𝐗𝜷^+𝜦0𝝁0).

Для підтвердження того, що 𝝁n дійсно є апостеріорним середнім, квадратні члени в експоненті може бути переформульовано як Шаблон:Нп в 𝜷𝝁n.[2]

(𝐲𝐗𝜷)T(𝐲𝐗𝜷)+(𝜷𝝁0)T𝜦0(𝜷𝝁0)=
(𝜷𝝁n)T(𝐗T𝐗+𝜦0)(𝜷𝝁n)+𝐲T𝐲𝝁nT(𝐗T𝐗+𝜦0)𝝁n+𝝁0T𝜦0𝝁0.

Тепер апостеріорне може бути виражено як добуток нормального розподілу на обернений гамма-розподіл:

ρ(𝜷,σ2|𝐲,𝐗)(σ2)k/2exp(12σ2(𝜷𝝁n)T(𝐗T𝐗+𝜦0)(𝜷𝝁n))
×(σ2)(n+2a0)/21exp(2b0+𝐲T𝐲𝝁nT(𝐗T𝐗+𝜦0)𝝁n+𝝁0T𝜦0𝝁02σ2).

Отже, апостеріорний розподіл може бути параметризовано таким чином.

ρ(𝜷,σ2|𝐲,𝐗)ρ(𝜷|σ2,𝐲,𝐗)ρ(σ2|𝐲,𝐗),

де ці два множники відповідають густинам розподілів 𝒩(𝝁n,σ2𝜦n1) та Inv-Gamma(an,bn), з їхніми параметрами, що задаються як

𝜦n=(𝐗T𝐗+𝜦0),𝝁n=(𝜦n)1(𝐗T𝐗𝜷^+𝜦0𝝁0),
an=a0+n2,bn=b0+12(𝐲T𝐲+𝝁0T𝜦0𝝁0𝝁nT𝜦n𝝁n).

Це може інтерпретуватися як баєсове навчання, де параметри уточнюються відповідно до наступних рівнянь.

𝝁n=(𝐗T𝐗+𝜦0)1(𝜦0𝝁0+𝐗T𝐗𝜷^)=(𝐗T𝐗+𝜦0)1(𝜦0𝝁0+𝐗T𝐲),
𝜦n=(𝐗T𝐗+𝜦0),
an=a0+n2,
bn=b0+12(𝐲T𝐲+𝝁0T𝜦0𝝁0𝝁nT𝜦n𝝁n).

Свідчення моделі

Свідчення моделі p(𝐲|m) є ймовірністю даних за заданої моделі m. Воно також відоме як відособлена правдоподібність, а також як передбачувана апріорна густина. Тут модель визначається функцією правдоподібності p(𝐲|𝐗,𝜷,σ) та апріорним розподілом параметрів, тобто, p(𝜷,σ). Свідчення моделі фіксує одним числом, наскільки гарно така модель пояснює ці спостереження. Свідчення моделі баєсової лінійної регресії, представлене в цьому розділі, може застосовуватись для порівняння конкурентних лінійних моделей баєсовим порівнянням моделей. Ці моделі можуть відрізнятися як кількістю та значеннями змінних-провісників, так і своїми апріорними параметрами моделі. Складність моделі вже враховано свідченням моделі, оскільки воно відособлює параметри інтегруванням p(𝐲,𝜷,σ|𝐗) над усіма можливими значеннями 𝜷 та σ.

p(𝐲|m)=p(𝐲|𝐗,𝜷,σ)p(𝜷,σ)d𝜷dσ

Цей інтеграл може бути обчислено аналітично, а розв'язок представлено наступним рівнянням.[3]

p(𝐲|m)=1(2π)n/2det(𝜦0)det(𝜦n)b0a0bnanΓ(an)Γ(a0)

Тут Γ позначає гамма-функцію. Оскільки ми обрали спряжене апріорне, то відособлену правдоподібність також може бути легко обчислено розв'язанням наступного рівняння для довільних значень 𝜷 та σ.

p(𝐲|m)=p(𝜷,σ|m)p(𝐲|𝐗,𝜷,σ,m)p(𝜷,σ|𝐲,𝐗,m)

Зауважте, що це рівняння є ні чим іншим, як переформулюванням теореми Баєса. Підставлення формул для апріорного, правдоподібності та апостеріорного, та спрощення отримуваного виразу ведуть до аналітичного виразу, наведеного вище.

Інші випадки

Виводити апостеріорний розподіл аналітично в загальному випадку може бути неможливо або непрактично. Проте можливо наближувати апостеріорне методом приблизного баєсового висновування, таким як вибірка Монте-Карло[4] або Шаблон:Нп.

Особливий випадок 𝝁0=0,𝜦0=c𝐈 називається гребеневою регресією.

Схожий аналіз може виконуватись для загального випадку багатовимірної регресії, і його частина забезпечує баєсову Шаблон:Нп: див. Шаблон:Нп.

Див. також

Примітки

Шаблон:Примітки

Джерела

Посилання


Шаблон:Статистика

  1. Проміжні кроки цього обчислення може бути знайдено в O'Hagan (1994) на початку розділу про лінійні моделі.
  2. Проміжні кроки є в Fahrmeir et al. (2009) на С. 188.
  3. Проміжні кроки цього обчислення можна знайти в O'Hagan (1994) на С. 257.
  4. Carlin and Louis(2008) and Gelman, et al. (2003) пояснюють, як використовувати вибіркові методи для баєсової лінійної регресії.