Баєсова лінійна регресія

Шаблон:Баєсова статистика Шаблон:Регресійний аналіз Ба́єсова ліні́йна регре́сія в статистиці — це підхід до лінійної регресії, в якому статистичний аналіз застосовується в контексті баєсового висновування. Якщо помилки регресійної моделі мають нормальний розподіл і якщо розглядається певна форма апріорного розподілу, то для апостеріорного розподілу ймовірності параметрів моделі доступні точні результати.

Налаштування моделі

Розгляньмо стандартну задачу лінійної регресії, в якій для $i = 1, ..., n$ ми вказуємо умовну ймовірність $y_{i}$ для заданого вектора $k \times 1$ провісників $𝐱_{i}$ :

y_{i} = 𝐱_{i}^{T} 𝜷 + ϵ_{i},

де $𝜷$ є вектором завдовжки $k \times 1$ , а $ϵ_{i}$ є незалежними однаково розподіленими випадковими величинами з нормальним розподілом:

ϵ_{i} \sim N (0, σ^{2}) .

Це відповідає такій функції правдоподібності:

ρ (𝐲 | 𝐗, 𝜷, σ^{2}) \propto (σ^{2})^{- n / 2} \exp (- \frac{1}{2 σ^{2}} (𝐲 - 𝐗 𝜷)^{T} (𝐲 - 𝐗 𝜷)) .

Розв'язком Шаблон:Не перекладено є оцінка вектора коефіцієнтів за допомогою псевдообернення Мура-Пенроуза:

\hat{𝜷} = (𝐗^{T} 𝐗)^{- 1} 𝐗^{T} 𝐲

де $𝐗$ є Шаблон:Не перекладено $n \times k$ , кожен з рядків якої є вектором провісників $𝐱_{i}^{T}$ , а $𝐲$ є вектором-стовпцем $[y_{1} \dots y_{n}]^{T}$ .

Це є частотним підходом, що передбачає наявність достатньої кількості вимірювань, щоби сказати щось суттєве про $𝜷$ . За баєсового ж підходу дані надаються з додатковою інформацією у вигляді апріорного розподілу ймовірності. Ці апріорні переконання про параметри поєднуються з функцією правдоподібності даних згідно з теоремою Баєса для отримання апостеріорного переконання про параметри $𝜷$ та $σ$ . Це апріорне може мати різний функціональний вигляд в залежності від області визначення та інформації, що доступна апріорі.

Зі спряженими апріорними

Спряжений апріорний розподіл

Для довільного апріорного розподілу може не існувати аналітичного розв'язку задачі пошуку апостеріорного розподілу. В цьому розділі ми розглянемо так зване спряжене апріорне, для якого апостеріорний розподіл може бути виведено аналітично.

Апріорне $ρ (𝜷, σ^{2})$ є спряженим до функції правдоподібності, якщо вона має такий самий функційний вигляд по відношенню до $𝜷$ та $σ$ . Оскільки логарифмічна правдоподібність є квадратичною в $𝜷$ , логарифмічна правдоподібність переписується так, що правдоподібність стає нормальною в $(𝜷 - \hat{𝜷})$ . Запишімо

\begin{matrix} (𝐲 - 𝐗 𝜷)^{T} (𝐲 - 𝐗 𝜷) & = (𝐲 - 𝐗 \hat{𝜷})^{T} (𝐲 - 𝐗 \hat{𝜷}) \\ + (𝜷 - \hat{𝜷})^{T} (𝐗^{T} 𝐗) (𝜷 - \hat{𝜷}) . \end{matrix}

Логарифмічна правдоподібність тепер переписується як

\begin{matrix} ρ (𝐲 | 𝐗, 𝜷, σ^{2}) & \propto (σ^{2})^{- v / 2} \exp (- \frac{v s^{2}}{2 σ^{2}}) (σ^{2})^{- (n - v) / 2} \\ \times \exp (- \frac{1}{2 σ^{2}} (𝜷 - \hat{𝜷})^{T} (𝐗^{T} 𝐗) (𝜷 - \hat{𝜷})), \end{matrix}

де

v s^{2} = (𝐲 - 𝐗 \hat{𝜷})^{T} (𝐲 - 𝐗 \hat{𝜷}),

та

v = n - k,

де $k$ є кількістю коефіцієнтів регресії.

Це підказує такий вигляд апріорного:

ρ (𝜷, σ^{2}) = ρ (σ^{2}) ρ (𝜷 | σ^{2}),

де $ρ (σ^{2})$ є оберненим гамма-розподілом

ρ (σ^{2}) \propto (σ^{2})^{- (v_{0} / 2 + 1)} \exp (- \frac{v_{0} s_{0}^{2}}{2 σ^{2}}) .

У записі, запропонованому в статті про обернений гамма-розподіл, це є густиною розподілу $Inv-Gamma (a_{0}, b_{0})$ з $a_{0} = v_{0} / 2$ та $b_{0} = \frac{1}{2} v_{0} s_{0}^{2}$ з $v_{0}$ та $s_{0}^{2}$ як апріорних значень $v$ та $s^{2}$ відповідно. Рівносильно, це також може бути описано як Шаблон:Нп, $Scale-inv- χ^{2} (v_{0}, s_{0}^{2}) .$

Далі густина умовного апріорного $ρ (𝜷 | σ^{2})$ є нормальним розподілом,

ρ (𝜷 | σ^{2}) \propto (σ^{2})^{- k / 2} \exp (- \frac{1}{2 σ^{2}} (𝜷 - 𝝁_{0})^{T} 𝜦_{0} (𝜷 - 𝝁_{0})) .

У записі нормального розподілу густина умовного апріорного є $𝒩 (𝝁_{0}, σ^{2} 𝜦_{0}^{- 1}) .$

Апостеріорний розподіл

Із вже визначеним апріорним, апостеріорний розподіл може бути виражено як

ρ (𝜷, σ^{2} | 𝐲, 𝐗) \propto ρ (𝐲 | 𝐗, 𝜷, σ^{2}) ρ (𝜷 | σ^{2}) ρ (σ^{2})

\propto (σ^{2})^{- n / 2} \exp (- \frac{1}{2 σ^{2}} (𝐲 - 𝐗 𝜷)^{T} (𝐲 - 𝐗 𝜷))

\times (σ^{2})^{- k / 2} \exp (- \frac{1}{2 σ^{2}} (𝜷 - 𝝁_{0})^{T} 𝜦_{0} (𝜷 - 𝝁_{0}))

\times (σ^{2})^{- (a_{0} + 1)} \exp (- \frac{b_{0}}{σ^{2}}) .

За певного переформулювання^[1] апостеріорне може бути переписано так, що апостеріорне середнє $𝝁_{n}$ вектора параметрів $𝜷$ може бути виражено в термінах оцінки найменших квадратів $\hat{𝜷}$ та апріорного середнього $𝝁_{0}$ , де підтримка апріорного вказується матрицею точності апріорного $𝜦_{0}$

𝝁_{n} = (𝐗^{T} 𝐗 + 𝜦_{0})^{- 1} (𝐗^{T} 𝐗 \hat{𝜷} + 𝜦_{0} 𝝁_{0}) .

Для підтвердження того, що $𝝁_{n}$ дійсно є апостеріорним середнім, квадратні члени в експоненті може бути переформульовано як Шаблон:Нп в $𝜷 - 𝝁_{n}$ .^[2]

(𝐲 - 𝐗 𝜷)^{T} (𝐲 - 𝐗 𝜷) + (𝜷 - 𝝁_{0})^{T} 𝜦_{0} (𝜷 - 𝝁_{0}) =

(𝜷 - 𝝁_{n})^{T} (𝐗^{T} 𝐗 + 𝜦_{0}) (𝜷 - 𝝁_{n}) + 𝐲^{T} 𝐲 - 𝝁_{n}^{T} (𝐗^{T} 𝐗 + 𝜦_{0}) 𝝁_{n} + 𝝁_{0}^{T} 𝜦_{0} 𝝁_{0} .

Тепер апостеріорне може бути виражено як добуток нормального розподілу на обернений гамма-розподіл:

ρ (𝜷, σ^{2} | 𝐲, 𝐗) \propto (σ^{2})^{- k / 2} \exp (- \frac{1}{2 σ^{2}} (𝜷 - 𝝁_{n})^{T} (𝐗^{T} 𝐗 + 𝜦_{0}) (𝜷 - 𝝁_{n}))

\times (σ^{2})^{- (n + 2 a_{0}) / 2 - 1} \exp (- \frac{2 b_{0} + 𝐲^{T} 𝐲 - 𝝁_{n}^{T} (𝐗^{T} 𝐗 + 𝜦_{0}) 𝝁_{n} + 𝝁_{0}^{T} 𝜦_{0} 𝝁_{0}}{2 σ^{2}}) .

Отже, апостеріорний розподіл може бути параметризовано таким чином.

ρ (𝜷, σ^{2} | 𝐲, 𝐗) \propto ρ (𝜷 | σ^{2}, 𝐲, 𝐗) ρ (σ^{2} | 𝐲, 𝐗),

де ці два множники відповідають густинам розподілів $𝒩 (𝝁_{n}, σ^{2} 𝜦_{n}^{- 1})$ та $Inv-Gamma (a_{n}, b_{n})$ , з їхніми параметрами, що задаються як

𝜦_{n} = (𝐗^{T} 𝐗 + 𝜦_{0}), 𝝁_{n} = (𝜦_{n})^{- 1} (𝐗^{T} 𝐗 \hat{𝜷} + 𝜦_{0} 𝝁_{0}),

a_{n} = a_{0} + \frac{n}{2}, b_{n} = b_{0} + \frac{1}{2} (𝐲^{T} 𝐲 + 𝝁_{0}^{T} 𝜦_{0} 𝝁_{0} - 𝝁_{n}^{T} 𝜦_{n} 𝝁_{n}) .

Це може інтерпретуватися як баєсове навчання, де параметри уточнюються відповідно до наступних рівнянь.

𝝁_{n} = (𝐗^{T} 𝐗 + 𝜦_{0})^{- 1} (𝜦_{0} 𝝁_{0} + 𝐗^{T} 𝐗 \hat{𝜷}) = (𝐗^{T} 𝐗 + 𝜦_{0})^{- 1} (𝜦_{0} 𝝁_{0} + 𝐗^{T} 𝐲),

𝜦_{n} = (𝐗^{T} 𝐗 + 𝜦_{0}),

a_{n} = a_{0} + \frac{n}{2},

b_{n} = b_{0} + \frac{1}{2} (𝐲^{T} 𝐲 + 𝝁_{0}^{T} 𝜦_{0} 𝝁_{0} - 𝝁_{n}^{T} 𝜦_{n} 𝝁_{n}) .

Свідчення моделі

Свідчення моделі $p (𝐲 | m)$ є ймовірністю даних за заданої моделі $m$ . Воно також відоме як відособлена правдоподібність, а також як передбачувана апріорна густина. Тут модель визначається функцією правдоподібності $p (𝐲 | 𝐗, 𝜷, σ)$ та апріорним розподілом параметрів, тобто, $p (𝜷, σ)$ . Свідчення моделі фіксує одним числом, наскільки гарно така модель пояснює ці спостереження. Свідчення моделі баєсової лінійної регресії, представлене в цьому розділі, може застосовуватись для порівняння конкурентних лінійних моделей баєсовим порівнянням моделей. Ці моделі можуть відрізнятися як кількістю та значеннями змінних-провісників, так і своїми апріорними параметрами моделі. Складність моделі вже враховано свідченням моделі, оскільки воно відособлює параметри інтегруванням $p (𝐲, 𝜷, σ | 𝐗)$ над усіма можливими значеннями $𝜷$ та $σ$ .

p (𝐲 | m) = \int p (𝐲 | 𝐗, 𝜷, σ) p (𝜷, σ) d 𝜷 d σ

Цей інтеграл може бути обчислено аналітично, а розв'язок представлено наступним рівнянням.^[3]

p (𝐲 | m) = \frac{1}{(2 π)^{n / 2}} \sqrt{\frac{\det (𝜦_{0})}{\det (𝜦_{n})}} \cdot \frac{b_{0}^{a_{0}}}{b_{n}^{a_{n}}} \cdot \frac{Γ (a_{n})}{Γ (a_{0})}

Тут $Γ$ позначає гамма-функцію. Оскільки ми обрали спряжене апріорне, то відособлену правдоподібність також може бути легко обчислено розв'язанням наступного рівняння для довільних значень $𝜷$ та $σ$ .

p (𝐲 | m) = \frac{p (𝜷, σ | m) p (𝐲 | 𝐗, 𝜷, σ, m)}{p (𝜷, σ | 𝐲, 𝐗, m)}

Зауважте, що це рівняння є ні чим іншим, як переформулюванням теореми Баєса. Підставлення формул для апріорного, правдоподібності та апостеріорного, та спрощення отримуваного виразу ведуть до аналітичного виразу, наведеного вище.

Інші випадки

Виводити апостеріорний розподіл аналітично в загальному випадку може бути неможливо або непрактично. Проте можливо наближувати апостеріорне методом приблизного баєсового висновування, таким як вибірка Монте-Карло^[4] або Шаблон:Нп.

Особливий випадок $𝝁_{0} = 0, 𝜦_{0} = c 𝐈$ називається гребеневою регресією.

Схожий аналіз може виконуватись для загального випадку багатовимірної регресії, і його частина забезпечує баєсову Шаблон:Нп: див. Шаблон:Нп.

Див. також

Примітки

Шаблон:Примітки

Джерела

Шаблон:Cite book Шаблон:Ref-en
Шаблон:Cite book Шаблон:Ref-en
Шаблон:Cite book Шаблон:Ref-en
Шаблон:Cite book Шаблон:Ref-en
Шаблон:Cite paper Шаблон:Ref-en
Шаблон:Cite book Шаблон:Ref-en
Шаблон:Cite book Шаблон:Ref-en
Шаблон:Cite book Шаблон:Ref-en
Thomas P. Minka (2001) Bayesian Linear Regression Шаблон:Webarchive, Microsoft research web page Шаблон:Ref-en

Посилання

Bayesian estimation of linear models (R programming wikibook). Реалізація баєсової лінійної регресії мовою R.

Шаблон:Статистика

↑ Проміжні кроки цього обчислення може бути знайдено в O'Hagan (1994) на початку розділу про лінійні моделі.
↑ Проміжні кроки є в Fahrmeir et al. (2009) на С. 188.
↑ Проміжні кроки цього обчислення можна знайти в O'Hagan (1994) на С. 257.
↑ Carlin and Louis(2008) and Gelman, et al. (2003) пояснюють, як використовувати вибіркові методи для баєсової лінійної регресії.

[1] Проміжні кроки цього обчислення може бути знайдено в O'Hagan (1994) на початку розділу про лінійні моделі.

[2] Проміжні кроки є в Fahrmeir et al. (2009) на С. 188.

[3] Проміжні кроки цього обчислення можна знайти в O'Hagan (1994) на С. 257.

[4] Carlin and Louis(2008) and Gelman, et al. (2003) пояснюють, як використовувати вибіркові методи для баєсової лінійної регресії.

[1]

[2]

[3]

[4]

Баєсова лінійна регресія

Зміст

Налаштування моделі

Зі спряженими апріорними

Спряжений апріорний розподіл

Апостеріорний розподіл

Свідчення моделі

Інші випадки

Див. також

Примітки

Джерела

Посилання

Навігаційне меню

Баєсова лінійна регресія

Налаштування моделі

Зі спряженими апріорними

Спряжений апріорний розподіл

Апостеріорний розподіл

Свідчення моделі

Інші випадки

Див. також

Примітки

Джерела

Посилання

Навігаційне меню

Пошук