Спряжений апріорний розподіл

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Баєсова статистика У баєсівській теорії ймовірностей, якщо апостеріорні розподіли p(θ | x) належать до того ж сімейства розподілу ймовірностей, що і апріорний розподіл ймовірностей p(θ), то апріорний і постеріорний розподіли називають спряженими розподілами, а апріорний розподіл називають спряженим апріором (або апріорним спряженням) функції правдоподібности p(x|θ).

Наприклад, сімейство Гаусса є спряженим до себе (або самосопряженим) відносно функції правдоподібності Гаусса: якщо функція правдоподібності є Гауссівською, вибір гауссового апріору на противагу простому середньому значенню гарантує, що постеріорний розподіл буде також Гауссівським. Це означає, що розподіл Гауса є спряженим апріором для Гаусівської функції правдоподібности.

Поняття, а також термін "спряжений апріор" запроваджено Говардом Райффою та Робертом Шлайфером в їхній роботі з Баєсівської теорії прийняття рішень[1]. Подібну концепцію незалежно описав Джордж Альфред Барнард[2].

Розглянемо загальну задачу виведення (неперервного) розподілу параметра θ з урахуванням деякого даного чи даних x . За теоремою Баєса постеріорний розподіл дорівнює добутку функції правдоподібності θp(xθ) і апраіорного розподілу p(θ), нормованого ймовірністю даних p(x) :

p(θx)=p(xθ)p(θ)p(x)=p(xθ)p(θ)θp(x,θ)dθ=p(xθ)p(θ)θp(xθ)p(θ)dθ

Зафіксуємо функцію правдоподібності; функція правдоподібності, як правило, добре визначається на основі запису про твірний процес даних. Зрозуміло, що різні варіанти попереднього розподілу p ( θ ) можуть ускладнити обчислення інтегралу, а добуток p ( x | θ ) × p ( θ ) може приймати ту чи іншу алгебраїчну форму. Для певного вибору пріоритета, задній має ту саму алгебраїчну форму, що і пріоритет (як правило, з різними значеннями параметрів). Такий вибір є спряженим пріоритетом .

Спряжений апріор використовують для алгебричної зручности, за його допомогою можна отримати формулу для постеріорного розподілу; без нього може знадобитися чисельне інтегрування. Далі, спряжені апріори можуть давати інтуїтивне трактування, більш прозоро показуючи, як функція правдоподібності оновлює апріорний розподіл.

Усі члени експоненційної сім'ї мають спряжені апріори[3].

Приклад

Форму спряженого апріора як правило, можне визначити шляхом перевірки густини ймовірності чи функції ймовірності розподілу. Наприклад, розглянемо випадкову величину, що складається з кількості успіхів s в n випробуваннях Бернуллі з невідомою ймовірністю успіху q в [0,1]. Ця випадкова величина має біноміальний розподіл з функцією ймовірності у вигляді

p(s)=(ns)qs(1q)ns

Звичайним спряженим апріором такої функції є функція ймовірності бета-розподілу з параметрами ( α, β ):

p(q)=qα1(1q)β1B(α,β)

де α і β вибираються для відображення будь-яких наявних переконань чи інформації ( α = 1 і β = 1 дасть рівномірний розподіл ) і Β ( αβ ) — бета-функція, яка діє як нормалізуюча константа .

У цьому контексті, α і β називаються гіперпараметрами (параметрами апріора), щоб відрізнити їх від параметрів базової моделі (тут q). Типовою характеристикою спряжених апріорів є те, що розмірність гіперпараметрів на одиницю більша, ніж розмірність параметрів вихідного розподілу. Якщо всі параметри є скалярними значеннями, то це означає, що буде на один гіперпараметр більше, ніж параметр; але це також стосується параметрів із векторними та матричними значеннями. (Див. загальну статтю про експоненційну сім’ю, а також розглянемо розподіл Вішарта, спряжений апріор коваріаційної матриці багатовимірного нормального розподілу, для прикладу, коли маємо справу з великою розмірністю).

Якщо ми потім виберемо цю випадкову величину і отримаємо s успіхів і f невдач, ми маємо

P(s,fq=x)=(s+fs)xs(1x)f,P(q=x)=xα1(1x)β1B(α,β),P(q=xs,f)=P(s,fx)P(x)P(s,fy)P(y)dy=(s+fs)xs+α1(1x)f+β1/B(α,β)y=01((s+fs)ys+α1(1y)f+β1/B(α,β))dy=xs+α1(1x)f+β1B(s+α,f+β),

тобто ще один бета-розподіл з параметрами ( α + s, β + f ). Цей апостеріорний розподіл можна було б використовувати як апріор для більшої кількості вибірок, при цьому гіперпараметри просто щоразу додають додаткову порцію інформації щойно вона надходить.

Псевдоспостереження

Часто корисно вважати гіперпараметри спряженого апріора розподілу як відповідні спостереженню певної кількості псевдоспостережень із властивостями, заданими параметрами. Наприклад, значення α і β бета-розподілу можна вважати відповідним α1 успіхам і β1 невдачам, якщо постеріорний режим використовується для вибору оптимального параметра, або α успіхів і β невдач, якщо для вибору оптимального параметра використовується постеріорне середнє значенняя. Загалом, для майже всіх спряжених апріорів розподілів гіперпараметри можна інтерпретувати в термінах псевдоспостережень. Це може допомогти як в інтуїтивному трактуванні часто заплутаних оновлень рівняннянь, так і для вибору розумних гіперпараметрів для апріора.

Інтерпретації

Аналогія з власними функціями 

Спряжені апріори аналогічні власним функціям в теорії операторів, оскільки вони є розподілами, на які «оператор зумовлення» діє зрозумілим чином. Для цього треба розглянути процес перетворення апріорного в апостеріорний розподіл як оператор.

І у випадку власних функцій, і у випадку спряжених апріорів скінченновимірні простори зберігаються при дії оператора: результат виражається тією ж формою (в тому самому просторі), що й вхідні дані. Це значно спрощує аналіз, оскільки в іншому випадку матимемо справу з нескінченновимірним простором (усіх функцій, чи усіх розподілів).

А проте процеси лише аналогічні, не ідентичні: оператор зумовлення не лінійний, оскільки простір розподілів не замкнений відносто лінійної комбінації, а тільки відносно опуклою комбінацією, а апостеріор має лише ту саму форму, що й апріор, але не є його лінійним перетворенням.

Подібно до того, як можна побачити, як виявляється лінійна комбінація власних функцій при застосуванні оператора (оскільки щодо цих функцій оператор діагоналізований), можна легко проаналізувати, як опукла комбінація спряжених апріорів розвивається в зумовности; це називається використання гіпер-апріорного і є відповідником використання щільності суміші спряжених апріорів, а не одного спряженого апріора.

Динамічна система

Можна розглядати умовність спряжених апріорів як задання певного роду (в дискретному часі) динамічної системи: із заданого набору гіперпараметрів вхідні дані оновлюють ці гіперпараметри, тож можна розглядати зміну гіперпараметрів як свого роду «еволюцію в часі» системи, яку можна вважати «навчанням». Різні початкові умови спричинюються до різних траєкторій. Знову ж таки таке трактування аналогічне динамічній системі, визначеній лінійним оператором, однак зауважте, що оскільки різні вибірки призводять до різних результатів, тут маємо не просто залежність від часу, а скоріше від потоку даних у часі. Для пов’язаних підходів див. Рекурсивна байєсівська оцінка та Засвоєння даних .

Практичний приклад

Припустимо, у вашому місті працює служба прокату автомобілів. Водії можуть залишати та брати автомобілі в будь-якому місці в межах міста. Ви можете знайти та орендувати авто за допомогою програми.

Припустимо, ви хочете знайти ймовірність того, що ви зможете знайти авто для оренди на невеликій відстані від вашої домашньої адреси в будь-який час доби.

Протягом трьох днів ви переглядаєте додаток і знаходите таку кількість автомобілів на невеликій відстані від вашої домашньої адреси: 𝐱=[3,4,1]

Якщо ми припустимо, що дані отримані з розподілу Пуассона, ми можемо обчислити оцінку максимальної правдоподібності параметра моделі λ=3+4+132.67. Використовуючи цю оцінку максимальної ймовірності, ми можемо обчислити ймовірність того, що в певний день буде принаймні один автомобіль: p(x>0|λ2.67)=1p(x=0|λ2.67)=12.670e2.670!0.93

Цей розподіл Пуассона, який, скоріш за все, породив бачені нами дані 𝐱 . Але дані також могли бути отримані з іншого розподілу Пуассона, наприклад, з λ=3, або λ=2, тощо Насправді існує нескінченна кількість розподілів Пуассона, які могли б генерувати спостережувані дані, і з відносно невеликою кількістю спостережень ми не можемо бути досить впевнені щодо того, який саме розподіл Пуассона згенерував ці дані. Інтуїтивно ми повинні замість цього взяти середнє зважене значення ймовірності p(x>0|λ) для кожного з цих розподілів Пуассона, зважених значенням того наскільки вони ймовірні, враховуючи дані, які ми спостерігали 𝐱 .

Як правило, ця величина відома як апостеріорний прогнозний розподіл p(x|𝐱)=θp(x|θ)p(θ|𝐱)dθ, де x це нова точка даних, 𝐱 є спостережуваними даними і θ є параметрами моделі. Використовуючи теорему Баєса, можна розширити p(θ|𝐱)=p(𝐱|θ)p(θ)p(𝐱), тому p(x|𝐱)=θp(x|θ)p(𝐱|θ)p(θ)p(𝐱)dθ. Як правило, цей інтеграл важко обчислити. Однак, якщо ви виберете спряжений апріорний розподіл p(θ), можна отримати явну формулу. Її можна знайти в останньому стовпці в таблицях нижче.

Повертаючись до нашого прикладу, якщо виберемо гамма-розподіл як наш апріорний розподіл параметра λ в розподілі Пуассона, то постеріорним розподілом для передбачення буде негативний біноміальний розподіл, як видно з останнього стовпця таблиці нижче. Гамма-розподіл параметризується двома гіперпараметрами α,β які ми маємо вибрати. Зважаючи на графіки гамма-розподілу, вибираємо α=β=2, що, видається обґрунтованим апріором для середньої кількості автівок. Вибір апріорних гіперпараметрів за своєю суттю є суб’єктивним і заснований на попередніх знаннях і досвіді.

Враховуючи апріорні гіперпараметри α і β ми можемо обчислити постеріорні гіперпараметри α=α+ixi=2+3+4+1=10 і β=β+n=2+3=5

Враховуючи постеріорні гіперпараметри, ми можемо нарешті обчислити апостеріорний прогноз p(x>0|𝐱)=1p(x=0|𝐱)=1NB(0|10,11+5)0.84

Ця набагато більш консервативна оцінка відображає невизначеність параметрів моделі, яку враховує постеріорний прогноз.

Таблиця спряжених розподілів

Нехай n - кількість спостережень. У всіх нижченаведених випадках передбачається, що дані складаються з n точок x1,,xn (які будуть випадковими векторами у багатовимірних випадках).

Якщо функція правдоподібності належить експоненціальному сімейству, то спряжений апріор існує, часто також з експоненціального сімейства.

Коли функція правдоподібності є дискретним розподілом

Правдоподібність Параметри моделі Розподіл спряженого апріора Гіперпараметри апріора Гіперпараметри постреріора[note 1] Інтерпретація гіперпараметрів Постеріорний прогнозний розподіл[note 2]
Бернуллі p (ймовірність) Бета α,β α+i=1nxi,β+ni=1nxi α успіхи, β невдачі[note 3] p(x~=1)=αα+β
Біноміальний p (ймовірність) Бета α,β α+i=1nxi,β+i=1nNii=1nxi α успіхи, β невдачі[note 3] BetaBin(x~|α,β)
(Бета-біноміальний)
Від'ємний біноміальний
з відомою кількістю невдач, r
p (ймовірність) Бета α,β α+rn,β+i=1nxi α число всіх успіхів, β невдачі[note 3] (тобто, βr експериментів, за умови, що r фіксоване) BetaNegBin(x~|α,β)

(Бета-негативний біноміальний)

Пуассон λ (темп) Гамма k,θ k+i=1nxi, θnθ+1 k загальна кількість випадань в 1θ інтервалах NB(x~k,θθ+1)
(Від'ємний біноміальний)
α,β [note 4] α+i=1nxi, β+n α загальна кількість випадань в β інтервалах NB(x~α,11+β)
(Від'ємний біноміальний)
Категорійний p (вектор ймовірності), k (число категорій; тобто, розмірність p) Діріхле αk α+(c1,,ck), де ci число спостережень в категорії i αi число випадінь категорії i[note 3] p(x~=i)=αiiαi=αi+ciiαi+n
Поліноміальний p (вектор ймовірності), k (число категорій; тобто, розмірність p) Діріхле αk α+i=1n𝐱i αi число випадінь категорії i[note 3] DirMult(𝐱~α)
(Шаблон:Iw)
Гіпергеометричний
з відомим розміром загальної популяції, N
M (цільове число членів) Бета-біноміальний[4] n=N,α,β α+i=1nxi,β+i=1nNii=1nxi α успіхи, β невдачі[note 3]
Геометричний p0 (ймовірність) Бета α,β α+n,β+i=1nxi α експерименти, β всі невдачі[note 3]

Коли функція ймовірності є безперервним розподілом

Шаблон:Переклад

Правдоподібність Параметри моделі Розподіл спряженого апріора Гіперпараметри апріора Гіперпараметри постреріора[note 1] Інтерпретація гіперпараметрів Постеріорний прогнозний розподіл[note 5]
Нормальний
з відомою дисперсією σ2
μ (середнє) Нормальний μ0,σ02 11σ02+nσ2(μ0σ02+i=1nxiσ2),(1σ02+nσ2)1 mean was estimated from observations with total precision (sum of all individual precisions)1/σ02 and with sample mean μ0 𝒩(x~|μ0,σ02+σ2)[5]
Нормальний

with known precision τ
μ (середнє) Нормальний μ0,τ0 τ0μ0+τi=1nxiτ0+nτ,(τ0+nτ)1 mean was estimated from observations with total precision (sum of all individual precisions)τ0 and with sample mean μ0 𝒩(x~μ0,1τ0+1τ)
Нормальний
з відомим середнім μ
σ2 (дисперсія) Обернений гамма α,β α+n2,β+i=1n(xiμ)22 variance was estimated from 2α observations with sample variance β/α (i.e. with sum of squared deviations 2β, where deviations are from known mean μ) t2α(x~|μ,σ2=β/α)
Нормальний
з відомим середнім μ
σ2 (дисперсія) Scaled inverse chi-squared ν,σ02 ν+n,νσ02+i=1n(xiμ)2ν+n variance was estimated from ν observations with sample variance σ02 tν(x~|μ,σ02)
Нормальний
з відомим середнім μ
τ (прецизійність) Гамма α,β α+n2,β+i=1n(xiμ)22 precision was estimated from 2α observations with sample variance β/α (i.e. with sum of squared deviations 2β, where deviations are from known mean μ) t2α(x~μ,σ2=β/α)
Нормальний μ і σ2

за умови взаємозамінности
Normal-inverse gamma μ0,ν,α,β νμ0+nx¯ν+n,ν+n,α+n2,

β+12i=1n(xix¯)2+nνν+n(x¯μ0)22
  • x¯ середнє вибірки
mean was estimated from ν observations with sample mean μ0; variance was estimated from 2α observations with sample mean μ0 and sum of squared deviations 2β t2α(x~μ,β(ν+1)να)
Нормальний μ і τ

за умови взаємозамінности
Normal-gamma μ0,ν,α,β νμ0+nx¯ν+n,ν+n,α+n2,

β+12i=1n(xix¯)2+nνν+n(x¯μ0)22
  • x¯ середнє вибірки
mean was estimated from ν observations with sample mean μ0, and precision was estimated from 2α observations with sample mean μ0 and sum of squared deviations 2β t2α(x~μ,β(ν+1)αν)
Багатовимірний нормальний з відомою матрицею коваріації Σ μ (вектор середнього) Багатовимірний нормальний μ0,Σ0 (Σ01+nΣ1)1(Σ01μ0+nΣ1𝐱¯),

(Σ01+nΣ1)1
  • 𝐱¯ середнє вибірки
mean was estimated from observations with total precision (sum of all individual precisions)Σ01 and with sample mean μ0 𝒩(𝐱~μ0,Σ0+Σ)
Багатовимірний нормальний з відомою матрицею прецизійності Λ μ (вектор середнього) Багатовимірний нормальний μ0,Λ0 (Λ0+nΛ)1(Λ0μ0+nΛ𝐱¯),(Λ0+nΛ)
  • 𝐱¯ середнє вибірки
mean was estimated from observations with total precision (sum of all individual precisions)Λ0 and with sample mean μ0 𝒩(𝐱~μ0,Λ01+Λ1)
Багатовимірний нормальний з відомим середнім μ Σ (матриця коваріації) Inverse-Wishart ν,Ψ n+ν,Ψ+i=1n(𝐱𝐢μ)(𝐱𝐢μ)T covariance matrix was estimated from ν observations with sum of pairwise deviation products Ψ tνp+1(𝐱~|μ,1νp+1Ψ)
Багатовимірний нормальний з відомим середнім μ Λ (матриця прецизійності) Wishart ν,𝐕 n+ν,(𝐕1+i=1n(𝐱𝐢μ)(𝐱𝐢μ)T)1 covariance matrix was estimated from ν observations with sum of pairwise deviation products 𝐕1 tνp+1(𝐱~μ,1νp+1𝐕1)
Багатовимірний нормальний μ (вектор середнього) і Σ (матриця коваріації) normal-inverse-Wishart μ0,κ0,ν0,Ψ κ0μ0+n𝐱¯κ0+n,κ0+n,ν0+n,

Ψ+𝐂+κ0nκ0+n(𝐱¯μ0)(𝐱¯μ0)T
  • 𝐱¯ середнє вибірки
  • 𝐂=i=1n(𝐱𝐢𝐱¯)(𝐱𝐢𝐱¯)T
mean was estimated from κ0 observations with sample mean μ0; covariance matrix was estimated from ν0 observations with sample mean μ0 and with sum of pairwise deviation products Ψ=ν0Σ0 tν0p+1(𝐱~|μ0,κ0+1κ0(ν0p+1)Ψ)
Багатовимірний нормальний μ (вектор середнього) і Λ (матриця прецизійності) normal-Wishart μ0,κ0,ν0,𝐕 κ0μ0+n𝐱¯κ0+n,κ0+n,ν0+n,

(𝐕1+𝐂+κ0nκ0+n(𝐱¯μ0)(𝐱¯μ0)T)1
  • 𝐱¯ середнє вибірки
  • 𝐂=i=1n(𝐱𝐢𝐱¯)(𝐱𝐢𝐱¯)T
mean was estimated from κ0 observations with sample mean μ0; covariance matrix was estimated from ν0 observations with sample mean μ0 and with sum of pairwise deviation products 𝐕1 tν0p+1(𝐱~μ0,κ0+1κ0(ν0p+1)𝐕1)
Рівномірний U(0,θ) Парето xm,k max{x1,,xn,xm},k+n k observations with maximum value xm
Парето

з відомим мінімумом xm
k (форма) Гамма α,β α+n,β+i=1nlnxixm α observations with sum β of the order of magnitude of each observation (i.e. the logarithm of the ratio of each observation to the minimum xm)
Weibull

з відомим параметром форми β
θ (масштаб) Обернений гамма a,b a+n,b+i=1nxiβ a observations with sum b of the β'th power of each observation
Логнормальний Same as for the normal distribution after applying the natural logarithm to the data for the posterior hyperparameters. Please refer to page 21 and 22 [4] to see the details.
Експоненційний λ (темп) Гамма α,β α+n,β+i=1nxi α1 observations that sum to β Lomax(x~β,α)

(Lomax distribution)
Гамма
з відомим параметром α
β (темп) Гамма α0,β0 α0+nα,β0+i=1nxi α0/α observations with sum β0 CG(𝐱~α,α0,β0)=β(𝐱~|α,α0,1,β0)
Обернений гамма

з відомим параметром форми α
β (обернений масштаб) Гамма α0,β0 α0+nα,β0+i=1n1xi α0/α observations with sum β0
Гамма

з відомим параметром темпу β
α (форма) aα1βαcΓ(α)b a,b,c ai=1nxi,b+n,c+n b or c observations (b for estimating α, c for estimating β) with product a
Гамма α (форма), β (обернений масштаб) pα1eβqΓ(α)rβαs p,q,r,s pi=1nxi,q+i=1nxi,r+n,s+n α was estimated from r observations with product p; β was estimated from s observations with sum q
Beta α, β Γ(α+β)kpαqβΓ(α)kΓ(β)k p,q,k pi=1nxi,qi=1n(1xi),k+n α and β were estimated from k observations with product p and product of the complements q

Див. також

Примітки

  1. 1,0 1,1 Позначається тими ж символами що й апріорні гіперпараметри з апострофами('). Наприклад α позначається α
  2. Це постеріорний прогнозний розподіл нової точки x~ зумовлений спостереженими точками (наявною інформацією), що мають парпметри граничного розподілу. Змінні з апострофами позначають постеріорні значення параметрів.
  3. 3,0 3,1 3,2 3,3 3,4 3,5 3,6 Точна інтерпретація параметрів бета-розподілу з точки зору кількості успіхів і невдач залежить від того, яка функція використовується для отримання точкової оцінки з розподілу. Матсподівання бета-розподілу обчислюється як αα+β, що відповідає α успіхам і β невдачам, тоді як його мода дорівнює α1α+β2, що відповідає α1 успіхам і β1 невдачам. У Баєсівських обчисленнях точкових оцінок віддають перевагу постеріорному матсподіванню перед постеріорною модою, ґрунтуючись на квадратичній функції втрат, до того ж використання α і β математично зручніше, тоді як перевагою використання α1 і β1 є те, що рівномірний апріор Beta(1,1) відповідає випадку коли маємо 0 успіхів і 0 невдач. Аналогічні міркування мають місце при використанні розподілу Діріхле.
  4. β темп зміни чи обернений до параметра масштабу. В параметризації Гамма-розподіл, θ = 1/β і k = α.
  5. Це постеріорний прогнозний розподіл нової точки x~ зумовлений спостереженими точками (наявною інформацією), що мають парпметри граничного розподілу. Змінні з апострофами позначають постеріорні значення параметрів. 𝒩 and tn позначають нормальний розподіл і t-розподіл Стьюдента або ж багатовимірний нормальний розподіл і багатовимірний t-розподіл Стьюдента у багатовиміних випадках відповідно.

Джерела

Шаблон:Reflist

  1. Howard Raiffa and Robert Schlaifer. Applied Statistical Decision Theory. Division of Research, Graduate School of Business Administration, Harvard University, 1961.
  2. Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics Шаблон:Webarchive, "conjugate prior distributions" Шаблон:Webarchive. Electronic document, revision of November 13, 2005, retrieved December 2, 2005.
  3. For a catalog, see Шаблон:Cite book
  4. 4,0 4,1 Шаблон:Cite web Шаблон:Ref-en
  5. Шаблон:Citation