Баєсове ієрархічне моделювання

Матеріал з testwiki
Версія від 08:38, 5 травня 2023, створена imported>BunykBot (автоматична заміна {{Не перекладено}} вікі-посиланнями на перекладені статті)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

Ба́єсове ієрархі́чне моделюва́ння (Шаблон:Lang-en) — це статистична модель, написана в декілька рівнів (ієрархічний вигляд), яка оцінює Шаблон:Нп апостеріорного розподілу із застосуванням баєсового методу.[1] Підмоделі об'єднуються для утворення ієрархічної моделі, а для поєднання їх в одне ціле зі спостережуваними даними та врахуванням всієї присутньої невизначеності застосовується теорема Баєса. Результатом цього поєднання є апостеріорний розподіл, відомий також як уточнена оцінка ймовірності за отримання додаткового свідчення про апріорний розподіл.

Частотницька статистика, популярніша Шаблон:Нп, може видавати висновки, здавалося би, несумісні з тими, що пропонує баєсова статистика, через баєсове трактування параметрів як випадкових змінних, і використання суб'єктивної інформації у встановленні припущень стосовно цих параметрів.[2] Оскільки ці підходи дають відповіді на різні питання, то формальні результати не є технічно суперечливими, але ці два підходи не погоджуються стосовно того, яка відповідь є доречною для певного застосування. Баєсівці переконують, що доречною інформацією стосовно ухвалення рішень та уточнення переконань нехтувати не можна, і що ієрархічне моделювання має потенціал взяти гору над класичними методами в застосуваннях, в яких доповідачі дають декілька варіантів даних спостережень. Більше того, ця модель довела свою робастність, з меншою чутливістю апостеріорного розподілу до гнучкіших ієрархічних апріорних.

Ієрархічне моделювання застосовують, коли інформація є доступною на декількох різних рівнях одиниць вимірювання. Ієрархічна форма аналізу та організації допомагає в розумінні багатопараметрових задач, а також відіграє важливу роль у розробці обчислювальних стратегій.Шаблон:Sfn

Філософія

Численні статистичні застосування передбачають декілька параметрів, які можливо розглядати як пов'язані або взаємопоєднані таким чином, що ця задача передбачає залежність моделі спільної ймовірності для цих параметрів.Шаблон:Sfn Окремі міри переконань, виражені у вигляді ймовірностей, мають свою невизначеність.[3] Крім цього, є зміна мір переконань з часом. Як було зазначено професором Шаблон:Нп та професором Шаблон:Нп, «Реальність процесу навчання складається з розвитку окремих та суб'єктивних переконань про дійсність.» Ці суб'єктивні ймовірності залучаються в розумі пряміше, ніж фізичні ймовірності.[4] Відтак, саме через цю потребу уточнювати переконання баєсівці сформулювали альтернативну статистичну модель, яка враховує попереднє трапляння певної події.[5]

Теорема Баєса

Передбачуване трапляння реальної події зазвичай змінюватиме переваги між певними варіантами. Це здійснюється змінюванням мір переконання, закріплених особою за подіями, що визначають ці варіанти.Шаблон:Sfn

Припустімо, що в дослідженні дієвості серцевого лікування з пацієнтами лікарні j, що має ймовірність виживання θj, ймовірність виживання уточнюватиметься траплянням y, події створення гіпотетичної дискусійної сироватки, яка, як дехто вважає, збільшує виживаність серцевих пацієнтів.

Щоби зробити уточнені ймовірнісні твердження про θj, маючи трапляння події y, ми мусимо почати з моделі, яка забезпечує спільний розподіл імовірності для θj та y. Це може бути записано як добуток двох розподілів, які часто називають апріорним розподілом P(θ) та вибірковим розподілом P(yθ) відповідно:

P(θ,y)=P(θ)P(yθ)

З використанням основної властивості умовної ймовірності, апостеріорний розподіл дасть:

P(θy)=P(θ,y)P(y)=P(yθ)P(θ)P(y)

Це рівняння, що показує взаємозв'язок між умовною ймовірністю та окремими подіями, відоме як теорема Баєса. Цей простий вираз містить у собі технічне ядро баєсового висновування, що має на меті конструювання уточненого переконання, P(θy), доречними та розв'язними способами.Шаблон:Sfn

Взаємозамінюваність

Звичною відправною точкою статистичного аналізу є припущення, що n значень yn є взаємозамінюваними. Якщо не доступно жодної інформації, крім даних y, щоби відрізняти будь-яке з θj від інших, і неможливо зробити жодного впорядкування чи групування параметрів, то необхідно виходити з симетричності серед параметрів у їхньому апріорному розподілі.[6] Цю симетрію ймовірнісно представлено взаємозамінюваністю. Загалом, маючи деякий невідомий вектор параметрів θ з розподілом P(θ), корисно та доречно моделювати дані зі взаємозамінюваного розподілу, як незалежно та однаково розподілені.

Скінченна взаємозамінюваність

Для незмінного числа n набір y1,y2,,yn є взаємозамінюваним, якщо спільний розподіл P(y1,y2,,yn) є інваріантним відносно переставляння індексів. Тобто, для кожного переставлення π або (π1,π2,,πn) індексів (1, 2, …, n), P(y1,y2,,yn)=P(yπ1,yπ2,,yπn).Шаблон:Sfn

Наступний приклад є взаємозамінюваним, але не незалежним та однаково розподіленим (НОР): Розгляньмо глек із червоною та синьою кулями всередині, з імовірністю 12 витягання кожної. Кулі витягують без повернення, тобто після витягування однієї кулі з n куль для наступного витягування там залишатиметься n − 1 куль.

Нехай Yi={1,0, якщо i-та куля є червоною
інакше.

Оскільки ймовірність обрання червоної кулі в першому витягуванні та синьої кулі у другому витягуванні дорівнює ймовірності обрання синьої кулі в першому витягуванні та червоної кулі в другому, обидві з яких дорівнюють 1/2 (тобто, [P(y1=1,y2=0)=P(y1=0,y2=1)=12]), то y1 та y2 є взаємозамінюваними.

Але ймовірністю обрання червоної кулі в другому витягуванні, коли червону кулю вже було обрано в першому, є 0, і вона не дорівнює ймовірності обрання червоної кулі в другому витягуванні, яка дорівнює 1/2 (тобто, [P(y2=1y1=1)=0P(y2=1)=12]). Таким чином, y1 та y2 не є незалежними.

Якщо x1,,xn є незалежними та однаково розподіленими, то вони є взаємозамінюваними, але обернене є не обов'язково істинним.[7]

Нескінченна взаємозамінюваність

Нескінченна взаємозамінюваність — це така властивість, що кожна скінченна підмножина нескінченної послідовності y1, y2, є взаємозамінюваною. Тобто, для будь-якого n послідовність y1,y2,,yn є взаємозамінюваною.[7]

Ієрархічні моделі

Складові

Баєсове ієрархічне моделювання при виведенні апостеріорного розподілу використовує два важливі поняття,[1] а саме:

  1. Гіпермараметри: параметри апріорного розподілу
  2. Шаблон:Нпні: розподіли гіперпараметрів

Припустімо, що випадкова змінна Y слідує нормальному розподілові з параметром θ як середнє та 1 як дисперсія, тобто, YθN(θ,1). Припустімо також, що параметр θ має розподіл, заданий нормальним розподілом із середнім μ та дисперсією 1, тобто, θμN(μ,1). Більше того, μ слідує іншому заданому розподілові, наприклад, стандартному нормальному розподілові, N(0,1). Параметр μ називають гіперпараметром, тоді як його розподіл, заданий як N(0,1), є прикладом гіперапріорного розподілу. Запис розподілу Y змінюється із додаванням нового параметру, тобто, Yθ,μN(θ,1). Якщо є додатковий рівень, скажімо, μ слідує іншому нормальному розподілові з середнім β та дисперсією ϵ, що означає μN(β,ϵ), то  β та ϵ також може бути названо гіперпараметрами, тоді як їхні розподіли є також гіперапріорними розподілами.Шаблон:Sfn

Система

Нехай yj є спостереженням, а θj — параметром, що регулює процес породжування даних для yj. Припустімо далі, що параметри θ1,θ2,,θj породжуються взаємозамінювано зі спільної генеральної сукупності, з розподілом, керованим гіперпараметром ϕ.

Ця баєсова ієрархічна модель містить наступні рівні:

Рівень I: yjθj,ϕP(yjθj,ϕ)
Рівень II: θjϕP(θjϕ)
Рівень III: ϕP(ϕ)

Правдоподібністю, як видно на рівні I, є P(yjθj,ϕ), з P(θj,ϕ) як її апріорним розподілом. Зауважте, що ця правдоподібність залежить від ϕ лише через θj.

Апріорний розподіл з рівня I може бути розбито як

P(θj,ϕ)=P(θjϕ)P(ϕ) [з визначення умовної ймовірності]

з ϕ як його гіперпараметром з гіперапріорним розподілом P(ϕ).

Таким чином, апостеріорний розподіл є пропорційним до:

P(ϕ,θjy)P(yjθj,ϕ)P(θjϕ) [із застосуванням теореми Баєса]
P(ϕ,θjy)P(yjθj)P(θj,ϕ)[8]

Приклад

Щоби додатково проілюструвати це, розгляньмо наступний приклад.

Вчитель хоче оцінити, наскільки добре учень виконав свій тест SAT. Щоби оцінити це, він використовує інформацію про бали цього учня в старшій школі, та його поточний середній бал (grade point average, GPA). Його поточний середній бал, позначуваний через Y, має правдоподібність, задану деякою функцією ймовірності з параметром θ, наприклад, YθP(Yθ). Цей параметр θ є оцінкою SAT учня. Оцінку SAT розглядають як зразок, що береться зі спільного розподілу генеральної сукупності, проіндексованого за іншим параметром ϕ, що є балом цього учня зі старшої школи.Шаблон:Sfn Тобто, θϕP(θϕ). Крім того, гіперпараметр ϕ слідує своєму власному розподілові, заданому P(ϕ), гіперапріорному.

Щоби отримати розв'язок для оцінки SAT, маючи інформацію про GPA,

P(θ,ϕY)P(Yθ,ϕ)P(θ,ϕ)
P(θ,ϕY)P(Yθ)P(θϕ)P(ϕ)

Для отримання розв'язку для апостеріорного розподілу буде використано всю інформацію в задачі. Замість розв'язування з використанням лише апріорного розподілу та функції правдоподібності, використання гіперапріорних дає більше інформації для отримування точніших переконань про поведінку параметра.[9]

Дворівнева ієрархічна модель

Загалом, спільним апостеріорним розподілом, що нас цікавить, у дворівневій ієрархічній моделі є:

P(θ,ϕY)=P(Yθ,ϕ)P(θ,ϕ)P(Y)=P(Yθ)P(θϕ)P(ϕ)P(Y)
P(θ,ϕY)P(Yθ)P(θϕ)P(ϕ)[9]

Трирівнева ієрархічна модель

Для трирівневої ієрархічної моделі апостеріорний розподіл задається так:

P(θ,ϕ,XY)=P(Yθ)P(θϕ)P(ϕX)P(X)P(Y)
P(θ,ϕ,XY)P(Yθ)P(θϕ)P(ϕX)P(X)[9]

Примітки

Шаблон:Примітки

  1. 1,0 1,1 Allenby, Rossi, McCulloch (January 2005). "Hierarchical Bayes Model: A Practitioner’s Guide" Шаблон:Webarchive. Journal of Bayesian Applications in Marketing Шаблон:Webarchive, pp. 1–4. Retrieved 26 April 2014, p. 3 Шаблон:Ref-en
  2. Шаблон:Cite book Шаблон:Ref-en
  3. Good, I.J. (February 1980). “Some history of the hierarchical Bayesian methodology”Шаблон:Dead link. Trabajos de Estadistica Y de Investigacion Operativa Volume 31 Issue 1 Шаблон:Webarchive. Springer – Verlag, p. 480 Шаблон:Ref-es
  4. Good, I.J. (February 1980). “Some history of the hierarchical Bayesian methodology”Шаблон:Dead link. Trabajos de Estadistica Y de Investigacion Operativa Volume 31 Issue 1 Шаблон:Webarchive. Springer – Verlag, pp. 489–490 Шаблон:Ref-es
  5. Bernardo, Smith(1994). Bayesian Theory Шаблон:Webarchive. Chichester, England: John Wiley & Sons, Шаблон:ISBN, p. 23 Шаблон:Ref-en
  6. Bernardo, Degroot, Lindley (September 1983). “Proceedings of the Second Valencia International Meeting” Шаблон:Webarchive. Bayesian Statistics 2 Шаблон:Webarchive. Amsterdam: Elsevier Science Publishers B.V, Шаблон:ISBN, pp. 167–168 Шаблон:Ref-en
  7. 7,0 7,1 Diaconis, Freedman (1980). “Finite exchangeable sequences”. Annals of Probability, pp. 745–747 Шаблон:Ref-en
  8. Bernardo, Degroot, Lindley (September 1983). “Proceedings of the Second Valencia International Meeting” Шаблон:Webarchive. Bayesian Statistics 2 Шаблон:Webarchive. Amsterdam: Elsevier Science Publishers B.V, Шаблон:ISBN, pp. 371–372 Шаблон:Ref-en
  9. 9,0 9,1 9,2 Box G. E. P., Tiao G. C. (1965). "Multiparameter problem from a bayesian point of view". Multiparameter Problems From A Bayesian Point of View Volume 36 Number 5 Шаблон:Webarchive. New York City: John Wiley & Sons, Шаблон:ISBN Шаблон:Ref-en