Оцінка апостеріорного максимуму

Шаблон:Баєсова статистика

Оці́нка ма́ксимуму апостеріо́рної імові́рності (МАІ, Шаблон:Lang-en) у баєсовій статистиці — це мода апостеріорного розподілу. МАІ може застосовуватися для отримання точкової оцінки неспостережуваної величини на базі емпіричних даних. Вона є тісно пов'язаною з методом максимальної правдоподібності (МП, Шаблон:Lang-en) Фішера, але застосовує розширену цільову функцію, що включає апріорний розподіл оцінюваної величини. Таким чином, МАІ можна розглядати як регуляризацію оцінки МП.

Опис

Припустімо, що ми хочемо оцінити неспостережуваний параметр розподілу $θ$ на базі спостережень $x$ . Нехай $f$ буде вибірковим розподілом $x$ , так що $f (x | θ)$ є ймовірністю $x$ , коли підлеглий параметр розподілу є $θ$ . Тоді функція

θ \mapsto f (x | θ)

є відомою як функція правдоподібності, а оцінка

{\hat{θ}}_{M L} (x) = \underset{θ}{a r g m a x} f (x | θ)

є оцінкою максимальної правдоподібності $θ$ .

Тепер припустімо, що існує апріорний розподіл $θ$ , $g$ . Це дозволяє нам розглядати $θ$ як випадкову змінну в баєсовій статистиці. Тоді апостеріорний розподіл $θ$ є наступним:

θ \mapsto f (θ | x) = \frac{f (x | θ) g (θ)}{\int_{ϑ \in Θ} f (x | ϑ) g (ϑ) d ϑ}

де $g$ є функцією густини $θ$ , а $Θ$ є областю визначення $g$ . Це є прямим застосуванням теореми Баєса.

Відтак метод оцінки апостеріорного максимуму оцінює $θ$ як моду апостеріорного розподілу цієї випадкової змінної:

{\hat{θ}}_{M A P} (x) = \underset{θ}{a r g m a x} \frac{f (x | θ) g (θ)}{\int_{ϑ} f (x | ϑ) g (ϑ) d ϑ} = \underset{θ}{a r g m a x} f (x | θ) g (θ) .

Знаменник цього апостеріорного розподілу (так звана Шаблон:Не перекладено) не залежить від $θ$ , і тому не відіграє ролі в оптимізації. Зверніть увагу, що коли апріорне $g$ є рівномірним (тобто сталою функцією), то оцінка $θ$ МАІ збігається з оцінкою МП. І що коли функція втрат має вигляд

L (θ, a) = {\begin{matrix} 0 & , if | a - θ | < c \\ 1 & , otherwise \end{matrix}

та $c$ прямує до 0, то послідовність баєсових оцінок наближається до оцінювача МАІ, за умови, що розподіл $θ$ є одномодовим. Але в цілому оцінювач МАІ не є баєсовим оцінювачем, хіба що якщо $θ$ є дискретною.

Обчислення

Оцінку МАІ може було обчислювано кількома шляхами:

Аналітичним, коли моду (моди) апостеріорного розподілу може бути задано в Шаблон:Не перекладено. Це той випадок, коли застосовуються спряжені апріорні.
Шляхом чисельної оптимізації, такої як метод спряжених градієнтів або метод Ньютона. Це зазвичай вимагає перших або других похідних, що має бути виражено чи то аналітично, чи то чисельно.
Шляхом видозміни алгоритму очікування-максимізації. Це не вимагає похідних апостеріорної густини.
Методом Монте-Карло із застосуванням імітації відпалу.

Критика

Хоча оцінка МАІ і є границею баєсових оцінок (при функції втрат 0-1), вона не є типовим представником баєсових методів у цілому. Причина в тому, що оцінки МАІ є точковими, тоді як баєсові методи характеризуються використанням розподілів для підсумовування даних та видачі висновків: так, баєсові методи тяжіють замість цього до повідомлення апостеріорного середнього або медіани разом із імовірними інтервалами. В обох випадках причиною є те, що ці оцінки є оптимальними при втратах із квадратичною або лінійною помилкою відповідно, — а вони є характернішими представниками типових функцій втрат, — і те, що апостеріорний розподіл може не мати простої аналітичної форми: в такому випадку цей розподіл може бути симульовано за допомогою методик Монте-Карло марковських ланцюгів, тоді як оптимізація для пошуку цієї моди (мод) може бути складною, або неможливою.Шаблон:Citation needed

Приклад густини бімодального розподілу, в якому найвища мода є не характерною для більшості розподілу

У багатьох типах моделей, як наприклад Шаблон:Не перекладено, апостеріорне може бути бімодальним. У такому разі звичною порадою є обирати найвищу моду: це не завжди є прийнятним (глобальна оптимізація є складною задачею), а в деяких випадках навіть і неможливим (як при виникненні проблем Шаблон:Не перекладено). До того ж, найвища мода може бути не характерною для більшості апостеріорного.

Нарешті, на відміну від оцінок МП, оцінка МАІ не є Шаблон:Не перекладено. Перемикання з однієї параметризації на іншу включає введення якобіану, що впливає на положення максимуму.^[1]

Як приклад різниці між згаданими вище баєсовими оцінками (середнього та медіани) та використанням оцінки МАІ, розгляньмо випадок, коли необхідно класифікувати входи $x$ як або позитивні, або негативні (наприклад, позички як ризиковані або безпечні). Припустімо, що існує лише три можливі гіпотези правильного методу класифікації, $h_{1}$ , $h_{2}$ and $h_{3}$ , з апостеріорними 0.4, 0.3 та 0.3 відповідно. Припустімо, що заданий новий зразок $x$ гіпотеза $h_{1}$ класифікує як позитивний, тоді як дві інші — як негативний. При застосуванні оцінки МАІ для точного класифікатора $h_{1}$ , $x$ класифікується як позитивний, тоді як баєсові оцінки зробили би усереднення над усіма гіпотезами, та класифікували би $x$ як негативний.

Приклад

Припустімо, що нам дано послідовність $(x_{1}, \dots, x_{n})$ незалежних однаково розподілених випадкових змінних $N (μ, σ_{v}^{2})$ та апріорний розподіл $μ$ , заданий $N (μ_{0}, σ_{m}^{2})$ . Ми хочемо отримати оцінку МАІ $μ$ .

Функцію, що потрібно максимізувати, задано як

f (μ) f (x | μ) = π (μ) L (μ) = \frac{1}{\sqrt{2 π} σ_{m}} \exp (- \frac{1}{2} {(\frac{μ - μ_{0}}{σ_{m}})}^{2}) \prod_{j = 1}^{n} \frac{1}{\sqrt{2 π} σ_{v}} \exp (- \frac{1}{2} {(\frac{x_{j} - μ}{σ_{v}})}^{2}),

що є еквівалентним мінімізації наступної функції $μ$ :

\sum_{j = 1}^{n} {(\frac{x_{j} - μ}{σ_{v}})}^{2} + {(\frac{μ - μ_{0}}{σ_{m}})}^{2} .

Отже, ми бачимо, що оцінка МАІ для μ задається як

{\hat{μ}}_{M A P} = \frac{n σ_{m}^{2}}{n σ_{m}^{2} + σ_{v}^{2}} (\frac{1}{n} \sum_{j = 1}^{n} x_{j}) + \frac{σ_{v}^{2}}{n σ_{m}^{2} + σ_{v}^{2}} μ_{0},

що виявляється лінійною інтерполяцією середнього апріорного та середнього вибірки, зважену за їхніми відповідними коваріаціями.

Випадок $σ_{m} \to \infty$ називається неінформативним апріорним, і веде до недовизначеного апріорного розподілу ймовірності; в цьому випадку ${\hat{μ}}_{M A P} \to {\hat{μ}}_{M L} .$

Шаблон:Refimprove

Посилання

Шаблон:Reflist

Джерела

M. DeGroot, Optimal Statistical Decisions, McGraw-Hill, (1970). Шаблон:Ref-en
Harold W. Sorenson, (1980) "Parameter Estimation: Principles and Problems", Marcel Dekker. Шаблон:Ref-en

Шаблон:Статистика

↑ Шаблон:Cite book Шаблон:Ref-en

[1] Шаблон:Cite book Шаблон:Ref-en

[1]

Оцінка апостеріорного максимуму

Зміст

Опис

Обчислення

Критика

Приклад

Посилання

Джерела

Навігаційне меню

Оцінка апостеріорного максимуму

Опис

Обчислення

Критика

Приклад

Посилання

Джерела

Навігаційне меню

Пошук