Баєсова оцінка

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Без виносок


Шаблон:Баєсова статистика

У теорії оцінювання та теорії рішень ба́єсова оці́нка або ба́єсова дія є оцінкою або Шаблон:Не перекладено, що мінімізує апостеріорне математичне сподівання функції втрат (тобто, апостеріо́рні очі́кувані втра́ти). Рівносильно, вона максимізує апостеріорне математичне сподівання функції корисності. Альтернативним способом формулювання оцінки в баєсовій статистиці є оцінка апостеріорного максимуму.

Визначення

Припустімо, нам відомо, що невідомий параметр θ має апріорний розподіл π. Нехай θ^=θ^(x) буде оцінкою θ (на підставі первних вимірювань x), та нехай L(θ,θ^) буде функцією втрат, наприклад, квадратичною похибкою. Ба́єсів ри́зик θ^ визначають як Eπ(L(θ,θ^)), де береться математичне сподівання від розподілу ймовірності θ: це визначає функцію ризику як функцію від θ^. Про оцінку θ^ кажуть, що вона є баєсовою оцінкою, якщо вона мінімізує баєсів ризик серед усіх оцінок. Рівноцінно, оцінка, що мінімізує апостеріорне математичне сподівання втрат E(L(θ,θ^)|x) для кожного x також мінімізує й баєсів ризик, а отже є баєсовою оцінкою.Шаблон:Sfn

Якщо апріорне є некоректним, то оцінка, що мінімізує апостеріорне математичне сподівання втрат для кожного x, називається узага́льненою ба́єсовою оці́нкою.Шаблон:Sfn

Приклади

Оцінка мінімальної середньоквадратичної похибки

Шаблон:Докладніше1

Найпоширенішою функцією ризику, що застосовується для баєсової оцінки, є середньоквадратична похибка (СКП, Шаблон:Lang-en), що також називають квадратичним ризиком похибки. СКП визначається як

MSE=E[(θ^(x)θ)2],

де математичне сподівання береться над спільним розподілом θ та x.

Апостеріорне середнє

При використанні СКП як ризику баєсова оцінка невідомого параметру є просто середнім значенням апостеріорного розподілу,[1]

θ^(x)=E[θ|x]=θp(θ|x)dθ.

Це відомо як оцінка мінімальної середньоквадратичної похибки (МСКП, Шаблон:Lang-en). Баєсів ризик у цьому випадку є апостеріорною дисперсією.

Баєсові оцінки для спряжених апріорних

Шаблон:Докладніше1

Якщо немає неусувної підстави віддавати перевагу одному апріорному розподілові перед іншим, іноді для спрощення обирають спряжений апріорний розподіл. Спряжений апріорний розподіл визначається як апріорний розподіл, що належить до Шаблон:Не перекладено, для якого результатний апостеріорний розподіл також належить до цього ж сімейства. Це є важливою властивістю, оскільки баєсову оцінку, так само як і її статистичні властивості (дисперсію, довірчий інтервал тощо), може бути виведено з апостеріорного розподілу.

Спряжені апріорні є особливо зручними для послідовного оцінювання, коли апостеріорне поточного вимірювання використовується як апріорне в наступному вимірюванні. У послідовному оцінюванні, якщо не використовуються спряжені апріорні, апостеріорний розподіл типово стає складнішим із кожним доданим вимірюванням, і баєсову оцінку зазвичай неможливо обчислювати без удавання до чисельних методів.

Нижче наведено деякі приклади спряжених апріорних.

  • Якщо x|θ є нормальним, x|θ ~ N(θ,σ2) та апріорне є нормальним, θ ~ N(μ,τ2), тоді апостеріорне також є нормальним, а баєсова оцінка при СКП задається як
θ^(x)=σ2σ2+τ2μ+τ2σ2+τ2x.
θ^(X)=nX+an+1b.
  • Якщо x1,…,xn є незалежними однаково розподіленими неперервними рівномірними xi|θ~U(0,θ), а апріорне є паретівським θ~Pa(θ0,a), тоді апостеріорне також має розподіл Парето, а баєсова оцінка при СКП задається як
θ^(X)=(a+n)max(θ0,x1,...,xn)a+n1.

Альтернативні функції ризику

Функції ризику обираються в залежності від способу вимірювання відстані між оцінкою та невідомим параметром. Найпоширенішою функцією ризику у вжитку є СКП, головно завдяки її простоті. Проте іноді використовуються й альтернативні функції ризику. Далі наведено декілька прикладів таких альтернатив. Ми позначаємо функцію апостеріорного узагальненого розподілу через F.

Апостеріорна медіана та інші квантилі

  • «Лінійна» функція втрат, з a>0, що видає як баєсову оцінку Шаблон:Нпні:
L(θ,θ^)=a|θθ^|
F(θ^(x)|X)=12.
  • Інша «лінійна» функція втрат, що призначає різну «вагу» a,b>0 для пере- та недооцінки. Вона видає квантиль апостеріорного розподілу, і є узагальненням попередньої функції втрат:
L(θ,θ^)={a|θθ^|,for θθ^0b|θθ^|,for θθ^<0
F(θ^(x)|X)=aa+b.

Апостеріорна мода

  • Наступна функція втрат є хитрішою: вона видає або апостеріорну моду, або близьку до неї точку, в залежності від кривизни та властивостей апостеріорного розподілу. Малі значення параметру K>0 рекомендуються для того, щоби використовувати цю моду як наближення (L>0):
L(θ,θ^)={0,for |θθ^|<KL,for |θθ^|K.

Може бути задумано й інші функції втрат, незважаючи на те, що середньоквадратична похибка є найширше вживаною й перевіреною.

Узагальнені баєсові оцінки

Шаблон:Докладніше1

Апріорний розподіл p досі вважався правильним розподілом ймовірності, в тому сенсі, що

p(θ)dθ=1.

Проте іноді це може бути обмежувальною вимогою. Наприклад, не існує розподілу (що покриває множину R усіх дійсних чисел), для якого будь-яке дійсне число є однаково ймовірним. Ще, у певному сенсі, такий «розподіл» виглядає як природний вибір неінформативного апріорного, тобто такий апріорний розподіл, що не віддає переваги жодному конкретному значенню невідомого параметра. Все ще можна визначити функцію p(θ)=1, але вона вже не буде коректним апріорним розподілом ймовірності, оскільки вона має нескінченну масу,

p(θ)dθ=.

Такі міри p(θ), що не є розподілами ймовірності, називаються некоректними апріорними.

Використання некоректного апріорного означає, що баєсів ризик є невизначеним (оскільки апріорне не є розподілом ймовірності, й ми не можемо взяти його математичне сподівання). Як наслідок, вже немає сенсу говорити про баєсову оцінку, що мінімізує баєсів ризик. Тим не менш, у багатьох випадках можна визначити апостеріорний розподіл

p(θ|x)=p(x|θ)p(θ)p(x|θ)p(θ)dθ.

Це є визначенням, але не застосуванням теореми Баєса, оскільки теорему Баєса можна застосовувати лише якщо всі розподіли є коректними. Проте для результатного «апостеріорного» не є незвичним бути чинним розподілом ймовірності. В такому випадку апостеріорні очікувані втрати

L(θ,a)p(θ|x)dθ

є добре визначеними та скінченними. Нагадаймо, що для коректного апріорного баєсова оцінка мінімізує апостеріорні очікувані втрати. Коли апріорне є некоректним, оцінка, що мінімізує апостеріорні очікувані втрати, називається узага́льненою ба́єсовою оці́нкою.Шаблон:Sfn

Приклад

Типовим прикладом є оцінювання коефіцієнту зсуву з функцією втрат типу L(aθ). Тут θ є коефіцієнтом зсуву, тобто p(x|θ)=f(xθ).

В такому випадку є звичним застосовувати некоректне апріорне p(θ)=1, особливо якщо ніякої іншої суб'єктивнішої інформації немає в наявності. Це дає

p(θ|x)=p(x|θ)p(θ)p(x)=f(xθ)p(x)

таким чином, апостеріорні очікувані втрати дорівнюють

E[L(aθ)|x]=L(aθ)p(θ|x)dθ=1p(x)L(aθ)f(xθ)dθ.

Узагальнена баєсова оцінка є значенням a(x), що мінімізує цей вираз для заданого x. Це є еквівалентним мінімізації

L(aθ)f(xθ)dθ для заданого x.        (1)

В цьому випадку може бути показано, що узагальнений баєсів оцінювач може мати вигляд x+a0, для деякої сталої a0. Щоби побачити це, нехай a0 буде значенням, що мінімізує (1), коли x=0. Тоді, маючи інше значення x1, ми мусимо мінімізувати

L(aθ)f(x1θ)dθ=L(ax1θ)f(θ)dθ.        (2)

Це є ідентичним до (1), крім того, що a було замінено на ax1. Отже, вираз, що мінімізується, задається як ax1=a0, тому оптимальна оцінка має вигляд

a(x)=a0+x.

Емпіричні баєсові оцінки

Шаблон:Докладніше1

Баєсова оцінка, виведена Шаблон:Не перекладено, називається емпіри́чною ба́єсовою оці́нкою. Емпіричний баєсів метод дозволяє при побудові баєсової оцінки використовувати додаткові емпіричні дані зі спостережень пов'язаних параметрів. Це робиться із припущення, що оцінювані параметри отримуються зі спільного апріорного. Наприклад, якщо виконуються незалежні спостереження різних параметрів, то продуктивність оцінки певного параметру іноді може бути покращено за рахунок використання даних з інших спостережень.

Існують Шаблон:Не перекладено та Шаблон:Не перекладено підходи до емпіричної баєсової оцінки. Параметричному емпіричному Баєсові зазвичай віддається перевага, оскільки він є застосовнішим та точнішим на малих об'ємах даних.Шаблон:Sfn

Приклад

Далі наведено простий приклад параметричної емпіричної баєсової оцінки. При заданих спостереженнях x1,,xn, що мають умовний розподіл f(xi|θi), потрібно оцінити θn+1 на базі xn+1. Припустімо, що θi мають спільне апріорне π, що залежить від невідомих параметрів. Наприклад, нехай π є нормальним розподілом із невідомим середнім значенням μπ та дисперсією σπ. Тоді ми можемо використовувати минулі спостереження для визначення середнього значення та дисперсії π наступним чином.

Спочатку ми оцінюємо середнє значення μm та дисперсію σm відособленого розподілу x1,,xn за допомогою підходу максимальної правдоподібності:

μ^m=1nxi,
σ^m2=1n(xiμ^m)2.

Далі ми використовуємо відношення

μm=Eπ[μf(θ)],
σm2=Eπ[σf2(θ)]+Eπ[μf(θ)μm],

де μf(θ) та σf(θ) є моментами умовного розподілу f(xi|θi), що вважаються відомими. Зокрема, припустімо, що μf(θ)=θ та σf2(θ)=K; тоді ми отримуємо

μπ=μm,
σπ2=σm2σf2=σm2K.

Нарешті, ми отримуємо оцінені моменти апріорного,

μ^π=μ^m,
σ^π2=σ^m2K.

Наприклад, якщо xi|θiN(θi,1), і якщо ми розглядаємо нормальне апріорне (що є спряженим апріорним у даному випадку), ми доходимо висновку, що θn+1N(μ^π,σ^π2), з чого може бути обчислено баєсову оцінку θn+1 на базі xn+1.

Властивості

Прийнятність

Шаблон:Докладніше1

Правила Баєса, що мають скінченний баєсів ризик, зазвичай є Шаблон:Не перекладено. Далі наведено деякі конкретні приклади теорем прийнятності.

  • Якщо баєсове правило є унікальним, то воно є прийнятним.Шаблон:Sfn Наприклад, як зазначено вище, за середньоквадратичної похибки (СКП) правило Баєса є унікальним, а відтак і прийнятним.
  • Якщо θ належить до дискретної множини, то всі правила Баєса є прийнятними.
  • Якщо θ належить до неперервної (не дискретної) множини, і якщо функція ризику R(θ,δ) є неперервною за θ для будь-якого δ, то всі правила Баєса є прийнятними.

На противагу до цього, узагальнені правила Баєса часто мають невизначений баєсів ризик у випадку некоректних апріорних. Ці правила часто є неприйнятними, і перевірка їхньої прийнятності може бути складною. Наприклад, узагальнена баєсова оцінка коефіцієнту зсуву θ на базі ґаусових вибірок (описаних у розділі Узагальнені баєсові оцінки вище) є неприйнятною для p>2; це є відомим як Шаблон:Не перекладено.

Асимптотична ефективність

Нехай θ буде невідомою випадковою змінною, та припустімо, що x1,x2, є незалежними однаково розподіленими пробами з густиною f(xi|θ). Нехай δn=δn(x1,,xn) буде послідовністю баєсових оцінок θ на базі збільшуваного числа вимірювань. Нас цікавить аналіз асимптотичної продуктивності цієї послідовності оцінок, тобто продуктивність δn для великих n.

Для цього прийнято вважати θ детермінованим параметром, чиїм справжнім значенням є θ0. За особливих умов,Шаблон:Sfn для великих вибірок (великих значень n), апостеріорна густина θ є приблизно нормальною. Іншими словами, для великих n вплив апріорної ймовірності на апостеріорну є незначним. Більше того, якщо δ є баєсовою оцінкою за ризику СКП, то вона є асимптотично незміщеною та збігається за розподілом до нормального розподілу:

n(δnθ0)N(0,1I(θ0)),

де I0) є інформацією за Фішером θ0. Звідси випливає, що баєсова оцінка δn за СКП є Шаблон:Не перекладено.

Іншою оцінкою, що є асимптотично нормальною та ефективною, є оцінка максимальної правдоподібності (ОМП, Шаблон:Lang-en). Відношення між максимальною правдоподібністю та баєсовими оцінками можна показати на наступному простому прикладі.

Розгляньмо оцінку θ на базі біноміальної вибірки x~b(θ,n), де θ позначає ймовірність успіху. За припущення, що θ розподілене згідно спряженого апріорного, що в даному випадку є бета-розподілом B(a,b), відомо, що апріорним розподілом є B(a+x, b+n-x). Отже, баєсовою оцінкою за СКП є

δn(x)=E[θ|x]=a+xa+b+n.

ОМП у даному випадку є x/n, і тому ми отримуємо

δn(x)=a+ba+b+nE[θ]+na+b+nδMLE.

Крайнє рівняння означає, що для n → ∞ баєсова оцінка (в описаній задачі) є близькою до ОМП.

З іншого боку, коли n є малим, апріорна інформація залишається доречною для задачі ухвалення рішення, і впливає на оцінку. Щоби побачити відносну вагу апріорної інформації, припустімо, що a=b; в такому випадку кожне вимірювання привносить 1 біт інформації; формула вище показує, що апостеріорна інформація має таку саму вагу, як a+b бітів нової інформації. На практиці про дрібні деталі апріорного розподілу часто відомо дуже мало; зокрема, нема резону припускати, що він збігається з B(a,b) точно. В такому разі однією з можливих інтерпретацій цього обчислення є: «існує не патологічний апріорний розподіл із середнім значенням 0.5 та стандартним відхиленням d, що дає вагу апріорної інформації, рівну 1/(4d2)-1 бітам нової інформації».

Іншим прикладом того ж явища є випадок, коли апріорна оцінка та вимірювання мають нормальні розподіли. Якщо апріорне відцентровано на B з відхиленням Σ, а вимірювання відцентровано на b із відхиленням σ, то апостеріорне відцентровано на αα+βB+βα+βb, з вагами у цій зваженій сумі, що є α=σ², β=Σ². Більше того, квадратичним апостеріорним відхиленням є Σ²+σ². Іншими словами, апріорне поєднується з вимірюванням в точності таким же чином, як ніби воно є додатковим вимірюванням, що треба врахувати.

Наприклад, якщо Σ=σ/2, то відхилення поєднаних разом 4 вимірювань відповідає відхиленню апріорного (за припущення, що похибки вимірювань є незалежними). А ваги α,β у формулі апостеріорного відповідають такому: вага апріорного складає 4 ваги вимірювання. Поєднання цього апріорного з n вимірюваннями із середнім v призводить до апостеріорного, відцентрованого у 44+nV+n4+nv; зокрема, це апріорне відіграє таку ж роль, як і 4 вимірювання, зроблені завчасно. У загальному випадку апріорне має вагу (σ/Σ)² вимірювань.

Порівняйте це із прикладом біноміального розподілу: там апріорне має вагу (σ/Σ)²−1 вимірювань. Видно, що точна вага дійсно залежить від деталей розподілу, але при σ≫Σ відмінність стає малою.

Практичний приклад баєсових оцінок

Internet Movie Database використовує формулу для обчислення та порівняння рейтингів фільмів її користувачами, включно з їхніми 250 найрейтинговішими фільмами, що претендує на надання «справжньої баєсової оцінки».[2] Початково для обчислення зваженого середнього балу найкращих 250 фільмів використовувалася наступна формула, хоча її відтоді було змінено:

W=Rv+Cmv+m 

де:

W  = зважений рейтинг
R  = зважений рейтинг фільму як число від 1 до 10 (середній) = (Шаблон:Lang-en)
v  = кількість голосів за фільм = (Шаблон:Lang-en)
m  = вага, надана апріорній оцінці (що базується на розподілі середніх рейтингів серед усього фонду фільмів)
C  = середній голос серед усього фонду (наразі 7.0)

Зауважте, що W є просто зваженим арифметичним середнім R та C з вектором ваг (v, m). Із переважанням кількості вимірів над m довіра до середнього рейтингу переважає довіру до апріорного знання, і зважений баєсів рейтинг (W) наближається до простого середнього (R). Що ближчим є v (кількість оцінок фільму) до нуля, то ближчим стає W до C, де W є зваженим рейтингом, а C є середнім рейтингом по всіх фільмах. Отже, простішими термінами, фільми із дуже нечисленними оцінками/голосами матимуть рейтинг, зважений в бік середнього по всіх фільмах, в той час як фільми з багатьма оцінками/голосами матимуть рейтинг, зважений в бік їхніх середніх оцінок.

Підхід IMDb гарантує, що фільм із лише декількома сотнями оцінок, всі по 10, не займе місце вище «Хрещеного батька», наприклад, із середнім 9.2 з понад 500 000 оцінок.

Див. також

Примітки

Шаблон:Примітки

Джерела

Посилання

Шаблон:Статистика