Вибірка за значимістю

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

У статистиці вибірка за значимістю є загальною технікою для оцінки властивостей конкретного розподілу, при цьому вибірки створюються лише з розподілу, відмінного від того, що досліджується. Метод був вперше введений Шаблон:Не перекладено і Шаблон:Не перекладено у 1978 році[1] і пов'язаний з Шаблон:Не перекладено в обчислювальній фізиці. Залежно від застосування, термін може стосуватися процесу вибірки з цього альтернативного розподілу, процесу висновку або обох.

Основна теорія

Нехай X:Ω є випадковою величиною в деякому ймовірнісному просторі (Ω,,P). Ми хочемо оцінити математичне очікування X розподілу P, позначимо його, як E[X;P]. Якщо ми маємо статистично незалежні випадкові вибірки x1,,xn, породжені відповідно до P, то емпірична оцінка E [X;P] є

𝐄^n[X;P]=1ni=1nxi

і точність цієї оцінки буде залежати від дисперсії X:

var[𝐄^n;P]=var[X;P]n.

Основною ідею вибірки за значимістю є вибір станів з іншого розподілу задля зменшення дисперсії оцінки E[X;P], або коли взяття проб з P є складним. Це досягається шляхом попереднього підбору такої випадкової змінної L0, щоб E [L;P] = 1 і P-майже скрізь L(ω)0. За допомогою змінної L ми визначаємо ймовірність P(L) що задовольняє наступному рівнянню:

𝐄[X;P]=𝐄[XL;P(L)].

Таким чином, змінна X/L буде підбиратися під P(L) для оцінки E[X;P], як зазначено вище, і ця оцінка покращується, коли var[XL;P(L)]<var[X;P].

Коли X має постійний знак над Ω, очевидно, що найкращою змінною L буде L*=X𝐄[X;P]0, так що X/L* є шуканою константою E [X;P], і для визначення її значення достатньо однієї вибірки P(L*). На жаль, так робити неможна, тому що E[X;P] — це саме те значення, яке ми шукаємо! Однак цей теоретичний найкращий випадок L* дає нам уявлення про вибірку за значимістю:

a,P(L*)(X[a;a+da])=ω{X[a;a+da]}X(ω)E[X;P]dP(ω)=1E[X;P]aP(X[a;a+da])

направо, aP(X[a;a+da]) є одним із нескінченно малих елементів, які підсумовують до E[X;P]:

E[X;P]=a=+aP(X[a;a+da])

отже, хороша зміна ймовірності P(L) у вибірці за значимістю перерозподілить закон X так, що частоти його вибірок будуть відсортовані безпосередньо відповідно до їх ваги в E[X;P]. Звідси назва «вибірка за значимістю».

Вибірка за значимістю часто використовується як Шаблон:Не перекладено. Коли P — рівномірний розподіл і Ω=, E[X;P] відповідає інтегралу від дійсної функції X:.

Застосування до ймовірнісного висновку

Такі методи часто використовуються для оцінки апостеріорних густин або очікувань у завданнях оцінки стану та/або параметрів у імовірнісних моделях, які занадто важко обробляти аналітично, наприклад, у байєсівських мережах.

Застосування до моделювання

Вибірка за значимістю — це метод Шаблон:Не перекладено, який можна використовувати в методі Монте-Карло. Ідея вибірки за значимістю полягає в тому, що певні значення вхідних випадкових величин у симуляції мають більший вплив на оцінюваний параметр ніж інші. Якщо ці «важливі» значення підкреслюються шляхом вибірки частіше, то дисперсію оцінки можна зменшити. Отже, основна методологія вибірки за значимістю полягає у виборі розподілу, який «заохочує» важливі значення. Таке використання «зміщених» розподілів призведе до зміщеної оцінки, якщо її застосовувати безпосередньо під час моделювання. Однак результати моделювання зважуються, щоб виправити використання зміщеного розподілу, і це гарантує, що нова оцінка вибірки за значимістю є незміщеною. Вага визначається коефіцієнтом правдоподібності, тобто похідною Радона–Нікодима від справжнього основного розподілу щодо розподілу зміщеного моделювання.

Фундаментальною проблемою в реалізації моделювання вибірки за значимістю є вибір зміщеного розподілу, який стимулює важливі області вхідних змінних. Вибір або проектування хорошого зміщеного розподілу — це «мистецтво» вибірки за значимістю. Нагородою за вибір підходящого розподілу може бути величезна економія часу виконання; покаранням за вибір поганого розподілу може бути більш тривалий час виконання, ніж для загального моделювання Монте-Карло без застосування вибірки за значимістю.

Нехай X є вибіркою і f(X)g(X) є коефіцієнтом ймовірності, де f — функція густини ймовірності (маси) шуканого розподілу і g є функцією густини ймовірності (маси) зміщеного розподілу. Тоді задачу можна охарактеризувати, обравши розподіл вибірки g, що мінімізує дисперсію масштабованої вибірки:

g*=mingvarg(Xf(X)g(X)).

Можна показати, що такий розподіл мінімізує вищезгадану дисперсію:[2]

g*(X)=|X|f(X)|x|f(x)dx.

Зверніть увагу, що коли X0, ця дисперсія стає 0.

Математичний підхід

Розглянемо оцінку ймовірності шляхом моделювання pt події Xt, де X є випадковою величиною з розподілом F і функцією густини ймовірності f(x)=F(x). Незалежна однаково розподілена (i.i.d) послідовність Xi довжини K генерується з розподілу F, та підраховується число kt випадкових величин, які лежать вище порога t. Випадкова величина kt характеризується біноміальним розподілом

P(kt=k)=(Kk)ptk(1pt)Kk,k=0,1,,K.

Це демонструє, що E[kt/K]=pt і var[kt/K]=pt(1pt)/K, тож у межі K ми можемо отримати pt. Зауважимо, що дисперсія є малою, якщо pt1. Вибірка за значимістю пов'язана з визначенням і використанням альтернативної функції щільності f* (для X), що зазвичай називають густиною зміщення для імітаційного експерименту. Ця щільність дозволяє події Xt  зустрічатися частіше, тому довжина послідовності K зменшується для даної дисперсії оцінки. Як варіант, для даного Kвикористання густини зміщення призводить до меншої дисперсії в порівнянні зі звичайною оцінкою Монте-Карло. Використовуючи визначення pt, ми можемо представити f* наступним чином:

pt=E[1(Xt)]=1(xt)f(x)f*(x)f*(x)dx=E*[1(Xt)W(X)]

де

W()f()f*()

є коефіцієнтом правдоподібності і називається ваговою функцією. Остання рівність у наведеному вище рівнянні мотивує оцінювача

p^t=1Ki=1K1(Xit)W(Xi),Xif*

Це рівняння є незміщеною оцінкою вибірки за значимістю pt. Тобто процедура оцінки полягає у створенні i.i.d вибірок з f* і для кожної вибірки, що перевищує t, оцінка збільшується на вагу W, оцінену за значенням вибірки. Результати усереднюються за K випробуваннями. Легко показати, що дисперсія оцінки вибірки за значимістю є

var*p^t=1Kvar*[1(Xt)W(X)]=1K{E*[1(Xt)2W2(X)]pt2}=1K{E[1(Xt)W(X)]pt2}

Тепер проблема застосування вибірки за значимістю зосереджується на пошуку густини зміщення f* таким чином, щоб дисперсія оцінки вибірки за значимістю була меншою за дисперсію загальної оцінки Монте-Карло. Деяка функція густини зміщення, що мінімізує дисперсію, а за певних умов зводить її до нуля, називаюється оптимальною функцією густини зміщення.

Загальноприйняті методи зміщення

Хоча існує багато видів методів зміщення, наступні два методи є найбільш широко використовуваними при застосуванні вибірки за значимістю.

Масштабування

Перенесення маси ймовірності в область події Xt  шляхом додатнього масштабування випадкової величини X з числом, більшим за одиницю, призводить до збільшення дисперсії (також середнього) функції густини. Як наслідок, збільшується хвіст щільності, результатом чого є збільшення ймовірності події. Масштабування, ймовірно, є одним з найперших відомих методів зміщення, який широко використовується на практиці. Він простий у реалізації і зазвичай забезпечує консервативні переваги моделювання порівняно з іншими методами.

У вибірці за значимістю шляхом масштабування щільність моделювання вибирається як функція густини масштабованої випадкової величини aX, де зазвичай a>1 для оцінки ймовірності хвоста шляхом перетворення,

f*(x)=1af(xa)

і вагова функція є

W(x)=af(x)f(x/a)

У той час як масштабування зміщує масу ймовірності в бажану область події, воно також штовхає масу в комплементарну область X<t , що є небажаним. Якщо X є сумою n випадкові величини, розповсюдження маси відбувається в n розмірний простір. Наслідком цього є зменшення значення приросту вибірки для збільшення n, і називається ефектом розмірності. Сучасною версією вибірки за значимістю шляхом масштабування є, наприклад, так звана сигма-масштабована вибірка (SSS), яка виконує множинний аналіз Монте-Карло (MC) з різними коефіцієнтами масштабування. На відміну від багатьох інших методів оцінки високої продуктивності (наприклад, відстаней у гіршому випадку (WCD)), SSS не сильно страждає від проблеми розмірності. Крім того, звернення до кількох виходів MC не призводить до зниження ефективності. З іншого боку, як WCD, SSS призначений лише для гаусових статистичних змінних, і на відміну від WCD, метод SSS не призначений для надання точних статистичних кутів. Іншим недоліком SSS є те, що робота MC з великомасштабними факторами може стати складною, наприклад, через проблеми зближення моделі та симулятора. Крім того, у SSS ми стикаємося з сильним компромісом зміщення та дисперсії: використовуючи великі масштабні коефіцієнти, ми отримуємо досить стабільні вихідні результати, але чим більш масштабні коефіцієнти, тим більша похибка зміщення. Якщо переваги SSS не мають великого значення, то інші методи є більш ефективними.

Трансляція

Інший простий і ефективний метод зміщення використовує трансляцію функції густини (і, отже, випадкової величини), щоб помістити більшу частину її ймовірної маси в область рідкісних подій. Трансляція не страждає від ефекту розмірності і успішно використовується в кількох програмах, пов'язаних із моделюванням цифрових комунікаційних систем. Вона часто забезпечує кращий приріст симуляції, ніж масштабування. При зміщенні за допомогою трансляції густина моделювання визначається як

f*(x)=f(xc),c>0

де c є величиною зсуву і має бути обрана для мінімізації дисперсії оцінки вибірки за значимістю.

Ефекти складності системи

Фундаментальна проблема застосування вибірки за значимістю полягає в тому, що розробка хороших зміщених розподілів стає складнішою зі збільшенням складності системи. Складні системи — це системи з довгою пам'яттю, оскільки комплексна обробка кількох входів проводиться набагато легше. Ця розмірність або пам'ять може викликати проблеми трьох видів:

В принципі, ідеї вибірки за значимістю залишається незмінною в цих ситуаціях, але дизайн стає набагато складнішим. Успішний підхід до боротьби з цією проблемою, по суті, полягає в розбитті моделювання на кілька менших, більш чітко визначених підпроблем. Потім стратегії вибірки за значимістю використовуються для націлювання на кожну з простіших підпроблем. Прикладами методів розбиття моделювання є моделювання кондиціонування та помилки-події (EES) та регенеративного моделювання.

Оцінка вибірки за значимістю

Щоб визначити успішні методи вибірки за значимістю, корисно мати можливість кількісно оцінити економію під час виконання за рахунок використання цього підходу. Зазвичай використовується показник продуктивності σMC2/σIS2, і це можна інтерпретувати як коефіцієнт прискорення, за допомогою якого оцінка вибірки за значимістю досягає такої ж точності, що й оцінка MC. Це має бути обчислено емпіричним шляхом, оскільки дисперсія оцінки навряд чи буде аналітично можлива, коли їх середнє значення нерозбірне. Іншими корисними поняттями для кількісної оцінки вибірки за значимістю є межі дисперсії та поняття асимптотичної ефективності. Одним із відповідних показників є так званий ефективний розмір вибірки (ESS).[3]

Функція дисперсійних втрат

Дисперсія не є єдиною можливою функцією втрат для моделювання, а інші функції втрат, такі як середнє абсолютне відхилення, використовуються в різних статистичних програмах. Тим не менш, дисперсія є основною функцією втрат, яка розглядається в літературі, ймовірно, через використання дисперсії в довірчих інтервалах і в показнику ефективності σMC2/σIS2.

Супутнім питанням є той факт, що співвідношення σMC2/σIS2 переоцінює економію часу виконання через вибірку за значимістю, оскільки не включає додатковий обчислювальний час, необхідний для підрахування вагової функції. Отже, деякі люди оцінюють чисте покращення часу виконання різними способами. Можливо, більш серйозними витратами на вибірку за значимістю є час, необхідний для розробки та програмування техніки та аналітичного виведення бажаної вагової функції.

Багаторазова та адаптивна вибірка за значимістю

Коли різні допоміжні розподіли, gn(x), n=1,,N, спільно використовуються для опису вибірок x1,,xN, можна використовувати різні відповідні вагові функції (наприклад, див.[4][5][6][7]). В адаптивному налаштуванні допоміжні розподіли, gn,t(x), n=1,,N, та t=1,,T, оновлюються на кожній ітерації t адаптивного алгоритму вибірки за значимістю. Отже, оскільки використовується сукупність щільностей пропозицій, можна використовувати декілька відповідних комбінацій схем вибірки та зважування.[8][9][10][11][12][13][14]

Див. також

Примітки

Шаблон:Reflist

Посилання

Посилання