Біноміальний розподіл

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Розподіл ймовірностей

Дискретна випадкова величина ξ називається такою, що має біноміальний розподіл, якщо ймовірність набуття нею конкретних значень має вигляд: P(ξ=k)=Cnkpkqnk,k=0,1,...n, де p,n — параметри, що визначають розподіл, p[0,1],q=1p,n.

Позначається (ξ)=Bi(n,p).

Біноміальний розподіл є дискретним розподілом імовірностей із параметрами n і p для кількості успішних результатів, що мають двійкове значення у послідовності із n незалежних експериментів, для кожного з яких ставиться питання "так або ні". Імовірність виникнення успішного результату для кожного випробування задається параметром p, а імовірність виникнення не успішного результату відповідно дорівнюватиме q = 1 − p.

Єдиний успішний чи не успішний експеримент також називають випробуванням Бернуллі або експериментом Бернуллі, а послідовність результатів таких експериментів називаються Шаблон:Нп; для однократного випробування, тобто, при n = 1, біноміальний розподіл є розподілом Бернуллі. Біноміальний розподіл є основою загальновживаної Шаблон:Нп статистичної значущості.

Біноміальний розподіл часто використовують для моделювання кількості успішних експериментів у вибірці розміром в n, де експерименти виконуються із поповненням із сукупності розміром N. Якщо відбір вибірки відбуватиметься без поповнення, тоді такі експерименти не будуть незалежними і їх результатний розподіл буде гіпергеометричним, а не біноміальним. Однак, для випадку, коли N набагато більше за n, біноміальний розподіл використовують, оскільки він залишається добрим наближенням.

Пояснення

В теорії ймовірностей та математичній статистиці, біноміальний розподіл є дискретним ймовірнісним розподілом, що характеризує кількість успіхів в послідовності експериментів, значення яких змінюється за принципом так/ні, кожен з яких набуває успіху з ймовірністю p. Такі так/ні експерименти також називаються експериментами Бернуллі, або схемою Бернуллі, зокрема, якщо n=1 (кількість випробувань), то отримаємо Розподіл Бернуллі.

Означення

Функція імовірностей

У загальному випадку, якщо випадкова величина X відповідає біноміальному розподілу із параметрами n ∈ ℕ і p ∈ [0,1], записують X ~ B(np). Імовірність випадання точно k успішних випадків при n випробуваннях задається наступною функцією маси імовірності:

f(k,n,p)=Pr(k;n,p)=Pr(X=k)=(nk)pk(1p)nk

для k = 0, 1, 2, ..., n, де

(nk)=n!k!(nk)!

це біноміальний коефіцієнт, названий так само як і сам розподіл. Цю формулу можна розуміти таким чином. k успішних випадків виникають із імовірністю pk і n − k не успішних результатів випадають із імовірністю (1 − p)n − k. Однак, k успішних результатів можуть виникнути в будь-який момент серед даних n випробувань, тому існує (nk) різних способів розподілення k успішних випадків у послідовності з n спроб.

При створенні довідникових таблиць для біноміального розподілу, як правило таблицю заповнюють значеннями до n/2. Це тому що для k > n/2, можна розрахувати як імовірність для її доповнення, таким чином

f(k,n,p)=f(nk,n,1p).

Якщо розглядати вираз f(knp) як функцію від k, повинно існувати таке значення k, яке максимізує її. Це значення k можна знайти, якщо розрахувати:

f(k+1,n,p)f(k,n,p)=(nk)p(k+1)(1p)

і прирівняти до 1. Завжди існуватиме ціле число M яке задовольняє умові

(n+1)p1M<(n+1)p.

f(knp) є монотонно зростаючою при k < M і монотонно спадною для k > M, за винятком випадку де (n + 1)p є цілим. В даному випадку, існує два значення в яких f є максимальною: (n + 1)p і (n + 1)p − 1. M є найбільш імовірним результатом із усіх випробувань Бернуллі і називається модою.

Функція розподілу

Кумулятивна функція розподілу можна задати таким чином:

F(k;n,p)=Pr(Xk)=i=0k(ni)pi(1p)ni

де k — найбільше ціле число, яке менше або дорівнює k.

Її також можна задати за допомогою регуляризованої неповної бета-функції, таким чином:[1]

F(k;n,p)=Pr(Xk)=I1p(nk,k+1)=(nk)(nk)01ptnk1(1t)kdt.

Числові характеристики

Зважаючи на співвідношення між біноміальним розподілом і розподілом Бернуллі, наведені нижче, а також на властивості математичного сподівання і дисперсії, можна отримати числові характеристики для біноміального розподілу без громіздких обчислень.

Математичне сподівання

Якщо X ~ B(n, p), така що, X є біноміально-розподіленою випадковою величиною для якої, n - загальна кількість експериментів, а p це імовірність що кожен експеримент призведе до успішного результату, тоді математичне сподівання для X дорівнюватиме:[2]

E[X]=np.

Наприклад, якщо n = 100, а p = 1/4, тоді середньою кількістю успішних випробувань буде 25.

Доведення: Розрахуємо середнє, μ, прямим способом виходячи із його визначення

μ=i=0nxipi,

і з теореми про біном Ньютона:

μ=k=0nk(nk)pk(1p)nk=npk=0nk(n1)!(nk)!k!pk1(1p)(n1)(k1)=npk=1n(n1)!((n1)(k1))!(k1)!pk1(1p)(n1)(k1)=npk=1n(n1k1)pk1(1p)(n1)(k1)=np=0n1(n1)p(1p)(n1)із :=k1=np=0m(m)p(1p)mіз m:=n1=np(p+(1p))m=np

Середнє також можна вивести із рівняння X=X1++Xn де всі Xi є випадковими величинами із розподілом Бернуллі із E[Xi]=p (Xi=1 якщо i-ий експеримент є успішним і Xi=0 навпаки). Отримаємо: E[X]=E[X1++Xn]=E[X1]++E[Xn]=p++pn times=np

Дисперсія

дисперсія біноміально-розподіленої випадкової величини:

D(X)=np(1p).

Доведення: Нехай X=X1++Xn де всі Xi є незалежними випадковими величинами із розподілом Бернуллі. Оскільки D(Xi)=p(1p), отримаємо:

D(X)=D(X1++Xn)=D(X1)++D(Xn)=nD(X1)=np(1p).

Мода

Як правило мода біноміального розподілу B(n, p) дорівнює (n+1)p, де позначає функцію округлення до найбільшого цілого числа, яке менше або дорівнює (тобто найближчого цілого числа, яке менше або дорівнює заданому числу. Однак, коли (n + 1)p є цілим, а p не є не 0 ні 1, тоді розподіл має дві моди: (n + 1)p і (n + 1)p − 1. Коли p дорівнює 0 або 1, тоді мода дорівнюватиме 0 і n відповідно. Ці випадки можна узагальнити таким чином:

Мода={(n+1)p, якщо (n+1)p дорівнює 0 або не є цілим,(n+1)p  і  (n+1)p1, якщо (n+1)p{1,,n},n, якщо (n+1)p=n+1.

Доведення: Нехай

f(k)=(nk)pkqnk.

Для p=0 лише f(0) матиме не нульове значення f(0)=1. Для p=1 маємо, що f(n)=1 і f(k)=0 для kn. Це доводить, що мода дорівнює 0 для p=0 і n для p=1.

Нехай 0<p<1. Знайдемо, що

f(k+1)f(k)=(nk)p(k+1)(1p).

З цього випливає

k>(n+1)p1f(k+1)<f(k)k=(n+1)p1f(k+1)=f(k)k<(n+1)p1f(k+1)>f(k)

Тож коли (n+1)p1 є цілим, тоді (n+1)p1 і (n+1)p є модою. У випадку, коли (n+1)p1, тоді модою буде лише (n+1)p1+1=(n+1)p.[3]

Медіана

Загалом, не існує єдиної формули для знаходження медіани біноміального розподілу, крім того вона може бути не унікальною. Однак існує декілька результатів для особливих випадків:

  • Якщо np ціле число, тоді середнє, медіана і мода збігаються між собою і дорівнюють np.[4][5]
  • Будь-яка медіана m обов'язково знаходиться в середині інтервалу ⌊np⌋ ≤ m ≤ ⌈np⌉.[6]
  • Медіана m не може знаходитися далеко від середнього: Шаблон:Nowrap}.[7]
  • Медіана буде єдиною і дорівнюватиме m = округлене(np) якщо |m − np| ≤ min{p, 1 − p} (крім випадку, коли p = Шаблон:Sfrac та n є непарними).[6]
  • Якщо p = 1/2 та n непарні, будь-яке число m у інтервалі Шаблон:Sfrac(n − 1) ≤ m ≤ Шаблон:Sfrac(n + 1) є медіаною біноміального розподілу. Якщо p = 1/2 і n парні, тоді m = n/2 є єдиною медіаною.

Коваріація між двома біноміальними розподілами

Якщо одночасно спостерігалися дві біноміально розподілені випадкові величини X і Y, може бути корисним визначити їх коваріацію. Коваріація це

Cov(X,Y)=E(XY)μXμY.

У випадку коли n = 1 (у випадку із схемою випробувань Бернуллі) XY не нульове лише коли обидві X і Y є одиницею, а μX і μY дорівнюють двом імовірностям. Якщо визначити pB як імовірність виникнення обох подій одночасно, отримаємо

Cov(X,Y)=pBpXpY,

і для n незалежних попарних випробувань

Cov(X,Y)n=n(pBpXpY).

Якщо X і Y є однією і тією ж випадковою величиною, цей вираз спрощується до виразу визначення дисперсії, який наведено вище в цій статті.

Зв'язок з іншими розподілами

Нехай незалежні випадкові величини ξ1,ξ2,...,ξn мають розподіл Бернуллі з параметром p, тобто (ξi)=B(p),i=1,n, тоді випадкова величина ξ=i=1nξi має біноміальний розподіл з параметрами p, n, тобто (ξ)=Bi(n,p).

Сума біноміально-розподілених величин

Якщо X ~ B(np) і Y ~ B(mp) є незалежними випадковими величинами із біноміальним розподілом із однаковою ймовірністю p, тоді X + Y також буде біноміально-розподіленою величиною, і її розподілом буде Z=X+Y ~ B(n+mp):

P(Z=k)=i=0k[(ni)pi(1p)ni][(mki)pki(1p)mk+i]=(n+mk)pk(1p)n+mk

Однак, якщо X і Y не мають однакової імовірності p, тоді дисперсія суми величин буде меншою за дисперсію випадкової величини із біноміальним розподілом вигляду B(n+m,p¯).

Відношення двох біноміальних розподілів

Нехай p1 і p2 це імовірності успішного випробування у біноміальних розподілах B(X,n) і B(Y,m) відповідно. Нехай T = (X/n)/(Y/m).

Тоді log(T) є наближено нормально розподіленою величиною із середнім log(p1/p2) і дисперсією ((1/p1) - 1)/n + ((1/p2) - 1)/m.[8]

Умовні біноміальні величини

Якщо є X ~ B(np) і, при X існує деяка умовна величина Y ~ B(Xq), тоді Y є простою біноміальною величиною із розподілом Y ~ B(npq).

Наприклад, уявімо, що хтось кидає n м'ячів у кошик UX і виймає ті м'ячі, які успішно потрапили у кошик та кладе їх у інший кошик UY. Якщо p означає імовірність влучити в UX тоді X ~ B(np) це кількість м'ячів, які влучили у UX. Якщо q це імовірність потрапити у UY тоді кількістю м'ячів, які потраплять у UY буде Y ~ B(Xq) і таким чином Y ~ B(npq).

Шаблон:Hidden begin Оскільки XB(n,p) і YB(X,q), за формулою повної імовірності,

Pr[Y=m]=k=mnPr[Y=mX=k]Pr[X=k]=k=mn(nk)(km)pkqm(1p)nk(1q)km

Оскільки (nk)(km)=(nm)(nmkm),, то вищенаведене рівняння можна записати в такій формі

Pr[Y=m]=k=mn(nm)(nmkm)pkqm(1p)nk(1q)km

Розбивши на множники pk=pmpkm і виділивши всі множники, які не залежать від k суму можна звести до такого:

Pr[Y=m]=(nm)pmqm(k=mn(nmkm)pkm(1p)nk(1q)km)=(nm)(pq)m(k=mn(nmkm)(p(1q))km(1p)nk)

Замінивши i=km у вищенаведеному виразі, отримаємо

Pr[Y=m]=(nm)(pq)m(i=0nm(nmi)(ppq)i(1p)nmi)

Помітимо, що вищенаведена сума (у дужках) дорівнює (ppq+1p)nm відповідно до теореми про біном Ньютона. Підставивши це у вираз, зрештою отримаємо

Pr[Y=m]=(nm)(pq)m(ppq+1p)nm=(nm)(pq)m(1pq)nm

і таким чином YB(n,pq), що і треба було довести. Шаблон:Hidden end

Розподіл Бернуллі

Розподіл Бернуллі є особливим випадком біноміального розподілу, де n = 1. Символічно, X ~ B(1, p) має однакове середнє як і X ~ B(p). І навпаки, будь-який біноміальний розподіл, B(np), є розподілом суми із n випробувань Бернуллі, B(p), кожне з яких має однакову імовірність p.[9]

Нормальне наближення

Біноміальна функція маси імовірності і апроксимація функції густини імовірностей нормального розподілу для n = 6 і p = 0.5

Якщо n є досить великим, тоді зсув біноміального розподілу не буде дуже великим. В такому випадку нормальний розподіл може бути виправданим наближенням для B(np).

𝒩(np,np(1p)),

а це базове наближення можна покращити використавши вдалу Шаблон:Нп. Базове наближення значно стає кращим при збільшенні n (принаймні більше ніж 20) і буде кращим, коли p не є близькою до 0 або 1.[10] Можуть використовуватися різні емпіричні правила, які визначають чи є n достатньо великою, а значення p є досить далеким від крайніх значень нуля або одиниці:

  • Одне із правил[10] говорить, що для Шаблон:Nowrap нормальне наближення буде адекватним, якщо абсолютне значення зсуву є строго меншим ніж 1/3; тобто, якщо
|12p|np(1p)=1n|1ppp1p|<13.
  • Більш посилене правило говорить, що нормальна апроксимація буде прийнятною лише якщо всі можливі значення знаходяться в межах 3 стандартних відхилень від середнього значення; тобто, лише якщо
μ±3σ=np±3np(1p)(0,n).
Це правило про 3-стандартні відхилення буде еквівалентне наступним наведеним умовам, які також зумовлюють виконання і першого правила, описаного вище.
n>91ppіn>9p1p.

Шаблон:Hidden begin Правило np±3np(1p)(0,n) є повністю еквівалентним вимозі, що

np3np(1p)>0іnp+3np(1p)<n.

Якщо переставити множники отримаємо:

np>3np(1p)іn(1p)>3np(1p).

Оскільки 0<p<1, ми можемо піднести вирази у квадрат і поділити на відповідні множники np2 та n(1p)2, і отримаємо бажані умови:

n>91ppіn>9p1p.

Зауважимо, що ці умови автоматично означають, що n>9. З іншого боку, знову застосувавши квадратний корінь до нерівностей і поділивши на 3,

n3>1pp>0іn3>p1p>0.

Віднявши другий набір нерівностей із першого, отримаємо:

n3>1ppp1p>n3;

тож, необхідне перше правило буде виконуватися,

|1ppp1p|<n3.

Шаблон:Hidden end

  • Іншим загальновживаним правилом є те, що обидва значення np і n(1p) мають бути більшими або дорівнювати 5. Однак, конкретне значення цього числа зустрічається різним в різних джерелах, і залежить від того наскільки хорошим має бути наближення. Зокрема, якщо використати значення 9 замість наведеного 5, правило призводить до результатів, що отримані в попередній частині розділу.

Шаблон:Hidden begin Припустимо, що обидва значення np і n(1p) є більшими за число 9. Оскільки 0<p<1, ми можемо стверджувати, що

np9>9(1p)іn(1p)9>9p.

Тепер необхідно лише поділити це на відповідні множники p і 1p, аби вивести альтернативну форму правила про 3-стандартні відхилення:

n>91ppіn>9p1p.

Шаблон:Hidden end

Наведемо приклад застосування Шаблон:Нп. Припустимо, що необхідно розрахувати Pr(X ≤ 8) для біноміально-розподіленої випадкової величини X. Якщо Y має розподіл заданий у вигляді нормального наближення, тоді Pr(X ≤ 8) можна наблизити за допомогою Pr(Y ≤ 8.5). Додавання 0.5 є поправкою неперервності; нормальне наближення без поправки дає менш точний результат.

Це наближення відоме як Локальна теорема Муавра — Лапласа, вона дозволяє значно зекономити час, якщо розрахунки виконуються вручну (точний розрахунок при великих n є дуже обтяжливим); історично, це було першим застосуванням нормального розподілу, яке було представлено у книзі Абрахама де Муавра Шаблон:Нп в 1738. Сьогодні, її можна розглядати як наслідок із центральної граничної теореми оскільки B(np) є сумою із n незалежних, однаково розподілених випадкових величин із розподілом Бернуллі із параметром p. Цей факт є основою для перевірки статистичних гіпотез, "пропорційного z-тесту", для значення p використовуючи розрахунок x/n, що є пропорцією вибірки і оцінкою для p у загальних статистичних перевірках.[11]

Наприклад, припустимо, що хтось зробив вибірку по n людям із усієї популяції людей і запитав їх чи погоджуються вони з певним твердженням. Частка людей, яка погодиться з висловлюванням очевидно буде залежати від вибірки. Якщо групи із n людей були обрані повторно і дійсно випадковим чином, ця пропорція буде відповідати наближеному нормальному розподілу із середнім, що дорівнює істинному співвідношенню p того що люди погоджуються із твердженням в цій сукупності і матиме стандартне відхилення σ=p(1p)n

Наближення Пуассона

Біноміальний розподіл наближається до Розподілу Пуассона якщо кількість спроб зростає до нескінченності в той час як добуток np залишається незмінним або p прямує до нуля. Тому, розподіл Пуассона із параметром λ = np може використовуватися для наближення біноміального розподілу B(n, p) якщо n має досить велике значення і p значно мала. Відповідно до двох правил, це наближення є добрим, якщо n ≥ 20 і p ≤ 0.05, або якщо n ≥ 100 і np ≤ 10.[12][13]

Граничні розподіли

Xnpnp(1p)
наближається до нормального розподілу із математичним сподіванням 0 і дисперсією 1. Цей результат в не суворій формі іноді формулюють як те, що розподіл величини X буде Шаблон:Нп із математичним сподіванням np і дисперсією np(1 − p). Цей результат є особливим випадком центральної граничної теореми.

Бета-розподіл

Бета-розподіли дозволяють мати сімейство апріорних розподілів імовірностей для біноміальних розподілів при Баєсовому виведенні:[14]

P(p;α,β)=pα1(1p)β1B(α,β).

Див. також

Шаблон:Портал

Джерела

Примітки

Шаблон:Reflist

Шаблон:Список розподілів ймовірності

  1. Шаблон:Cite book
  2. See Proof Wiki Шаблон:Webarchive
  3. See also the answer to the question "finding mode in Binomial distribution"
  4. Шаблон:Cite journal
  5. Lord, Nick. (July 2010). "Binomial averages when the mean is an integer", The Mathematical Gazette 94, 331-332.
  6. 6,0 6,1 Шаблон:Cite journal
  7. Шаблон:Cite journal
  8. Katz D. et al.(1978) Obtaining confidence intervals for the risk ratio in cohort studies. Biometrics 34:469–474
  9. Шаблон:Cite web
  10. 10,0 10,1 Шаблон:Cite book
  11. NIST/SEMATECH, "7.2.4. Does the proportion of defectives meet requirements?" Шаблон:Webarchive e-Handbook of Statistical Methods.
  12. 12,0 12,1 NIST/SEMATECH, "6.3.3.1. Counts Control Charts" Шаблон:Webarchive, e-Handbook of Statistical Methods.
  13. Що стосується точності наближення Пуассона, див Novak S.Y. (2011) Extreme value methods with applications to finance. London: CRC/ Chapman & Hall/Taylor & Francis. Шаблон:ISBN ch. 4, and references therein.
  14. Шаблон:Cite book