Розподіл Парето

Матеріал з testwiki
Версія від 14:51, 27 жовтня 2024, створена imported>Olexa Riznyk (+інформація за Фішером)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

Шаблон:Розподіл ймовірностей

Розподіл Парето в теорії імовірностей — двопараметрична сім'я абсолютно неперервних розподілів. Названий на честь італійського Шаблон:Нп, економіста, і соціолога Вільфредо Парето. Це степеневий розподіл ймовірностей, який використовується для описання соціальних, наукових, геофізичних, актуарних, та багатьох інших типів спостережуваних явищ. Початково застосовувалася для описання Шаблон:Нп серед суспільства, що відповідає тенденції, що велика частина багатства зосереджена в руках невеликої частини населення людей. У розмовній версії розподіл Парето відомий як принцип Парето, або "правило 80—20", а також іноді може називатися "ефектом Матвія". Це правило стверджує що, наприклад, 80% багатства суспільства утримують 20% його населення. Однак, розподіл Парето дає цей результат тільки при певному значенні степеня, α (α = log45 ≈ 1.16). Хоча α є змінною, емпіричні спостереження установили, що розподіл 80-20 відповідає широкому загалу випадків, включаючи природні явища і діяльність людини.

Визначення

Якщо X є випадковою величиною із розподілом Парето (Типу I),[1] тоді імовірність того, що X є більшою за деяке число x, тобто Шаблон:Нп (іноді називається функцією надійності), визначається як

F(x)=Pr(X>x)={(xmx)αxxm,1x<xm,

де xm де (обов'язково додатне) мінімально можливе значення X, та α є додатнім параметром. Розподіл Парето типу I характеризується параметром масштабування xm і параметром форми α. Якщо розподіл використовують для моделювання розподілу багатства, тоді параметр α в даному контексті називають Шаблон:Нп.

Властивості

Кумулятивна функція розподілу

Із визначення, кумулятивною функцією розподілу імовірностей випадкової величини Парето із параметрами α і xm є

FX(x)={1(xmx)αxxm,0x<xm.

Функція густини імовірностей

Звідси випливає (шляхом диференціювання) що функцією густини імовірностей є

fX(x)={αxmαxα+1xxm,0x<xm.

При відображені на графіку, функція густини нагадує вигнуту криву, яка асимптотично наближається до кожної із осей. Всі сегменти кривої є самоподібними (з урахуванням відповідних коефіцієнтів масштабування). При зображенні на логарифмічному графіку, розподіл представляється у вигляді прямої лінії.

Моменти і характеристична функція

E(X)={α1,αxmα1α>1.
D(X)={α(1,2],(xmα1)2αα2α>2.
(Якщо α ≤ 1, дисперсія не існує.)
  • Загальна формула для визначення моментів є наступною:
μn={αn,αxmnαnα>n.
M(t;α,xm)=E[etX]=α(xmt)αΓ(α,xmt)
M(0,α,xm)=1.
φ(t;α,xm)=α(ixmt)αΓ(α,ixmt),
де Γ(ax) є неповною Гамма-функцією.

Умовний розподіл

Умовний розподіл імовірностей випадкової величини із розподілом Парето, задає подію що величина є більшою або рівною у порівнянні із певним числом x1, яке перевищує xm, є розподілом Парето із тим самим індексом Парето α, але із мінімальним x1 замість xm.

Характеристична теорема

Припустимо, що X1,X2,X3, є незалежні однаково розподілені випадкові величини, розподіл імовірностей яких знаходиться в інтервалі supported [xm,) для деякого значення xm>0. Припустимо, що для всіх n, пара випадкових величин min{X1,,Xn} і (X1++Xn)/min{X1,,Xn} є незалежними. Тоді їх спільний розподіл буде розподілом Парето.

Середнє геометричне

Середнє геометричне (G) визначається як:[2]

G=xmexp(1α).

Середнє гармонійне

Середнє гармонійне (H) визначається як:[2]

H=xm(1+1α).

Узагальнений розподіл Парето

Шаблон:See also

Існує ієрархія [1][3] розподілів Парето, що відомі як Парето Тип I, II, III, IV, і розподіл Феллера–Парето.[1][3][4] Парето типу IV включає Парето типів I–III як особливі випадки. Розподіл Феллера–Парето[3][5] узагальнює Парето IV типу.

Парето I–IV типів

Ієрархія розподілів Парето узагальнена у наступній таблиці, яка порівнює Шаблон:Нп (доповнена кумулятивна функція розподілу).

Коли μ = 0, розподіл Парето II типу відомий також як розподіл Ломакса.[6]

В даному розділі, символ xm, що використовується для позначення мінімального значення x, замінено на символ σ.

Розподіли Парето
F(x)=1F(x) Умова Параметри
Тип I [xσ]α xσ σ>0,α
Тип II [1+xμσ]α xμ μ,σ>0,α
Ломакса [1+xσ]α x0 σ>0,α
Тип III [1+(xμσ)1/γ]1 xμ μ,σ,γ>0
Тип IV [1+(xμσ)1/γ]α xμ μ,σ,γ>0,α

Параметр форми позначено як α, μ - положення, σ це масштаб, γ - параметр нерівності. Деякими особливими випадками розподілу Парето IV типу є:

P(IV)(σ,σ,1,α)=P(I)(σ,α),
P(IV)(μ,σ,1,α)=P(II)(μ,σ,α),
P(IV)(μ,σ,γ,1)=P(III)(μ,σ,γ).

Скінченність середнього значення, а також існування і скінченність дисперсії залежить від індексу α (індексу нерівності γ). Зокрема, часткові δ-моменти є скінченними для деяких δ > 0, як показано у таблиці нижче, де δ не обов'язково є цілим числом.

Моменти розподілів Парето I–IV (для випадку μ = 0)
E[X] Умова E[Xδ] Умова
Тип I σαα1 α>1 σδααδ δ<α
Тип II σα1 α>1 σδΓ(αδ)Γ(1+δ)Γ(α) 1<δ<α
Тип III σΓ(1γ)Γ(1+γ) 1<γ<1 σδΓ(1γδ)Γ(1+γδ) γ1<δ<γ1
Тип IV σΓ(αγ)Γ(1+γ)Γ(α) 1<γ<α σδΓ(αγδ)Γ(1+γδ)Γ(α) γ1<δ<α/γ

Розподіл Феллера–Парето

Феллер[3][5] визначає змінну Парето шляхом перетворення U = Y−1 − 1 випадкової величини Y із Бета-розподілом, функція густини розподілу якої дорівнює

f(y)=yγ11(1y)γ21B(γ1,γ2),0<y<1;γ1,γ2>0,

де B( ) - Бета-функція. Якщо

W=μ+σ(Y11)γ,σ>0,γ>0,

тоді W має розподіл Феллера–Парето FP(μ, σ, γ, γ1, γ2).[1]

Якщо U1Γ(δ1,1) і U2Γ(δ2,1) є незалежними Гамма-розподіленими величинами, іншим способом побудувати випадково величину із розподілом Феллера–Парето (ФП) можна як[7]

W=μ+σ(U1U2)γ

і ми запишемо W ~ FP(μ, σ, γ, δ1, δ2). Особливими випадками розподілу Феллера–Парето є

FP(σ,σ,1,1,α)=P(I)(σ,α)
FP(μ,σ,1,1,α)=P(II)(μ,σ,α)
FP(μ,σ,γ,1,1)=P(III)(μ,σ,γ)
FP(μ,σ,γ,1,α)=P(IV)(μ,σ,γ,α).

Застосування

Парето спочатку застосував цей розподіл для моделювання Шаблон:Нп між людьми оскільки здавалося він досить добре показує те, що більша частина багатства будь-якого суспільства як правило зосереджена у власності невеликого проценту осіб із даного суспільства. Він також використовував її для описання розподілу прибутку.[8] Цю ідею як правило описують в більш простій формі як принцип Парето або "правило 80—20" яке стверджує, що 20% населення контролюють 80% всіх багатств.[9] Однак, правило 80-20 відповідає частковому значенню α, і на справді, дані Парето про податки на прибуток в Британії в його роботі Cours d'économie politique вказують, що близько 30% населення мали близько 70% прибутку. Графік функції густини імовірності на початку цієї статті показу, що "імовірність" або частка населення, яка володіє невеликою кількістю багатства на людину, є досить великою, і зменшується зі зростанням кількості багатства. (Слід зауважити, що розподіл Парето не є реалістичним для випадку із невеликою величиною багатства. Насправді, чисті активи можуть бути навіть від'ємними.) Цей розподіл не обмежується використанням для описання багатства або прибутку населення, а і використовується для багатьох ситуацій, в яких знаходиться рівновага у розподіленні від "малого" до "великого". Наступні прикладі іноді розглядають як такі, що приблизно мають розподіл Парето:

Підібраний за допомогою Шаблон:Iw кумулятивний розподіл Парето (Ломакс) до максимальних добових опадів.
  • Величина запасів нафти в нафтових родовищах (не багато Шаблон:Iw, і багато малих родовищ)[10]
  • Обсяг задач, які виносилися для вирішення на суперкомп'ютерах (декілька великих, багато малих)[13]
  • Нормалізована дохідність цін на окремі акції.[10]
  • Розміри частинок піску [10]
  • Розмір метеоритів
  • Величина значних втрат унаслідок катастроф для певного роду бізнесу, генеральні зобов'язання, комерційні авто, і компенсація робітникам.[14][15]
  • В Гідрології розподіл Парето застосовується для моделювання надзвичайних подій таких як щорічні максимальні опади на добу і паводок рік.[16] Зображення із синім фоном показує приклад підбору розподілу Парето для впорядкованого показнику щорічного максимуму опадів на добу показує також 90% довірчий інтервал оснований на біноміальному розподілі. Дані випадіння опадів показані за допомогою точкових позицій, що зрештою показує процес кумулятивний частотний аналіз.

Зв'язок із іншими розподілами

Зв'язок із експоненційним розподілом

Розподіл Парето пов'язаний із експоненційним розподілом наступним чином. Якщо випадкова величина X має розподіл Парето із мінімумом xm і індексом α, тоді

Y=log(Xxm)

є експоненційно розподіленою величиною із параметром α. Аналогічно, якщо Y експоненційно розподілена випадкова величина із параметром α, тоді

xmeY

має розподіл Парето із мінімумом xm та індексом α.

Це можна використовувати у стандартній процедурі заміни змінної:

Pr(Y<y)=Pr(log(Xxm)<y)=Pr(X<xmey)=1(xmxmey)α=1eαy.

Крайній вираз задає кумулятивну функцію розподілу для експоненційного розподілу із параметром α.

Зв'язок із узагальненим розподілом Парето

Розподіл Парето є особливим випадком узагальненого розподілу Парето, який є сімейством розподілів подібної форми, але містить додатковий параметр, що дозволяє обмежити розподіл знизу (в довільній точці), або бути обмеженим зверху і знизу (де обидві межі є змінними), і містить розподіл Ломакса як особливий випадок. До цього сімейства відносяться також обидва зміщений і не зміщений експоненційні розподіли.

Розподіл Парето із масштабом xm і формою α еквівалентний узагальненому розподілу Парето із зсувом μ=xm, масштабом σ=xm/α і формою ξ=1/α. І навпаки, можна отримати розподіл Парето із узагальненого розподілу Парето прийнявши, що xm=σ/ξ і α=1/ξ.

Зв'язок із законом Ципфа

Розподіл Парето є неперервним розподілом ймовірностей.Закон Ципфа, який іноді називають дзета-розподілом, це дискретний розподіл, який розділяє величини на просте ранжування. Обидва є простим степеневим законом із від'ємним показником, масштабовані так, що їхня кумулятивна функція розподілу дорівнює 1. Розподіл Ципфа можна отримати із розподілу Парето якщо значення x (прибутки) ранговані на N класів, так що кількість людей в кожному класі визначається відповідно до відношення 1/ранг. Розподіл нормалізують шляхом визначення такого xm, що αxmα=1H(N,α1) де H(N,α1) є узагальненим гармонічним числом. Це дозволяє отримати функцію густини імовірностей для розподілу Ципфа із розподілу Парето.

f(x)=αxmαxα+1=1xsH(N,s)

де s=α1 і x є цілим числом, що задає ранг від 1 до N де N є найвищим доходом. Таким чином довільно обрана особа (або слово, посилання на вебсайт, або місто) із популяції (або мови, інтернету, чи країни) має f(x) ймовірність ранжування x.

Зв'язок із "Принципом Парето"

"Правило 80—20", відповідно до якого 20% всіх людей отримують 80% всього прибутку, і 20% з найбільш забезпечених 20% отримують 80% із тих 80%, і так далі, точно дотримується якщо індекс Парето становить α = log4(5) = log(5)/log(4), приблизно 1.161. Цей результат можна отримати із формули для розподілу Лоренца наведеної нижче. Крім того, було показано що наступні твердження[17] є математично еквівалентними:

  • Прибуток розподіляється відповідно до розподілу Парето з індексом α > 1.
  • Існує деяке число 0 ≤ p ≤ 1/2 таке що 100p % з усіх людей отримують 100(1 − p)% всього прибутку, і аналогічно для кожного дійсного числа (не обов'язково цілого) n > 0, 100pn % з усіх людей отримують 100(1 − p)n процентів всього доходу. α і p пов'язані між собою наступним чином
11α=ln(1pn)ln(1(1p)n)

Це відноситься не тільки до прибутку, а і до багатства, або будь-чого що може моделювати цей розподіл.

Це включає також розподіли Парето що мають 0 < α ≤ 1, які, як було вказано вище, мають нескінченне математичне сподівання і таким чином не можуть достовірно моделювати розподіл прибутку.

Розподіл Лоренца і коефіцієнт Джині

Криві Лоренца для декількох розподілів Парето. Випадок із α = ∞ відповідає ідеально рівномірному розподілу (G = 0) а пряма α = 1 відповідає повністю нерівному розподілу (G = 1)

Розподіл Лоренца часто використовують для характеристики розподілу доходів і багатства. Для будь-якого розподілу, розподіл Лоренца L(F) можна записати через функцію щільності f або функцію розподілу F як

L(F)=xmx(F)xf(x)dxxmxf(x)dx=0Fx(F)dF01x(F)dF

де x(F) є оберненою для функції розподілу CDF. Для розподілу Парето,

x(F)=xm(1F)1α

а крива Лоренца розраховується як

L(F)=1(1F)11α,

Для 0<α1 знаменник буде нескінченним, що приводить до L=0. Приклади кривої Лоренца для декількох розподілів Парето показані на малюнку праворуч.

Відповідно до Оксфам (2016) найбагатші 62 людини мають стільки ж статку як найбідніша половина світової популяції.[18] Ми можемо розрахувати індекс Парето, який відповідатиме цій ситуації. Прийнявши, що ε дорівнює 62/(7×109) маємо:

L(1/2)=1L(1ϵ)

або

1(1/2)11α=ϵ11α

В результаті α дорівнює близько 1.15, і близько 9% з усіх статків належать кожній з цих груп. Але насправді найбідніші 69% із дорослих людей всього світу володіють лише близько 3% статків.[19]

Коефіцієнт Джині є мірою відхилення кривої Лоренца від рівнорозподіленої прямої, що є прямою яка сполучає точки [0, 0] і [1, 1], яка на графіку праворуч показана чорним кольором (α = ∞). Конкретно, коефіцієнт Джині є подвоєною площею між кривою Лоренца і рівнорозподіленою прямою. Коефіцієнт Джині для розподілу Парето розраховується (для α1) як

G=12(01L(F)dF)=12α1

Оцінка параметрів

Функція правдоподібності для параметрів α і xm розподілу Парето, для незалежної вибірки x = (x1x2, ..., xn), задається як

L(α,xm)=i=1nαxmαxiα+1=αnxmnαi=1n1xiα+1.

Таким чином, логарифмічна функція правдоподібності дорівнює

(α,xm)=nlnα+nαlnxm(α+1)i=1nlnxi.

Можна побачити, що (α,xm) монотонно зростає із зростанням xm, таким чином, чим більшим є значення xm, тим більшим буде значення функції правдоподібності. Таким чином, оскільки xxm, ми можемо зробити висновок, що

x^m=minixi.

Для того, щоб знайти статистичну оцінку для α, ми розраховуємо відповідну часткову похідну і знаходимо де вона дорівнює нулю:

α=nα+nlnxmi=1nlnxi=0.

Таким чином, оцінкою максимальної правдоподібності для α буде:

α^=niln(xi/x^m).

Очікувана статистична оцінка дорівнює:[20]

σ=α^n.

Малік (1970)[21] приводить результат із точним спільним розподілом величин (x^m,α^). Зокрема, x^m і α^ є незалежними а x^m має розподіл Парето із параметром масштабу xm і параметром форми , тоді як α^ має Обернений гамма-розподіл із параметрами форми і масштабу n − 1 та , відповідно.

Графічне представлення

Характерна крива розподілу із 'довгим хвостом' при зображенні на лінійній шкалі, приховує в собі внутрішню простоту функції при зображенні її у логарифмічній системі координат, де вона приймає форму прямої лінії із від'ємним градієнтом: Із формули для функції густини імовірностей випливає, що для xxm,

logfX(x)=log(αxmαxα+1)=log(αxmα)(α+1)logx.

Оскільки α є додатнім, градієнт −(α + 1) є від'ємним.

Генерування випадкової вибірки

Генерування випадкової вибірки можна виконати за допомогою Шаблон:Нп. Дано випадкову величину U, яка отримана із неперервного рівномірного розподілу у одиничному інтервалі (0, 1], змінна T задана виразом

T=xmU1/α

маж розподіл Парето.[22] Якщо U неперервно рівномірно розподілена у інтервалі [0, 1), її можливо замінити на (1 − U).

Варіанти

Обмежений розподіл Парето

Шаблон:Розподіл ймовірностей

Обмежений (або обрізаний) розподіл Парето має три параметри: α, L і H. Як і в стандартному розподілі Парето параметр α визначає форму. L означає мінімальне значення, а H позначає максимальне значення.

Функція густини імовірностей є наступною:

αLαxα11(LH)α,

де L ≤ x ≤ H, і α > 0.

Генерування випадкових величин обмеженого розподілу Парето

Якщо U is рівномірно розподілена в інтервалі (0, 1), тоді застосувавши метод зворотнього перетворення, отримаємо [23]

U=1Lαxα1(LH)α
x=(UHαULαHαHαLα)1α

є відповідає обмеженому розподілу Парето. Шаблон:Clear

Симетричний розподіл Парето

Симетричний розподіл Парето можна визначити за допомогою наступної функції густини імовірностей:[24]

f(x;α,xm)={12αxmα|x|α1|x|>xm0в інших випадках.

Він має форму подібну до розподілу Парето при x > xm є Шаблон:Нп відносно вертикальної осі.

Див. також

Шаблон:Портал

Джерела

Примітки

Шаблон:Reflist

Шаблон:Список розподілів ймовірності

  1. 1,0 1,1 1,2 1,3 Шаблон:Cite book
  2. 2,0 2,1 Johnson NL, Kotz S, Balakrishnan N (1994) Continuous univariate distributions Vol 1. Wiley Series in Probability and Statistics.
  3. 3,0 3,1 3,2 3,3 Johnson, Kotz, and Balakrishnan (1994), (20.4).
  4. Шаблон:Cite book
  5. 5,0 5,1 Шаблон:Cite book "The densities (4.3) are sometimes called after the economist Pareto. It was thought (rather naïvely from a modern statistical standpoint) that income distributions should have a tail with a density ~ Axα as x → ∞."
  6. Шаблон:Cite journal
  7. Шаблон:Cite book
  8. Pareto, Vilfredo, Cours d'Économie Politique: Nouvelle édition par G.-H. Bousquet et G. Busino, Librairie Droz, Geneva, 1964, pp. 299–345.
  9. For a two-quantile population, where approximately 18% of the population owns 82% of the wealth, the Theil index takes the value 1.
  10. 10,0 10,1 10,2 10,3 10,4 Шаблон:Cite journal
  11. Шаблон:Cite journal
  12. Шаблон:Cite journal
  13. Шаблон:Cite journal
  14. Kleiber and Kotz (2003): p. 94.
  15. Шаблон:Cite journal
  16. CumFreq, software for cumulative frequency analysis and probability distribution fitting [1] Шаблон:Webarchive
  17. Шаблон:Cite journal
  18. Шаблон:Cite web
  19. Шаблон:Cite web
  20. Шаблон:Cite journal
  21. Шаблон:Cite journal
  22. Шаблон:Cite book
  23. Шаблон:Cite web
  24. Шаблон:Cite web