Кількості інформації

Матеріал з testwiki
Версія від 18:51, 13 жовтня 2024, створена imported>Olexa Riznyk (Диференціальна ентропія: вікіфікація)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

Шаблон:Unreferenced

Проста Шаблон:Нп, що показує адитивні та різницеві відношення серед шеннонових базових кількостей інформації для корельованих змінних X та Y. Область, яка міститься в обох колах, є спільною ентропією H(X,Y). Коло ліворуч (червоний і фіолетовий) є особистою ентропією H(X), в якому червоне є умовною ентропією H(X|Y). Коло праворуч (синій та фіолетовий) є H(Y), а синє в ньому є H(Y|X). Фіолетове є взаємною інформацією I(X;Y).

Математична теорія інформації ґрунтується на теорії ймовірності й статистиці, і вимірює інформацію за допомогою декількох кількостей інформації (Шаблон:Lang-en). Застосовувану в наступних формулах одиницю інформаційної ентропії визначає вибір логарифмічної основи. Найзвичнішою одиницею інформації є біт, що ґрунтується на двійковому логарифмі. До інших одиниць належать нат, що ґрунтується на натуральному логарифмі, та гартлі, що ґрунтується на десятковому логарифмі.

Надалі вираз вигляду plogp, коли p є нулем, вважається за згодою рівним нулеві. Це є виправданим, оскільки для будь-якої логарифмічної основи limp0+plogp=0.

Власна інформація

Шеннон вивів міру інформаційного вмісту, названу власною інформацією (Шаблон:Lang-en) або «несподіваністю» (Шаблон:Lang-en) повідомлення m:

I(m)=log(1p(m))=log(p(m))

де p(m)=Pr(M=m) є ймовірністю обрання повідомлення m з усіх можливих варіантів вибору в просторі повідомлень M. Основа логарифма впливає лише на коефіцієнт масштабування, і, відтак, на одиниці, в яких виражається вимірюваний інформаційний вміст. Якщо основою логарифма є 2, то міра інформації виражається в одиницях бітів.

Інформація передається з джерела до отримувача лише якщо отримувач цієї інформації ще не мав її заздалегідь. Повідомлення, які передають інформацію, що відбувається напевно, і вже відома отримувачеві, реальної інформації не містять. Повідомлення, що трапляються нечасто, містять більше інформації, ніж повідомлення, які трапляються частіше. Цей факт віддзеркалено в наведеному вище рівнянні — незмінне повідомлення, тобто, з імовірністю 1, має нульову міру інформації. Крім того, складене повідомлення з двох (або більше) не пов'язаних (або взаємно незалежних) повідомлень матиме міру інформації, яка є сумою мір інформації кожного з повідомлень окремо. Цей факт також віддзеркалено в наведеному вище рівнянні, що підтверджує обґрунтованість його виведення.

Приклад. Повідомлення прогнозу погоди: «Прогноз на ніч: Темно. Тривала темрява, аж до широко розсіяного світла вранці.» Це повідомлення майже не містить інформації. Проте прогноз хуртовини безумовно міститиме інформацію, оскільки таке не трапляється щовечора. Величина інформації буде ще більшою в точному прогнозі снігу для теплого місця, такого як Маямі. Величина інформації в прогнозі снігу для місця, де сніг не йде ніколи (неможлива подія), є найвищою (нескінченність).

Ентропія

Ентропія (Шаблон:Lang-en) дискретного простору повідомлень M є мірою величини невизначеності (Шаблон:Lang-en), що ми маємо стосовно того, яке повідомлення буде обрано. Її визначено як усереднену власну інформацію повідомлення m з цього простору повідомлень:

H(M)=𝔼[I(M)]=mMp(m)I(m)=mMp(m)logp(m).

де

𝔼[] позначує операцію математичного сподівання (Шаблон:Lang-en).

Важливою властивістю ентропії є те, що вона є найбільшою, коли всі повідомлення в просторі повідомлень є рівноймовірними (тобто, p(m)=1/|M|). В цьому випадку H(M)=log|M|.

Іноді функцію H виражають в термінах імовірностей розподілу:

H(p1,p2,,pk)=i=1kpilogpi, де кожна pi0 та i=1kpi=1.

Важливим особливим випадком цього є Шаблон:Нп:

Hb(p)=H(p,1p)=plogp(1p)log(1p).

Спільна ентропія

Спільну ентропію (Шаблон:Lang-en) двох дискретних випадкових змінних X та Y визначають як ентропію їхнього спільного розподілу:

H(X,Y)=𝔼X,Y[logp(x,y)]=x,yp(x,y)logp(x,y)

Якщо X та Y є незалежними, то ця спільна ентропія є просто сумою їхніх окремих ентропій.

(Зауваження: Спільну ентропію не слід плутати з перехресною ентропією, незважаючи на подібний запис.)

Умовна ентропія (ухильність)

За заданого конкретного значення випадкової змінної Y умовну ентропію X за Y=y визначено як

H(X|y)=𝔼[X|Y][logp(x|y)]=xXp(x|y)logp(x|y)

де p(x|y)=p(x,y)p(y) є умовною ймовірністю x за заданого y.

Умовну ентропію (Шаблон:Lang-en) X за заданого Y, що також називають ухильністю (Шаблон:Lang-en) X від Y, задають як

H(X|Y)=𝔼Y[H(X|y)]=yYp(y)xXp(x|y)logp(x|y)=x,yp(x,y)logp(y)p(x,y).

Вона використовує умовне математичне сподівання з теорії імовірності.

Базовою властивістю умовної ентропії є те, що

H(X|Y)=H(X,Y)H(Y).

Відстань Кульбака — Лейблера (приріст інформації)

Відстань Кульбака — Лейблера (або розходження інформації, приріст інформації, або відносна ентропія, Шаблон:Lang-en) є способом порівнювання двох розподілів, «істинного» розподілу ймовірності p та довільного розподілу ймовірності q. Якщо ми стискаємо дані таким чином, який передбачає, що q є розподілом, що лежить в основі якихось даних, тоді як насправді правильним розподілом є p, то відстань Кульбака — Лейблера є числом усереднених додаткових бітів над рівнем, необхідних для стискання, або, математично,

DKL(p(X)q(X))=xXp(x)logp(x)q(x).

В якомусь сенсі вона дійсно є «відстанню» від q до p, хоча вона й не є справжньою метрикою через те, що вона не є симетричною.

Взаємна (передавана) інформація

Виявляється, що однією з найкорисніших та найважливіших мір інформації є взаємна інформація (Шаблон:Lang-en), або передавана інформація (Шаблон:Lang-en). Вона є мірою того, як багато інформації може бути отримано про одну випадкову змінну шляхом спостерігання іншої. Взаємну інформацію X відносно Y (яка концептуально представляє усереднену величину інформації про X, яку можна здобути спостеріганням Y) задають як

I(X;Y)=yYp(y)xXp(x|y)logp(x|y)p(x)=x,yp(x,y)logp(x,y)p(x)p(y).

Основною властивістю взаємної інформації є те, що

I(X;Y)=H(X)H(X|Y).

Тобто, знаючи Y, ми можемо заощадити в середньому I(X;Y) бітів у кодуванні X, у порівнянні з незнанням Y. Взаємна інформація є симетричною:

I(X;Y)=I(Y;X)=H(X)+H(Y)H(X,Y).

Взаємну інформацію можливо виразити як усереднену відстань Кульбака — Лейблера (приріст інформації) апостеріорного розподілу ймовірності X за заданого значення Y відносно апріорного розподілу ймовірності X:

I(X;Y)=𝔼p(y)[DKL(p(X|Y=y)p(X))].

Іншими словами, вона є мірою того, наскільки в середньому зміниться розподіл ймовірності X, якщо ми отримаємо значення Y. Обчислюють її часто як розходження між добутком відособлених розподілів та справжнім спільним розподілом:

I(X;Y)=DKL(p(X,Y)p(X)p(Y)).

Взаємна інформація є тісно пов'язаною з перевіркою логарифмічним відношенням правдоподібностей в контексті таблиць спряженості та мультиноміального розподілу, та з критерієм χ2 Пірсона: взаємну інформацію можливо розглядати як статистику для оцінювання незалежності в парі змінних, і вона має добре визначений асимптотичний розподіл.

Диференціальна ентропія

Шаблон:Main Основні міри дискретної ентропії було аналогічно розширено на неперервні простори шляхом заміни сум інтегралами, та функцій маси ймовірності функціями густини ймовірності. І хоча в обох випадках взаємна інформація виражає число бітів інформації, спільне для цих двох джерел, ця аналогія не передбачає однакових властивостей: наприклад, диференціальна ентропія може бути від'ємною.

Диференціальні аналоги ентропії, спільної ентропії, умовної ентропії та взаємної інформації визначено таким чином:

h(X)=Xf(x)logf(x)dx
h(X,Y)=YXf(x,y)logf(x,y)dxdy
h(X|y)=Xf(x|y)logf(x|y)dx
h(X|Y)=YXf(x,y)logf(y)f(x,y)dxdy
I(X;Y)=YXf(x,y)logf(x,y)f(x)f(y)dxdy

де f(x,y) є функцією густини спільного розподілу, f(x) та f(y) є відособленими розподілами, а f(x|y) є умовним розподілом.

Див. також