Взаємна інформація

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Теорія інформації

Діаграма Венна, що показує адитивні та різницеві відношення різних мір інформації, пов'язаних із корельованими змінними X та Y. Область, яка міститься в обох колах, є спільною ентропією H(X,Y). Коло ліворуч (червоний і фіолетовий) є особистою ентропією H(X), в якому червоне є умовною ентропією H(X|Y). Коло праворуч (синій та фіолетовий) є H(Y), а синє в ньому є H(Y|X). Фіолетове є взаємною інформацією I(X;Y).

У теорії ймовірностей та теорії інформації взає́мна інформа́ція (Шаблон:Lang-en) двох випадкових змінних — це міра взаємної залежності між цими двома змінними. Конкретніше, вона визначає «кількість інформації» (в таких одиницях, як шеннони, що зазвичай називають бітами), отримуваної про одну випадкову змінну через спостерігання іншої випадкової змінної. Поняття взаємної інформації нерозривно пов'язане з ентропією випадкової змінної, фундаментальним поняттям теорії інформації, яке кількісно оцінює очікувану «кількість інформації», що міститься у випадковій змінній.

Не обмежуючись, як коефіцієнт кореляції, дійснозначними випадковими змінними, взаємна інформація є загальнішою, і визначає, наскільки подібним є спільний розподіл p(x,y) до добутків розкладених відособлених розподілів p(x)p(y). Взаємна інформація — це математичне сподівання поточкової взаємної інформації (Шаблон:Lang-en).

Визначення

Формально взаємну інформацію двох дискретних випадкових змінних X та Y може бути визначено як[1]Шаблон:Rp

I(X;Y)=y𝒴x𝒳p(x,y)log(p(x,y)p(x)p(y)),

де p(x,y) є функцією спільного розподілу ймовірностей X та Y, а p(x) та p(y) є функціями відособлених розподілів імовірності X та Y відповідно.

У випадку неперервних випадкових змінних підсумовування замінюється визначеним подвійним інтегралом:[1]Шаблон:Rp

I(X;Y)=𝒴𝒳p(x,y)log(p(x,y)p(x)p(y))dxdy,

де p(x,y) тепер є функцією густини спільної ймовірності X та Y, а p(x) та p(y) є функціями густини відособлених імовірностей X та Y відповідно.

Якщо застосовується логарифм за основою 2, то одиницею вимірювання взаємної інформації є біт.

Обґрунтування

Інтуїтивно, взаємна інформація вимірює інформацію, яку поділяють X та Y: вона вимірює, наскільки знання однієї з цих змінних зменшує невизначеність щодо іншої. Наприклад, якщо X та Y є незалежними, то знання X не дає жодної інформації про Y, і навпаки, тому їхня взаємна інформація дорівнює нулеві. З іншого боку, якщо X є детермінованою функцією від Y, і Y є детермінованою функцією від X, то вся інформація, що передає змінна X, є спільною з Y: знання X визначає значення Y, і навпаки. В результаті, в цьому випадку взаємна інформація є тим же, що й невизначеність, яка міститься окремо в Y (або X), а саме ентропія Y (або X). Більше того, ця взаємна інформація і є такою ж, як і ентропія X та як ентропія Y. (Дуже особливим випадком цього є такий, коли X та Y є однією й тією ж випадковою змінною.)

Взаємна інформація є мірою притаманної залежності, вираженої в спільному розподілі X та Y, по відношенню до спільного розподілу X та Y за припущення незалежності. Взаємна інформація відтак вимірює залежність у наступному сенсі: I(X;Y)=0, якщо і лише якщо X та Y є незалежними випадковими змінними. Це легко побачити в одному напрямку: якщо X та Y є незалежними, то p(x,y)=p(x)p(y), і тому

log(p(x,y)p(x)p(y))=log1=0.

Крім того, взаємна інформація є невід'ємною (тобто, I(X;Y)0, див. нижче) і симетричною (тобто, I(X;Y)=I(Y;X), див. нижче).

Відношення до інших величин

Невід'ємність

Застосувавши нерівність Єнсена до визначення взаємної інформації, ми можемо показати, що I(X;Y) є невід'ємною, тобто,[1]Шаблон:Rp

I(X;Y)0

Симетричність

I(X;Y)=I(Y;X)

Відношення до умовної та спільної ентропій

Взаємну інформацію може бути рівнозначно виражено як

I(X;Y)H(X)H(X|Y)H(Y)H(Y|X)H(X)+H(Y)H(X,Y)H(X,Y)H(X|Y)H(Y|X)

де H(X) та H(Y) є відособленими ентропіями, H(X|Y) та H(Y|X) є умовними ентропіями, а H(X,Y) є спільною ентропією X та Y. Зверніть увагу на аналогію з об'єднанням, різницею та перетином двох множин, яку показано в діаграмі Венна. В термінах каналу зв'язку, в якому вихід Y є зашумленою версією входу X, ці відношення узагальнено на малюнку нижче.

Відношення між величинами теорії інформації

Оскільки I(X;Y) є невід'ємною, як наслідок, H(X)H(X|Y). Тут ми наводимо докладне виведення I(X;Y)=H(Y)H(Y|X):

I(X;Y)=x𝒳,y𝒴p(x,y)logp(x,y)p(x)p(y)=x𝒳,y𝒴p(x,y)logp(x,y)p(x)x𝒳,y𝒴p(x,y)logp(y)=x𝒳,y𝒴p(x)p(y|x)logp(y|x)x𝒳,y𝒴p(x,y)logp(y)=x𝒳p(x)(y𝒴p(y|x)logp(y|x))y𝒴(xp(x,y))logp(y)=x𝒳p(x)H(Y|X=x)y𝒴p(y)logp(y)=H(Y|X)+H(Y)=H(Y)H(Y|X).

Доведення інших наведених вище тотожностей є схожими на це.

Інтуїтивно, якщо ентропію H(Y) розглядати як міру невизначеності випадкової змінної, то H(Y|X) є мірою того, що X не каже про Y. Це є «кількістю невизначеності Y, яка залишається після того, як стала відомою X», і, отже, праву частину другого з цих рівнянь можливо читати як «кількість невизначеності Y за вирахуванням кількості невизначеності Y, яка залишається після того, як стала відомою X», що рівнозначно «кількість невизначеності Y, яка усувається, коли стає відомою X». Це підтримує інтуїтивне значення взаємної інформації як кількості інформації (тобто, зниження невизначеності), яке знання однієї з змінних забезпечує стосовно іншої.

Зауважте, що в дискретному випадку H(X|X)=0 і, отже, H(X)=I(X;X). Таким чином, I(X;X)I(X;Y), і можна сформулювати основний принцип, що змінна містить про себе щонайменше стільки ж інформації, скільки могла би забезпечити будь-яка інша змінна. Це відповідає подібним пов'язаним результатам.

Відношення до відстані Кульбака — Лейблера

Взаємну інформацію також може бути виражено як відстань Кульбака — Лейблера добутку p(x)p(y) відособлених розподілів двох випадкових змінних X та Y від спільного розподілу цих випадкових змінних p(x,y):

I(X;Y)=DKL(p(x,y)p(x)p(y)).

Крім того, нехай p(x|y)=p(x,y)/p(y). Тоді

I(X;Y)=y𝒴p(y)x𝒳p(x|y)log2p(x|y)p(x)=y𝒴p(y)DKL(p(x|y)p(x))=𝔼Y[DKL(p(x|y)p(x))].

Зауважте, що тут відстань Кульбака — Лейблера передбачає інтегрування лише за випадковою змінною X, і вираз DKL(p(x|y)p(x)) тепер є випадковою змінною в Y. Таким чином, взаємну інформацію можна також розуміти як математичне сподівання відстані Кульбака — Лейблера Шаблон:Нп p(x) змінної X від умовного розподілу p(x|y) змінної X відносно Y: що більш відмінними в середньому є розподіли p(x|y) та p(x), то більшим є приріст інформації.

Баєсове оцінювання взаємної інформації

Як робити баєсове оцінювання взаємної інформації спільного розподілу на основі зразків цього розподілу, є добре зрозумілим. Першою працею про те, як це робити, яка також показала, як робити баєсове оцінювання багато чого іншого в теорії інформації, понад взаємну інформацію, була праця Волперта 1995 року.[2] Наступні дослідники цей аналіз перевивели[3] та розширили.[4] Див. нещодавню працю[5] на основі апріорного, спеціально пристосованого для оцінювання взаємної інформації як такої.

Припущення про незалежність

Формулювання взаємної інформації в термінах відстані Кульбака — Лейблера ґрунтується на зацікавленні в порівнянні p(x,y) з повністю розкладеним діадним добутком p(x)p(y). В багатьох задачах, таких як розклад невід'ємних матриць, цікавлять менш екстремальні розклади, а саме, хочуть порівнювати p(x,y) з низькоранговим матричним наближенням у якійсь невідомій змінній w, тобто, до якої міри можна мати

p(x,y)wp(x,w)p(w,y)

Або ж може цікавити дізнатися, скільки інформації несе p(x,y) понад свій розклад. В такому випадку додаткова інформація, що несе повний розподіл p(x,y) відносно цього матричного розкладу, задається відстанню Кульбака — Лейблера:

ILRMA=y𝒴x𝒳p(x,y)log(p(x,y)wp(x,w)p(w,y)),

Стандартне визначення взаємної інформації відтворюється в екстремальному випадку, коли процес W має для w лише одне значення.

Різновиди

Для задоволення різних потреб було запропоновано кілька варіацій взаємної інформації. Серед них є нормалізовані варіанти та узагальнення до понад двох змінних.

Метрика

Багато застосувань вимагають метрики, тобто міри відстань між парами точок. Величина

d(X,Y)=H(X,Y)I(X;Y)=H(X)+H(Y)2I(X;Y)=H(X|Y)+H(Y|X)

задовольняє властивості метрики (нерівність трикутника, невід'ємність, Шаблон:Нп та симетрію). Ця метрика відстані також відома як Шаблон:Нп.

Якщо X,Y є дискретними випадковими змінними, то всі члени ентропії є невід'ємними, тому 0d(X,Y)H(X,Y) і можливо визначити унормовану відстань

D(X,Y)=d(X,Y)H(X,Y)1.

Метрика D є універсальною метрикою, в тому сенсі, що якщо будь-яка інша міра відстані розмістить X та Y поруч, то й D також розглядатиме їх як близькі.[6]Шаблон:Сумнівно

Підключення визначень показує, що

D(X,Y)=1I(X;Y)H(X,Y).

У теоретико-множинній інтерпретації інформації (див. малюнок в умовній ентропії) це є фактично відстанню Жаккара між X та Y.

Нарешті,

D(X,Y)=1I(X;Y)max{H(X),H(Y)}

також є метрикою.

Умовна взаємна інформація

Шаблон:Докладніше1

Іноді корисно виражати взаємну інформацію двох випадкових змінних відносно третьої.

I(X;Y|Z)=𝔼Z(I(X;Y)|Z)=z𝒵y𝒴x𝒳pZ(z)pX,Y|Z(x,y|z)log[pX,Y|Z(x,y|z)pX|Z(x|z)pY|Z(y|z)],

що може бути спрощено як

I(X;Y|Z)=z𝒵y𝒴x𝒳pX,Y,Z(x,y,z)logpX,Y,Z(x,y,z)pZ(z)pX,Z(x,z)pY,Z(y,z).

Обумовлювання третьою випадковою змінною може збільшувати або зменшувати взаємну інформацію, але для дискретних спільно розподілених випадкових змінних X,Y,Z завжди залишається істинним

I(X;Y|Z)0.

Цей результат застосовувався як основний будівельний блок для доведення інших Шаблон:Нп.

Багатовимірна взаємна інформація

Шаблон:Докладніше1

Було запропоновано декілька узагальнень взаємної інформації для понад двох випадкових змінних, такі як Шаблон:Нп та Шаблон:Нп. Якщо розглядати ентропію Шеннона як знакозмінну міру в контексті Шаблон:Нп, як описано в статті «Шаблон:Нп», то єдиним визначенням багатовимірної взаємної інформації, яке має сенс,Шаблон:Citation needed є наступне:

I(X1;X1)=H(X1)

і для n>1

I(X1;...;Xn)=I(X1;...;Xn1)I(X1;...;Xn1|Xn),

де (як вище) ми визначаємо

I(X1;...;Xn1|Xn)=𝔼Xn[I(X1;...;Xn1)|Xn].

(Це визначення багатовимірної взаємної інформації є ідентичним визначенню Шаблон:Нп, за винятком зміни знаку, коли число випадкових змінних є непарним.)

Застосування

Сліпе застосування інформаційних схем для виведення вищевказаного визначенняШаблон:Citation needed зазнавало критики,Шаблон:Чиєї і дійсно, воно знайшло досить обмежене практичне застосування, оскільки важко уявити або зрозуміти значення цієї кількості для великого числа випадкових змінних. Вона може бути нульовою, додатною або від'ємною для будь-якого непарного числа змінних n3.

Одна зі схем багатовимірного узагальнення, яка максимізує взаємну інформацію між спільним розподілом та іншими цільовими змінними, виявилася корисною в обиранні ознак.[7]

Взаємну інформацію також застосовують в галузі обробки сигналів як міру подібності двох сигналів. Наприклад, метрика взаємної інформації ознак (Шаблон:Lang-en)[8] — це міра продуктивності злиття зображень, яка застосовує взаємну інформацію для вимірювання кількості інформації, яку злите зображення містить про первинні зображення. Код MATLAB для цієї метрики можна знайти за адресою [9].

Спрямована інформація

Шаблон:Нп, I(XnYn), вимірює кількість інформації, що протікає з процесу Xn до Yn, де Xn позначує вектор X1,X2,...,Xn, а Yn позначує Y1,Y2,...,Yn. Термін «спрямована інформація» (Шаблон:Lang-en) було започатковано Джеймсом Мессі, й визначено як

I(XnYn)=i=1nI(Xi;Yi|Yi1).

Зауважте, що якщо n=1, то спрямована інформація стає взаємною інформацією. Спрямована інформація має багато застосувань у задачах, в яких важливу роль відіграє причинність, таких як пропускна здатність каналу зі зворотним зв'язком.[10][11]

Унормовані варіанти

Унормовані варіанти взаємної інформації забезпечуються коефіцієнтами обмеження,Шаблон:Sfn Шаблон:Нп[12] або вправністю (Шаблон:Lang-en):[13]

CXY=I(X;Y)H(Y) та CYX=I(X;Y)H(X).

Ці два коефіцієнти не обов'язково дорівнюють один одному. В деяких випадках може бути бажаною симетрична міра, така як наступна міра надмірності (Шаблон:Lang-en):Шаблон:Джерело

R=I(X;Y)H(X)+H(Y)

яка досягає нульового мінімуму, коли змінні є незалежними, і максимального значення

Rmax=min{H(X),H(Y)}H(X)+H(Y)

коли одна зі змінних стає абсолютно надмірною при знанні іншої. Див. також надмірність інформації. Іншою симетричною мірою є симетрична невизначеність Шаблон:Harv, яку задають як

U(X,Y)=2R=2I(X;Y)H(X)+H(Y)

що представляє середнє гармонійне двох коефіцієнтів невизначеності CXY,CYX.[12]

Якщо розглядати взаємну інформацію як окремий випадок Шаблон:Нп або Шаблон:Нп, то унормованими версіями відповідно є

I(X;Y)min[H(X),H(Y)] та I(X;Y)H(X,Y).

Ця унормована версія також відома як показник якості інформації (Шаблон:Lang-en), що дає кількісну оцінку інформації змінної на основі іншої змінної відносно повної невизначеності:[14]

IQR(X,Y)=E[I(X;Y)]=I(X;Y)H(X,Y)=xXyYp(x,y)logp(x)p(y)xXyYp(x,y)logp(x,y)1

Існує унормування,[15] яке випливає з першого розгляду взаємної інформації як аналогу коваріації (таким чином, ентропія Шеннона є аналогом дисперсії). Потім унормована взаємна інформація розраховується подібно до коефіцієнту кореляції Пірсона,

I(X;Y)H(X)H(Y).

Зважені варіанти

В традиційному формулюванні взаємної інформації

I(X;Y)=yYxXp(x,y)logp(x,y)p(x)p(y),

кожна подія чи об'єкт, вказані як (x,y), зважуються відповідною ймовірністю p(x,y). Це передбачає, що всі об'єкти або події є рівнозначними без врахування ймовірностей їх настання. Проте в деяких застосуваннях може бути так, що певні об'єкти або події є більш значущими, ніж інші, або що деякі шаблони зв'язків є семантично важливішими за інші.

Наприклад, детерміноване відображення {(1,1),(2,2),(3,3)} може розглядатися як сильніше за детерміноване відображення {(1,3),(2,1),(3,2)}, хоча ці відношення видадуть однакову взаємну інформацію. Це відбувається тому, що взаємна інформація взагалі не чутлива до жодного природного впорядкування значень змінних (Шаблон:Harvnb, Шаблон:Harvnb, Шаблон:Harvnb), і тому взагалі не чутлива до форми відносного відображення між зв'язаними змінними. Якщо бажано, щоби перше відношення — яке показує узгодженість за всіма значеннями змінних — оцінювалося вище, ніж друге відношення, то можна використовувати наступну зважену взаємну інформацію Шаблон:Harv.

I(X;Y)=yYxXw(x,y)p(x,y)logp(x,y)p(x)p(y),

яка поміщає вагу w(x,y) на імовірність кожного збігу значень змінних, p(x,y). Це дозволяє робити так, щоби деякі ймовірності могли нести більше або менше важливості за інші, тим самим дозволяючи кількісно виразити відповідні чинники цілісності (Шаблон:Lang-en) або виразності (Шаблон:Lang-de). У наведеному вище прикладі застосування більших відносних ваг для w(1,1), w(2,2) і w(3,3) матиме ефект вищої оцінки інформативності для відношення {(1,1),(2,2),(3,3)}, ніж для відношення {(1,3),(2,1),(3,2)}, що може бути бажаним в деяких випадках розпізнавання образів тощо. Ця зважена взаємна інформація є вираженням зваженої відстані Кульбака — Лейблера, яка, як відомо, може набувати від'ємних значень для деяких входів,[16] і є приклади, де зважена взаємна інформація також набуває від'ємних значень.[17]

Скоригована взаємна інформація

Шаблон:Докладніше1

Розподіл імовірності можна розглядати як розбиття множини. Можна запитати: якщо множину було розбито випадковим чином, яким буде розподіл імовірностей? Яким буде математичне сподівання взаємної інформації? Шаблон:Нп (Шаблон:Lang-en) віднімає математичне сподівання взаємної інформації таким чином, що вона дорівнює нулеві, коли два різних розподіли носять випадковий характер, і одиниці, коли два розподіли збігаються. Скоригована взаємна інформація визначається за аналогією зі Шаблон:Нп двох різних розбиттів множини.

Абсолютна взаємна інформація

З допомогою ідей колмогоровської складності можна розглядати взаємну інформацію двох послідовностей незалежно від будь-якого розподілу ймовірностей:

IK(X;Y)=K(X)K(X|Y).

Встановлення того, що ця величина є симетричною з точністю до логарифмічного множника (IK(X;Y)IK(Y;X)), потребує Шаблон:Нп Шаблон:Harvard citation. Наближення цієї величини через стиснення може застосовуватися для визначення міри відстані для виконання ієрархічного кластерування послідовностей без жодного знання про предметну область цих послідовностей Шаблон:Harvard citation.

Лінійна кореляція

На відміну від коефіцієнтів кореляції, наприклад, коефіцієнту кореляції моменту добутку, взаємна інформація містить інформацію про всю залежність — лінійну й нелінійну, — а не просто про лінійну залежність, як міри коефіцієнтів кореляції. Тим не менш, у вузькому випадку, в якому спільний розподіл X та Y є двовимірним нормальним розподілом (за припущення, зокрема, що обидва відособлені розподіли розподілені нормально), існує точний взаємозв'язок між I та коефіцієнтом кореляції ρ Шаблон:Harv.

I=12log(1ρ2)

Наведене вище рівняння може бути виведено для двовимірного нормального розподілу наступним чином:

(X1X2)𝒩((μ1μ2),Σ),Σ=(σ12ρσ1σ2ρσ1σ2σ22)H(Xi)=12log(2πeσi2)=12+12log(2π)+log(σi),i{1,2}H(X1,X2)=12log[(2πe)2|Σ|]=1+log(2π)+log(σ1σ2)+12log(1ρ2)

Отже,

I(X1;X2)=H(X1)+H(X2)H(X1,X2)=12log(1ρ2)

Для дискретних даних

Коли X та Y обмежено перебуванням у дискретному числі станів, то дані спостережень підсумовують до таблиці спряженості зі змінною рядків X (або i) та змінною стовпців Y (або j). Взаємна інформація є однією з мір асоційовності або кореляції між змінними рядків і стовпців. До інших мір асоційовності належать статистики критерію хі-квадрат Пірсона, статистики Шаблон:Нп тощо. Фактично, взаємна інформація дорівнює статистиці Шаблон:Нп, поділеній на 2N, де N є розміром вибірки.

Застосування

В багатьох застосуваннях потрібно максимізувати взаємну інформацію (тим самим збільшуючи взаємозалежність), що часто рівнозначне мінімізації умовної ентропії. До прикладів належать:

Див. також

Примітки

Шаблон:Примітки

Джерела

Література

  • Габидулин, Э. М., Пилипчук, Н. И. Лекции по теории информации. — М.: МФТИ, 2007. — 214 с. — ISBN 5-7417-0197-3 Шаблон:Ref-ru