Умовна ентропія

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Теорія інформації

Діаграма Венна, що показує адитивні та різницеві відношення серед різних мір інформації, пов'язаних із корельованими змінними X та Y. Область, яка міститься в обох колах, є спільною ентропією H(X,Y). Коло ліворуч (червоний і фіолетовий) є особистою ентропією H(X), в якому червоне є умовною ентропією H(X|Y). Коло праворуч (синій та фіолетовий) є H(Y), а синє в ньому є H(Y|X). Фіолетове є взаємною інформацією I(X;Y).

В теорії інформації умо́вна ентропі́я (або ухи́льність, англ. conditional entropy, equivocation) — це оцінка кількості інформації, необхідної, щоб описати вихід випадкової змінної Y, враховуючи, що значення іншої випадкової змінної X є відомим. Тут інформація вимірюється в шеннонах, натах або гартлі. Ентропія Y, обумовлена X записується як H(Y|X).

Означення

Нехай H(Y|X=x) є ентропією дискретної випадкової змінної Y, обумовленою набуванням дискретною випадковою змінною X певного значення x. Нехай Y має функцію маси ймовірності pY(y). Безумовна ентропія Y обчислюється як H(Y):=𝔼[I(Y)], тобто,

H(Y)=i=1nPr(Y=yi)I(yi)=i=1npY(yi)log2pY(yi),

де I(yi) є інформаційним вмістом набування Шаблон:Нп Y значення yi. Ентропію Y, обумовлену набуванням випадковою змінною X значення x, визначено аналогічно до умовного математичного сподівання:

H(Y|X=x)=𝔼[I(Y)|X=x]=i=1nPr(Y=yi|X=x)log2Pr(Y=yi|X=x).

H(Y|X) є результатом усереднювання H(Y|X=x) над усіма можливими значеннями x, що їх може набувати X.

Для заданих дискретних випадкових змінних X з носієм 𝒳 та Y з носієм 𝒴 умовну ентропію Y відносно X визначають як зважену суму H(Y|X=x) для кожного з можливих значень x із застосуванням p(x) як вагових коефіцієнтів:[1]Шаблон:Rp

H(Y|X) x𝒳p(x)H(Y|X=x)=x𝒳p(x)y𝒴p(y|x)logp(y|x)=x𝒳y𝒴p(x,y)logp(y|x)=x𝒳,y𝒴p(x,y)logp(y|x)=x𝒳,y𝒴p(x,y)logp(x,y)p(x).=x𝒳,y𝒴p(x,y)logp(x)p(x,y).

Примітка: Зрозуміло, що вирази 0log0 та 0logc/0 для фіксованих c>0 слід вважати рівними нулеві.

Властивості

Нульова умовна ентропія

H(Y|X)=0 якщо і лише якщо значення Y повністю визначається значенням X.

Умовна ентропія незалежних випадкових змінних

І навпаки, H(Y|X)=H(Y) якщо і лише якщо Y та X є незалежними випадковими змінними.

Ланцюгове правило

Припустімо, що об'єднана система, яку визначають дві випадкові змінні X та Y, має спільну ентропію H(X,Y), тобто, нам потрібно в середньому H(X,Y) біт інформації, щоби описати її точний стан. Тепер, якщо ми спочатку дізналися значення X, ми отримали H(X) біт інформації. Щойно X стало відомим, нам потрібно лише H(X,Y)H(X) біт, щоб описати стан системи в цілому. Ця величина в точності дорівнює H(Y|X), що дає нам ланцюгове правило умовної ентропії:

H(Y|X)=H(X,Y)H(X).[1]Шаблон:Rp

Ланцюгове правило випливає з вищенаведеного означення умовної ентропії:

H(Y|X)=x𝒳,y𝒴p(x,y)log(p(x)p(x,y))=x𝒳,y𝒴p(x,y)log(p(x,y))+x𝒳,y𝒴p(x,y)log(p(x))=H(X,Y)+x𝒳p(x)log(p(x))=H(X,Y)H(X).

В загальному випадку ланцюгове правило для декількох випадкових змінних стверджує, що

H(X1,X2,,Xn)=i=1nH(Xi|X1,,Xi1)[1]Шаблон:Rp

Воно має вигляд, подібний до ланцюгового правила в теорії ймовірностей, за винятком того, що замість множення використовується додавання.

Правило Баєса

Правило Баєса для умовної ентропії стверджує, що

H(Y|X)=H(X|Y)H(X)+H(Y).

Доведення. H(Y|X)=H(X,Y)H(X) і H(X|Y)=H(Y,X)H(Y). Через симетрію, H(X,Y)=H(Y,X). Віднімання цих двох рівнянь має наслідком правило Баєса.

Якщо Y є Шаблон:Нп від Z за заданої X, то ми маємо

H(Y|X,Z)=H(Y|X).

Інші властивості

Для будь-яких X та Y

H(Y|X)H(Y)H(X,Y)=H(X|Y)+H(Y|X)+I(X;Y),H(X,Y)=H(X)+H(Y)I(X;Y),I(X;Y)H(X),

де I(X;Y) є взаємною інформацією X та Y.

Для незалежних X та Y

H(Y|X)=H(Y) та H(X|Y)=H(X)

Хоча конкретно-умовна ентропія H(X|Y=y) і може бути або меншою, або більшою за H(X) для заданої Шаблон:Нп y змінної Y, але H(X|Y) ніколи не може перевищувати H(X).

Умовна диференціальна ентропія

Шаблон:Див. також

Означення

Наведене вище означення є для дискретних випадкових змінних, але в випадку неперервних випадкових змінних воно чинним не є. Неперервну версію дискретної умовної ентропії називають умовною диференціальною (або неперервною) ентропією (Шаблон:Lang-en). Нехай X та Y є неперервними випадковими змінними з Шаблон:Нп f(x,y). Диференціальну умовну ентропію h(X|Y) означують як

h(X|Y)=𝒳,𝒴f(x,y)logf(x|y)dxdy.[1]Шаблон:Rp

Властивості

На противагу до умовної ентропії дискретних випадкових змінних, умовна диференціальна ентропія може бути від'ємною.

Як і в дискретному випадку, для диференціальної ентропії існує ланцюгове правило:

h(Y|X)=h(X,Y)h(X)[1]Шаблон:Rp

Зауважте, проте, що це правило може не виконуватися, якщо залучені диференціальні ентропії не існують, або є нескінченними.

Спільну диференціальну ентропію також використано в означенні взаємної інформації між неперервними випадковими змінними:

I(X,Y)=h(X)h(X|Y)=h(Y)h(Y|X)

h(X|Y)h(X), з рівністю якщо і лише якщо X та Y є незалежними.[1]Шаблон:Rp

Стосунок до похибки оцінювача

Умовна диференціальна ентропія дає нижню межу математичного сподівання квадратичної похибки оцінювача. Для будь-якої випадкової змінної X, спостереження Y та оцінювача X^ виконується наступне:[1]Шаблон:Rp

𝔼[(XX^(Y))2]12πee2h(X|Y)

Це стосується принципу невизначеності в квантовій механіці.

Узагальнення до квантової теорії

У квантовій теорії інформації умовна ентропія узагальнюється до Шаблон:Нп. Остання, на відміну від свого класичного аналога, може набувати від'ємних значень.

Див. також

Примітки

Шаблон:Примітки