Розходження Кульбака — Лейблера

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Теорія інформації Шаблон:Не плутати2 В математичній статистиці розхо́дження, диверге́нція або ві́дстань Кульбака — Лейблера (що також називають відно́сною ентропі́єю, Шаблон:Lang-en) є мірою того, наскільки один розподіл імовірності відрізняється від іншого, еталонного розподілу ймовірності.[1][2] До його застосувань належать відно́сна (шеннонова) ентропі́я в інформаційних системах, випадко́вість (Шаблон:Lang-en) у неперервних часових рядах, та при́ріст інформа́ції (Шаблон:Lang-en) при порівнюванні статистичних моделей висновування. На противагу до Шаблон:Нп, воно є асиметричною міжрозподіловою мірою, і відтак не відповідає вимогам статистичної метрики розкиду. В простому випадку нульове розходження Кульбака — Лейблера показує, що два розглядані розподіли є ідентичними. Простішими словами, воно є мірою несподіваності, з різноманітними застосуваннями, такими як прикладна статистика, гідромеханіка, нейронаука та машинне навчання.

Етимологія

Розходження Кульбака — Лейблера було запропоновано 1951 року Соломоном Кульбаком та Шаблон:Нп як орієнто́ване розхо́дження (Шаблон:Lang-en) між двома розподілами; Кульбак віддавав перевагу термінові інформа́ція розрі́знення (Шаблон:Lang-en).[3] Це розходження обговорено в книзі Кульбака 1959 року «Теорія інформації та статистика».[2]

Означення

Для дискретних розподілів ймовірності P та Q, визначених на одному й тому ж імовірнісному просторі, розходженням Кульбака — Лейблера означено[4]

що є рівнозначним

DKL(PQ)=x𝒳P(x)log(P(x)Q(x)).

Іншими словами, воно є математичним сподіванням логарифмічної різниці між імовірностями P та Q, де математичне сподівання беруть із застосуванням ймовірностей P. Розходження Кульбака — Лейблера можливо визначити лише якщо Q(x)=0 для будь-якого x означає P(x)=0 (абсолютна неперервність). Коли P(x) є нулем, внесок відповідного члену розцінюють як нульовий, оскільки

limx0+xlog(x)=0.

Для розподілів P та Q неперервної випадкової змінної розходженням Кульбака — Лейблера означують інтеграл[5]Шаблон:Rp

де символами p та q позначено густини імовірності P та Q.

Загальніше, якщо P та Q є ймовірнісними мірами над множиною 𝒳, а P є абсолютно неперервною щодо Q, то розходженням Кульбака — Лейблера від Q до P означують

DKL(PQ)=𝒳log(dPdQ)dP,

де dPdQ є похідною Радона — Нікодима P щодо Q, і за умови існування правобічного виразу. Це може бути рівнозначно (згідно ланцюгового правила) записано як

DKL(PQ)=𝒳log(dPdQ)dPdQdQ,

що є ентропією P відносно Q. У продовження цього випадку, якщо μ є будь-якою мірою на 𝒳, для якої існують p=dPdμ та q=dQdμ (що означає, що p та q є абсолютно неперервними щодо μ), то розходження Кульбака — Лейблера від Q до P задають як

DKL(PQ)=𝒳plog(pq)dμ.

Логарифми в цих формулах беруть за основою 2, якщо інформацію вимірюють в одиницях бітів, або за основою e, якщо інформацію вимірюють в натах. Більшість формул, що залучають розходження Кульбака — Лейблера, виконуються не залежно від основи логарифму.

Існують різні угоди, як посилатися на DKL(PQ) словами. Часто на нього посилаються як на розходження між P та Q, проте, це не передає фундаментальної асиметричності в цьому відношенні. Іноді, як у цій статті, можна знайти його опис як розходження P від, або щодо Q. Це віддзеркалює асиметричність баєсового висновування, що починається від апріорного Q, і уточнюється до апостеріорного P.

Простий приклад

Кульбак[2] наводить простий приклад (таблиця 2.1, приклад 2.1). Нехай P та Q є розподілами, показаними в таблиці й на малюнку. P є розподілом з лівого боку малюнку, біноміальним розподілом з N=2 та p=0.4. Q є розподілом з правого боку малюнку, дискретним рівномірним розподілом з трьома можливими результатами, x=0, 1 чи 2 (тобто, 𝒳={0,1,2}), кожен з імовірністю p=1/3.

Два розподіли для пояснення розходження Кульбака — Лейблера

x 0 1 2
Розподіл P(x) 0.36 0.48 0.16
Розподіл Q(x) 0.333 0.333 0.333

КЛ-розходження DKL(PQ) та DKL(QP) обчислюють із застосуванням означення (Шаблон:EquationNote) наступним чином. Цей приклад використовує натуральний логарифм з основою e, позначуваний ln, щоби отримати результати в натах (див. Одиниці вимірювання інформації).

DKL(PQ)=x𝒳P(x)ln(P(x)Q(x))=0.36ln(0.360.333)0.48ln(0.480.333)0.16ln(0.160.333)=0.0852996
DKL(QP)=x𝒳Q(x)ln(Q(x)P(x))=0.333ln(0.3330.36)0.333ln(0.3330.48)0.333ln(0.3330.16)=0.097455

Інтерпретації

Розходження Кульбака — Лейблера від Q до P часто позначують через DKL(PQ).

В контексті машинного навчання DKL(PQ) часто називають Шаблон:Нп, отримуваним при застосовуванні Q замість P. За аналогією з теорією інформації, його також називають відно́сною ентропі́єю (Шаблон:Lang-en) P щодо Q. В контексті теорії кодування DKL(PQ) можливо тлумачити як вимірювання математичного сподівання числа додаткових бітів, необхідних для кодування зразків з P із застосуванням коду, оптимізованого для Q, замість коду, оптимізованого для P.

Виражене мовою баєсового висновування, DKL(PQ) є мірою приросту інформації при перегляді переконань від апріорного розподілу ймовірності Q до апостеріорного розподілу ймовірності P. Іншими словами, це величина інформації, що втрачається при застосуванні Q для наближення P.[6] У застосуваннях P зазвичай представляє «істинний» розподіл даних, спостережень, або точно обчислений теоретичний розподіл, тоді як Q зазвичай представляє теорію, модель, опис, або наближення P. Щоби знаходити розподіл Q, який є найближчим до P, ми можемо мінімізувати КЛ-розходження, обчислюючи Шаблон:Нп.

Розходження Кульбака — Лейблера є окремим випадком ширшого класу Шаблон:Нп, що називають Шаблон:Нп, а також класу Шаблон:Нп. Воно є єдиним таким розходженням над імовірностями, що належить до обох класів. І хоч його й часто інтуїтивно сприймають як спосіб вимірювання відстані між розподілами ймовірності, розходження Кульбака — Лейблера не є справжньою метрикою. З ним не дотримується нерівність трикутника, і в загальному випадку DKL(PQ) не дорівнює DKL(QP). Проте, його Шаблон:Нп вигляд, а саме його гессіан, дає метричний тензор, відомий як Шаблон:Нп.

Характеризування

Артур Гобсон довів, що розходження Кульбака — Лейблера є єдиною мірою відмінності між розподілами ймовірності, яка задовольняє деякі бажані властивості, що є канонічним розширенням присутніх у широко вживаному характеризуванні ентропії.[7] Отже, взаємна інформація є єдиною мірою взаємної залежності, яка дотримується певних пов'язаних умов, оскільки її може бути визначено в термінах розходження Кульбака — Лейблера.

Існує також баєсове характеризування розходження Кульбака — Лейблера.[8]

Обґрунтування

Ілюстрація розходження Кульбака — Лейблера (КЛ) для двох нормальних розподілів. Чітко видно типову асиметричність розходження Кульбака — Лейблера.

В теорії інформації теорема Крафта — Макміллана встановлює, що будь-яку безпосередньо розкодовувану схему кодування для кодування повідомлення для виявляння одного значення xi з ряду можливостей X можливо розглядати як представлення неявного розподілу ймовірності q(xi)=2li над X, де li є довжиною коду для xi в бітах. Отже, розходження Кульбака — Лейблера можливо інтерпретувати як математичне сподівання додаткової довжини повідомлення над рівнем, яка мусить передаватися, якщо застосовується код, що є оптимальним для заданого (неправильного) розподілу Q, в порівнянні з застосуванням коду, що ґрунтується на істинному розподілі P.

DKL(PQ)=x𝒳p(x)logq(x)+x𝒳p(x)logp(x)=H(P,Q)H(P)

де H(P,Q) є перехресною ентропією P та Q, а H(P) є ентропією P.

Зауважте також, що існує зв'язок між розходженням Кульбака — Лейблера та Шаблон:Нп в Шаблон:Нп.[9][10]

Властивості

DKL(PQ)0,
результат, відомий як Шаблон:Нп, з нульовим DKL(PQ) якщо і лише якщо P=Q майже скрізь. Ентропія H(P) відтак встановлює мінімальне значення для перехресної ентропії H(P,Q), математичного сподівання числа бітів, необхідних при використанні коду на основі Q замість P, і, відтак, розходження Кульбака — Лейблера представляє математичне сподівання числа додаткових бітів, що мусять передаватися, щоби ідентифікувати значення x, вибране з X, якщо застосовується код, що відповідає розподілові ймовірності Q, а не «істинному» розподілові P.
  • Розходження Кульбака — Лейблера залишається однозначно означеним і для неперервних розподілів, а до того ж ще й інваріантним відносно перетворень параметрів. Наприклад, якщо здійснюють перетворення змінної x на змінну y(x), то, оскільки P(x)dx=P(y)dy та Q(x)dx=Q(y)dy, розходження Кульбака — Лейблера може бути переписано:
DKL(PQ)=xaxbP(x)log(P(x)Q(x))dx=yaybP(y)log(P(y)dydxQ(y)dydx)dy=yaybP(y)log(P(y)Q(y))dy
де ya=y(xa) та yb=y(xb). І хоча й передбачалося, що перетворення було неперервним, але це не є обов'язковим. Це також показує, що розходження Кульбака — Лейблера дає розмірнісно стійку величину, оскільки якщо x є змінною з розмірністю, то P(x) та Q(x) також мають розмірності, бо, наприклад, P(x)dx розмірностей не має. Аргумент логарифмічного члену є й залишається безрозмірнісним, як він і мусить. Отже, це можливо розглядати як певним чином фундаментальнішу величину, ніж деякі інші властивості в теорії інформації[11] (такі як власна інформація та шеннонова ентропія), що для не дискретних ймовірностей можуть ставати невизначеними або від'ємними.
  • Розходження Кульбака — Лейблера є Шаблон:Нп для незалежних розподілів практично так само, як і шеннонова ентропія. Якщо P1,P2 є незалежними розподілами, зі спільним розподілом P(x,y)=P1(x)P2(y), і Q,Q1,Q2 аналогічно, то
DKL(PQ)=DKL(P1Q1)+DKL(P2Q2).
DKL(λp1+(1λ)p2λq1+(1λ)q2)λDKL(p1q1)+(1λ)DKL(p2q2) for 0λ1.

Приклади

Багатовимірні нормальні розподіли

Припустімо, що ми маємо два багатовимірні нормальні розподіли з середніми μ0,μ1 та з (невиродженими) коваріаційними матрицями Σ0,Σ1. Якщо ці два розподіли мають однакову розмірність, k, то розходження Кульбака — Лейблера між ними є таким:[12]Шаблон:Rp

DKL(𝒩0𝒩1)=12(tr(Σ11Σ0)+(μ1μ0)𝖳Σ11(μ1μ0)k+ln(detΣ1detΣ0)).

Логарифм в крайньому члені мусить братися за основою e, оскільки всі члени, крім крайнього, є логарифмами за основою e виразів, що є або коефіцієнтами функції густини, або інакше виникають натурально. Тож це рівняння дає результат, вимірюваний в натах. Ділення всього наведеного вище виразу на ln(2) дає розходження в бітах.

Особливим випадком, що є широко вживаною величиною у Шаблон:Нп, є КЛ-розходження між діагональним багатовимірним нормальним, та стандартним нормальним розподілами:

DKL(𝒩((μ1,,μk)𝖳,diag(σ12,,σk2))𝒩(𝟎,𝐈))=12i=1k(σi2+μi2ln(σi2)1).

Відношення до метрик

Можна було би спокуситися назвати розходження Кульбака — Лейблера «метрикою відстані» на просторі розподілів імовірності, але це не буде правильним, оскільки воно не є симетричним, тобто, DKL(PQ)DKL(QP), як і не задовольняє воно нерівність трикутника. Незважаючи на це, будучи Шаблон:Нп, воно породжує топологію на просторі розподілів імовірності. Конкретніше, якщо {P1,P2,} є послідовністю розподілів, такою, що

limnDKL(PnQ)=0

то кажуть, що

PnDQ.

З Шаблон:Нп випливає, що

PnDPPnTVP,

де крайнє відповідає звичайній збіжності в повній варіації.

Далі Реньї (1970, 1961)[13][14]

Інформаційна метрика Фішера

Розходження Кульбака — Лейблера є безпосередньо пов'язаним з Шаблон:Нп. Це можна зробити явним наступним чином. Припустімо, що обидва розподіли ймовірності P та Q параметризовано деяким (можливо, багатовимірним) параметром θ. Розгляньмо тоді два близькі значення P=P(θ) та Q=P(θ0), такі, що параметр θ відрізняється лише на невелику величину від значення параметру θ0. Конкретно, до першого порядку матимемо (із застосуванням ейнштейнового запису підсумовування)

P(θ)=P(θ0)+ΔθjPj(θ0)+

де Δθj=(θθ0)j є невеличкою зміною θ в напрямку j, а Pj(θ0)=Pθj(θ0) є відповідним темпом зміни в розподілі ймовірності. Оскільки розходження Кульбака — Лейблера має нульовий абсолютний мінімум для P=Q, тобто, θ=θ0, воно змінюється в маленьких параметрах Δθj лише до другого порядку. Формальніше, як і для будь-якого мінімуму, перша похідна цього розходження зникає

θj|θ=θ0DKL(P(θ)P(θ0))=0,

і за розкладом Тейлора маємо до другого порядку

DKL(P(θ)P(θ0))=12ΔθjΔθkgjk(θ0)+

де матриця Гессе розходження

gjk(θ0)=2θjθk|θ=θ0DKL(P(θ)P(θ0))

мусить бути додатно напівозначеною. Якщо дозволити θ0 змінюватися (й опустити підіндекс 0), то гессіан gjk(θ) визначатиме (можливо, вироджену) ріманову метрику на просторі параметру Шаблон:Mvar, що називають інформаційною метрикою Фішера.

Теорема інформаційної метрики Фішера

Коли p(x,ρ) задовольняє наступні нормативні умови:

log(p)ρ,2log(p)ρ2,3log(p)ρ3 існують,
|pρ|<F(x):x=0F(x)dx<,|2pρ2|<G(x):x=0G(x)dx<|3log(p)ρ3|<H(x):x=0p(x,0)H(x)dx<ξ<

де Шаблон:Mvar є незалежною від Шаблон:Mvar

x=0p(x,ρ)ρ|ρ=0dx=x=02p(x,ρ)ρ2|ρ=0dx=0

тоді

𝒟(p(x,0)p(x,ρ))=cρ22+𝒪(ρ3) as ρ0.

Відношення до інших величин теорії інформації

Багато інших величин теорії інформації можливо інтерпретувати як застосування розходження Кульбака — Лейблера до особливих випадків.

Власна інформація

Шаблон:Main

Власну інформацію, відому також як інформаційний вміст сигналу, випадкової змінної або події, означено як від'ємний логарифм імовірності трапляння заданого результату.

При застосуванні до дискретної випадкової змінної власну інформацію може бути представлено якШаблон:Citation needed

I(m)=DKL(δim{pi}),

є розходженням Кульбака — Лейблера розподілу ймовірності P(i) від дельти Кронекера, що представляє впевненість, що i=m — тобто, число додаткових біт, що мусить бути передано, щоби ідентифікувати i, якби отримувачеві був доступним розподіл імовірності P(i), а не той факт, що i=m.

Взаємна інформація

Взаємна інформаціяШаблон:Citation needed

I(X;Y)=DKL(P(X,Y)P(X)P(Y))=EX{DKL(P(YX)P(Y))}=EY{DKL(P(XY)P(X))}

є розходженням Кульбака — Лейблера добутку P(X)P(Y) двох розподілів відособлених ймовірностей від спільного розподілу ймовірності P(X,Y) — тобто, математичним сподіванням числа бітів, яке мусить бути передано, щоби ідентифікувати X та Y, якщо їх кодовано із застосуванням лише їхніх відособлених розподілів замість спільного розподілу. Рівнозначно, якщо спільна ймовірність P(X,Y) є відомою, то це є математичним сподіванням числа додаткових бітів, які мусить бути в середньому надіслано, щоби ідентифікувати Y, якщо значення X ще не є відомим отримувачеві.

Шеннонова ентропія

Шеннонова ентропіяШаблон:Citation needed

H(X)=E[IX(x)]=log(N)DKL(pX(x)PU(X))

є числом бітів, які мало би бути передано, щоби ідентифікувати X з N однаково ймовірних можливостей, меншим розходженням Кульбака — Лейблера рівномірного розподілу Шаблон:Нп X, PU(X), від істинного розподілу P(X) — тобто, меншим за математичне сподівання числа заощаджених бітів, які мало би бути передано, якби значення X було закодовано відповідно до рівномірного розподілу PU(X) замість істинного розподілу P(X).

Умовна ентропія

Умовна ентропіяШаблон:Citation needed

H(XY)=log(N)DKL(P(X,Y)PU(X)P(Y))=log(N)DKL(P(X,Y)P(X)P(Y))DKL(P(X)PU(X))=H(X)I(X;Y)=log(N)EY[DKL(P(XY)PU(X))]

є числом бітів, які мало би бути передано, щоби ідентифікувати X з N однаково ймовірних можливостей, меншим розходженням Кульбака — Лейблера добутку розподілів PU(X)P(Y) від істинного спільного розподілу P(X,Y) — тобто, меншим за математичне сподівання числа заощаджених бітів, які мало би бути передано, якби значення X було кодовано відповідно до рівномірного розподілу PU(X) замість умовного розподілу P(X|Y) змінної X за заданого значення Y.

Перехресна ентропія

Перехресна ентропія між двома розподілами ймовірності вимірює усереднене числом бітів, необхідних, щоби ідентифікувати подію з набору можливостей, якщо застосовувана схема кодування ґрунтується на заданому розподілі ймовірності q замість «істинного» розподілу p. Відтак, перехресну ентропію двох розподілів p та q над одним і тим же ймовірнісним простором означено наступним чином:Шаблон:Citation needed

H(p,q)=Ep[log(q)]=H(p)+DKL(pq).

Баєсове уточнювання

У баєсовій статистиці розходження Кульбака — Лейблера можливо застосовувати як міру приросту інформації при переході від апріорного розподілу до апостеріорного розподілу: p(x)p(xI). Якщо виявлено деякий новий факт Y=y, його може бути використано, щоби уточнити апостеріорний розподіл для X з p(xI) до нового апостеріорного розподілу p(xy,I) із застосуванням теореми Баєса:

p(xy,I)=p(yx,I)p(xI)p(yI)

Цей розподіл має нову Шаблон:Нп:

H(p(y,I))=xp(xy,I)logp(xy,I),

яка може бути меншою або більшою за первинну ентропію H(p(I)). Проте, з точки зору нового розподілу ймовірності, можливо оцінити, що застосування первинного коду на основі p(xI) замість нового коду на основі p(xy,I) додало би таке очікуване число бітів

DKL(p(y,I)p(I))=xp(xy,I)log(p(xy,I)p(xI))

до довжини повідомлення. Воно відтак представляє величину корисної інформації, або приріст інформації, про X, що за нашою оцінкою ми дізналися, виявивши Y=y.

Якщо потім надходять подальші дані, Y2=y2, то розподіл імовірності для x може бути уточнено далі, щоби дати нове найкраще припущення p(xy1,y2,I). Якщо повторно дослідити приріст інформації для застосування p(xy1,I) замість p(xI), то виявиться, що він може бути як більшим, так і меншим за оцінений минулого разу:

xp(xy1,y2,I)log(p(xy1,y2,I)p(xI)) може бути ≤ або > за xp(xy1,I)log(p(xy1,I)p(xI))

і, таким чином, об'єднаний приріст інформації не підкоряється нерівності трикутника:

DKL(p(y1,y2,I)p(I)) може бути <, = або > за DKL(p(y1,y2,I)p(y1,I))+DKL(p(y1,I)p(I))

Все, що можливо сказати, це що в середньому при усереднюванні із застосуванням p(y2y1,x,I) ці дві сторони будуть приблизно рівними.

Баєсове планування експериментів

Поширеною метою в Шаблон:Не перекладено є максимізувати математичне сподівання розходження Кульбака — Лейблера між апріорним та апостеріорним.[15] Коли апостеріорні наближено вважають нормальними розподілами, то план, що максимізує математичне сподівання розходження Кульбака — Лейблера, називають Шаблон:Нп.

Розрізнювальна інформація

Розходження Кульбака — Лейблера DKL(p(xH1)p(xH0)) можливо також розглядати як очікувану розрі́знювальну інформа́цію (Шаблон:Lang-en) для H1 над H0: середню інформацію на зразок для розрізнення на користь гіпотези H1 проти гіпотези H0, коли гіпотеза H1 є істинною.[16] Іншою назвою цієї величини, даною їй Шаблон:Нп, є очікувана Шаблон:Нпні для H1 над H0, якої варто чекати від кожного зразка.

Очікувана вага свідчення для H1 над H0 не є тим же, що й приріст інформації про розподіл імовірності p(H) цих гіпотез, очікуваний на зразок,

DKL(p(xH1)p(xH0))IG=DKL(p(Hx)p(HI)).

Як функцію корисності в баєсовім плануванні експерименту, щоби обирати оптимальне наступне питання для дослідження, можливо використовувати будь-яку з цих двох величин, але вони загалом вестимуть до дещо різних стратегій експериментування.

На ентропійній шкалі приросту інформації різниця між майже впевненістю та абсолютною впевненістю є дуже маленькою — кодування відповідно до майже впевненості вимагає заледве більше бітів, ніж кодування відповідно до впевненості абсолютної. З іншого боку, на Шаблон:Нп-шкалі, що випливає з ваги свідчення, різниця між цими двома є величезною — можливо, нескінченною; це може віддзеркалювати різницю між тим, щоби бути майже впевненими (на ймовірнісному рівні), що, скажімо, гіпотеза Рімана є правильною, в порівнянні з тим, щоби бути впевненими в її правильності, оскільки вона має математичне доведення. Ці дві різні шкали функції втрат для невизначеності є корисними обидві, відповідно до того, наскільки добре кожна з них віддзеркалює певні обставини задачі, що розглядають.

Принцип мінімальної розрізнювальної інформації

Ідея розходження Кульбака — Лейблера як розрізнювальної інформації привела Кульбака до пропозиції принципу мініма́льної розрі́знювальної інформа́ції (МРІ, Шаблон:Lang-en): за наявності нових фактів повинно бути обрано новий розподіл f, що є якомога важче розрізнити від первинного розподілу f0; так що нові дані продукують якомога менший приріст інформації DKL(ff0).

Наприклад, якщо був апріорний розподіл p(x,a) над x та a, і згодом дізналися, що істинним розподілом a був u(a), то розходженням Кульбака — Лейблера між новим спільним розподілом для x та a, q(xa)u(a), та ранішим апріорним розподілом, буде

DKL(q(xa)u(a)p(x,a))=Eu(a){DKL(q(xa)p(xa))}+DKL(u(a)p(a)),

тобто, сума розходження Кульбака — Лейблера p(a), апріорного розподілу a, від уточненого розподілу u(a), та математичного сподівання (із застосуванням розподілу ймовірності u(a)) розходження Кульбака — Лейблера апріорного умовного розподілу p(xa) від нового умовного розподілу q(xa). (Зауважте, що крайнє математичне сподівання часто називають умовним розходженням Кульбака — Лейблера, Шаблон:Lang-en, (або умовною відносною ентропією, Шаблон:Lang-en), і позначують DKL(q(xa)p(xa))[17]Шаблон:Rp) Вона мінімізується, якщо q(xa)=p(xa) над усім носієм u(a); і зауважмо, що цей результат включає теорему Баєса, якщо новий розподіл u(a) є фактично δ-функцією, що представляє впевненість у тім, що a має одне певне значення.

МРІ можливо розглядати як розширення Шаблон:Нп Лапласа, та Шаблон:Нп Шаблон:Нп. Зокрема, вона є природним розширенням принципу максимальної ентропії з дискретних на неперервні розподіли, для яких шеннонова ентропія перестає бути настільки корисною (див. диференціальну ентропію), але розходження Кульбака — Лейблера залишається настільки ж відповідним.

В інженерній літературі МРІ іноді називають принципом мінімальної перехресної ентропії (МПЕ, Шаблон:Lang-en), або, для скорочення, Шаблон:Lang-en. Мінімізування розходження Кульбака — Лейблера від m до p по відношенню до m є рівнозначним мінімізуванню перехресної ентропії p та m, оскільки

H(p,m)=H(p)+DKL(pm),

що є доречним, якщо намагатися обрати адекватне наближення p. Проте так же часто це й не є завданням, якого намагаються досягти. Натомість, так же часто це m є деякою незмінною апріорною орієнтирною мірою, а p є тим, що намагаються оптимізувати, мінімізуючи DKL(pm) за деякого обмеження. Це призвело до деякої неоднозначності в літературі, і деякі автори намагаються розв'язати цю невідповідність, переозначуючи перехресну ентропію як DKL(pm) замість H(p,m).

Відношення до доступної роботи

Графік залежності від тиску та об'єму доступної роботи молю газу аргону відносно н. у., обчисленої як To на розходження Кульбака — Лейблера.

Коли ймовірності перемножуються, несподіваності додаються.[18] Несподіваність для події з імовірністю p означено як s=kln(1/p). Якщо k є {1,1/ln2,1.38×1023}, то несподіваність є в {натах, бітах, або J/K}, так що, наприклад, у випадінні всіх аверсів при підкиданні N монет є N бітів несподіваності.

Найкращі припущення про стан (наприклад, для атомів у газі) виводять максимізуванням усередненої несподіваності (Шаблон:Lang-en) S (ентропії) для заданого набору контрольних параметрів (таких як тиск P чи об'єм V). Це обмежене Шаблон:Нп, як класично,[19] так і квантово-механічно,[20] мінімізує ґіббзову доступність в одиницях ентропії[21] Akln(Z), де Z є обмеженою вкладеністю або Шаблон:Нп.

Коли температура T є фіксованою, вільна енергія (T×A) також мінімізується. Таким чином, якщо T,V та число молекул N є сталими, то вільна енергія Гельмгольца FUTS (де U є енергією) мінімізується, коли система «врівноважується». Якщо T та P утримуються сталими (скажімо, під час процесів у вашому тілі), то натомість мінімізується вільна енергія Ґіббза G=U+PVTS. Зміна у вільній енергії за цих умов є мірою доступної роботи, яку могло би бути виконано в цьому процесі. Таким чином, доступною роботою для ідеального газу за сталої температури To та тиску Po є W=ΔG=NkToΘ(V/Vo), де Vo=NkTo/Po та Θ(x)=x1lnx0 (див. також Шаблон:Нп).

Загальніше,[22] доступну роботу відносно деяких нормальних умов отримують множенням нормальної температури To на розходження Кульбака — Лейблера або чисту несподіваність (Шаблон:Lang-en) ΔI0, означену як усереднене значення kln(p/po), де po є ймовірністю заданого стану за нормальних умов. Наприклад, доступною роботою у врівноважуванні одноатомного ідеального газу до нормальних значень Vo та To відтак є W=ToΔI, де розходження Кульбака — Лейблера

ΔI=Nk[Θ(VVo)+32Θ(TTo)].

Отримані в результаті контури сталого розходження Кульбака — Лейблера для одного молю аргону за стандартної температури та тиску, показані праворуч, наприклад, встановлюють межі для перетворення гарячого на холодне, як у кондиціюванні повітря із застосуванням полум'я, або в пристрої без живлення для перетворення окропу на крижану воду, обговорених тут.[23] Таким чином розходження Кульбака — Лейблера вимірює термодинамічну доступність в бітах.

Квантова теорія інформації

Для матриць густини P та Q на гільбертовім просторі КЛ-розходження (або Шаблон:Нп, як його часто називають у цьому випадку) від Q до P означено як

DKL(PQ)=Tr(P(log(P)log(Q))).

У квантовій інформатиці мінімум DKL(PQ) над усіма окремими станами Q можливо також використовувати як міру заплутаності в стані P.

Відношення між моделями та дійсністю

Подібно до того, як розходження Кульбака — Лейблера «чинного від нормального» вимірює термодинамічну доступність, розходження Кульбака — Лейблера «дійсності від моделі» є також корисним, навіть якщо єдиними підказками про дійсність, що ми маємо, є деякі експериментальні вимірювання. В першому випадку розходження Кульбака — Лейблера описує відстань до рівноіваги, або (будучи домноженим на нормальну температуру) величину доступної роботи, тоді як у другому випадку воно каже про несподіванки, що заховала дійсність у своєму рукаві, або, іншим словами, скільки модель ще має вчитися.

Хоча цей інструмент для оцінювання моделей відносно систем, що є доступними експериментально, можна застосовувати в будь-якій галузі, його застосування для обирання статистичної моделі через інформаційний критерій Акаіке описано особливо добре в працях[24] та книзі[25] Бернема та Андерсона. У двох словах, розходження Кульбака — Лейблера дійсності від моделі можна оцінювати з точністю до сталого адитивного члену функцією (такою як підсумовані квадрати) відхилень, що спостерігаються між даними та прогнозами моделі. Оцінки таких розходжень для моделей, що поділяють спільний адитивний член, можливо своєю чергою використовувати для здійснення вибору серед моделей.

Існують різноманітні оцінювачі, які намагаються мінімізувати розходження Кульбака — Лейблера при намаганні пристосовувати параметризовані моделі, такі як максимально-правдоподібнісні та Шаблон:Нп оцінювачі.

Усиметрене розходження

Самі Кульбак та Лейблер насправді означили це розходження як:

DKL(PQ)+DKL(QP)

що є симетричним та невід'ємним. Цю величину іноді використовували для обирання ознак у задачах класифікації, де P та Q є умовними ФГІ ознаки за двох різних випадків.

Альтернатива дається через λ-розходження,

Dλ(PQ)=λDKL(PλP+(1λ)Q)+(1λ)DKL(QλP+(1λ)Q),

яке можливо інтерпретувати як очікуваний приріст інформації про X від виявлення того, з якого розподілу вибирається X, з P чи з Q, якщо вони поточно мають імовірності λ та 1λ відповідно.Шаблон:Clarify Шаблон:Citation needed

Значення λ=0.5 дає Шаблон:Нп, означене як

DJS=12DKL(PM)+12DKL(QM)

де M є усередненням цих двох розподілів,

M=12(P+Q).

DJS також можливо інтерпретувати як ємність зашумленого інформаційного каналу з двома входами, що дають виходові розподіли P та Q. Розходження Єнсена — Шеннона, як і всі f-розходження, є локально пропорційним до Шаблон:Нп. Воно є подібним до Шаблон:Нп (в тому сенсі, що воно зумовлює такий самий афінний зв'язок на Шаблон:Нп).

Відношення до інших мір імовірнісної відстані

Існує багато інших важливих мір Шаблон:Нп. Деякі з них є особливо пов'язаними з розходженням Кульбака — Лейблера. Наприклад:

  • Шаблон:Нп, δ(p,q). Вона є пов'язаною з цим розходженням через Шаблон:Нп: δ(P,Q)12DKL(PQ)
  • Сімейство розходжень Реньї забезпечує узагальнення розходження Кульбака — Лейблера. Залежно від значення певного параметру, α, може бути виведено різноманітні нерівності.

До інших примітних мір відстані належать Шаблон:Нп, перетин гістограм (Шаблон:Lang-en), хі-квадратова статистика, відстань квадратичного вигляду (Шаблон:Lang-en), Шаблон:Нп, відстань Колмогорова — Смирнова та Шаблон:Нп.[26]

Віднімання даних

Шаблон:Докладніше1

Так само, як абсолютна ентропія слугує теоретичною основою для стискання даних, відносна ентрпоія слугує теоретичною основою для Шаблон:Нп — де абсолютна ентропія набору даних в цьому сенсі є даними, необхідними для його відтворення (мінімальний стиснений розмір), в той час як відносна ентропія цільового набору даних за заданого первинного набору даних є даними, необхідними для відтворення цільового за заданого первинного (мінімальний розмір латки).

Див. також

Шаблон:Div col

Шаблон:Div col end

Примітки

Шаблон:Reflist

Посилання

  1. Шаблон:Cite journal Шаблон:Ref-en
  2. 2,0 2,1 2,2 Шаблон:Citation. Republished by Шаблон:Нп in 1968; reprinted in 1978: Шаблон:Isbn. Шаблон:Ref-en
  3. Шаблон:Cite journal Шаблон:Ref-en
  4. Шаблон:Cite book Шаблон:Ref-en
  5. Bishop C. (2006). Pattern Recognition and Machine Learning Шаблон:Ref-en
  6. Шаблон:Cite book Шаблон:Ref-en
  7. Шаблон:Cite book Шаблон:Ref-en
  8. Шаблон:Cite journal Шаблон:Ref-en
  9. Шаблон:Cite journal Шаблон:Ref-en
  10. Novak S.Y. (2011), Extreme Value Methods with Applications to Finance ch. 14.5 (Chapman & Hall). Шаблон:Isbn. Шаблон:Ref-en
  11. Див. розділ «differential entropy – 4» у відео-лекції Серхіо Верду «Relative Entropy» Шаблон:Webarchive з Шаблон:Нп 2009 Шаблон:Ref-en
  12. Duchi J., "Derivations for Linear Algebra and Optimization Шаблон:Webarchive", Шаблон:Ref-en
  13. Шаблон:Cite book Шаблон:Ref-en
  14. Шаблон:Citation Шаблон:Ref-en
  15. Шаблон:Cite journal Шаблон:Ref-en
  16. Шаблон:Cite book Шаблон:Ref-en
  17. Thomas M. Cover, Joy A. Thomas (1991) Elements of Information Theory (John Wiley & Sons) Шаблон:Ref-en
  18. Myron Tribus (1961), Thermodynamics and Thermostatics (D. Van Nostrand, New York) Шаблон:Ref-en
  19. Шаблон:Cite journal Шаблон:Ref-en
  20. Шаблон:Cite journal Шаблон:Ref-en
  21. J.W. Gibbs (1873), "A method of geometrical representation of thermodynamic properties of substances by means of surfaces", reprinted in The Collected Works of J. W. Gibbs, Volume I Thermodynamics, ed. W. R. Longley and R. G. Van Name (New York: Longmans, Green, 1931) footnote page 52. Шаблон:Ref-en
  22. Шаблон:Cite journal Шаблон:Ref-en
  23. Шаблон:Cite journal Шаблон:Ref-en
  24. Шаблон:Cite journal Шаблон:Ref-en
  25. Burnham, K. P. and Anderson D. R. (2002), Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, Second Edition (Springer Science) Шаблон:Isbn. Шаблон:Ref-en
  26. Шаблон:Cite journal Шаблон:Ref-en