Перехресна ентропія

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Теорія інформації У теорії інформації перехресна ентропія між двома розподілами ймовірності p та q над спільним простором подій вимірює середню кількість біт, необхідних для впізнання події з простору подій, якщо схема кодування, що використовується, базується на розподілі ймовірностей q, замість «істинного» розподілу p.

Визначення

Перехресна ентропія двох розподілів p і q на тому самому ймовірнісному просторі визначається наступним чином:

H(p,q)=Ep[logq].

Вираз можна переформулювати за допомогою DKL(p||q) — дивергенції Кульбака — Лейблера від q до p (також відома як відносна ентропія p відносно q)

H(p,q)=H(p)+DKL(pq),

де H(p) — ентропія p.

Для дискретного випадку p і q над одним і тим же Шаблон:Нп 𝒳 це значить, що

Для неперервного розподілу аналогічна ситуація. Ми припускаємо, що p та q абсолютно неперервні відносно деякої міри r (зазвичай r є мірою Лебега на борелевій σ-алгебрі). Нехай P та Q будуть функціями густини ймовірностей p та q відносно r. Тоді

NB: Запис H(p,q) іноді використовується як для перехресної ентропії, так і для спільної ентропії p і q.

Мінімізація перехресної ентропії

Мінімізація перехресної ентропії часто використовується під час оптимізації та для оцінки імовірностей рідкісних випадків.

Застосування у машинному навчанні

У контексті машинного навчання перехресна ентропія  — це міра похибки для задачі Шаблон:Нп. Зазвичай «істинний» розподіл (той, якому намагається відповідати алгоритм машинного навчання) виражається в термінах унітарного кодування.

Наприклад, припустимо, що для конкретного навчального екземпляра справжньою міткою є B з можливих міток A, B і C. Таким чином, унітарний розподіл для цього навчального екземпляра буде:

Pr(Class A) Pr(Class B) Pr(Class C)
0.0 1.0 0.0

Ми можемо інтерпретувати наведений вище істинний розподіл так, що навчальний екземпляр має 0% ймовірності бути класом A, 100% ймовірності бути класом B і 0% ймовірністю бути класом C.

Тепер припустимо, що алгоритм машинного навчання прогнозує такий розподіл ймовірностей:

Pr(Class A) Pr(Class B) Pr(Class C)
0.10 0.70 0.20

Наскільки близький прогнозований розподіл до справжнього? Саме це визначає перехресна ентропія, якщо її обрано як функцію втрати. Застосуємо формулу (Рів. 1):

H(p,q)=(0.0*ln(0.1)+1.0*ln(0.7)+0.0*ln(0.2))=ln(0.7)0.36

Див. також

Шаблон:Без джерел Шаблон:Перекласти Шаблон:Інформатика-доробити