Інформація за Фішером
Шаблон:Короткий опис У математичній статистиці інформа́ція за Фі́шером (Шаблон:Lang-en, іноді звана просто інформа́цією, Шаблон:Lang-enШаблон:Sfnp) — це спосіб вимірювання кількості інформації, яку спостережувана випадкова величина X несе про невідомий параметр θ розподілу, який моделює X. Формально це дисперсія внеску, або математичне сподівання Шаблон:Li.
Роль інформації за Фішером в асимптотичній теорії оцінювання максимальною правдоподібністю підкреслив і дослідив статистик сер Рональд Фішер (після деяких початкових результатів Френсіса Ісидро Еджворта). Інформаційну матрицю за Фішером використовують для обчислення коваріаційних матриць, пов'язаних із оцінюванням максимальною правдоподібністю. Також її використовують у формулюванні статистичних критеріїв, як-от Шаблон:Li.
У баєсовій статистиці інформація за Фішером відіграє роль у виведенні неінформативних апріорних розподілів за Шаблон:Li.[1] Вона також з'являється як великови́біркова коваріація апостеріорного розподілу, за умови, що апріорний розподіл є достатньо гладеньким (результат, відомий як Шаблон:Li, передбачена Лапласом для Шаблон:Li).[2] Той же результат використовують при наближуванні апостеріорного розподілу за допомогою Шаблон:Li, де інформація за Фішером виступає як коваріація допасовуваного гауссового розподілу.[3]
Було показано, що статистичні системи наукового характеру (фізичні, біологічні тощо), чиї функції правдоподібності дотримуються Шаблон:Li, показують максимум інформації за Фішером.Шаблон:Sfnp Рівень цього максимуму залежить від характеру обмежень системи.
Визначення
Інформація за Фішером — це спосіб вимірювання кількості інформації, яку спостережувана випадкова величина несе про невідомий параметр , від якого залежить імовірність . Нехай — функція густини імовірності (або функція маси імовірності) для , обумовлена значенням . Вона описує ймовірність спостерігання заданого результату за умови відомого значення . Якщо дає гострий пік відносно змін , то вказати «правильне» значення з даних легко, або, іншими словами, дані містять багато інформації про параметр . Якщо ж пло́ска й розсіяна, тоді потрібно багато зразків , щоб оцінити справжнє «істинне» значення , яке могло би бути отримане з використанням усієї сукупності, з якої роблять вибірку. Це вказує на необхідність вивчення певного виду дисперсії відносно .
Формально частинну похідну за натурального логарифму функції правдоподібності називають внеском (Шаблон:Lang-en). За певних умов регулярності, якщо — істинний параметр (тобто справді розподілено як ), можливо показати, що математичне сподівання (перший момент) внеску, обчислене за істинного значення параметра , дорівнює 0:[4]
Інформацію за Фішером визначають як дисперсію внеску:Шаблон:Sfnp
зауважте, що . Випадкова величина, що несе високу інформацію за Фішером, вказує на те, що абсолютне значення внеску часто високе. Інформація за Фішером не є функцією конкретного спостереження, оскільки випадкову величину X було усереднено.
Якщо Шаблон:Nowrap двічі диференційовний за θ, і за певних умов регулярності, то інформацію за Фішером також можна записати якШаблон:Sfnp
оскільки
і
Отже, інформацію за Фішером можна розглядати як кривину Шаблон:Li (Шаблон:Lang-en, графіка логарифмічної правдоподібності). Поруч із оцінкою максимальною правдоподібністю, низька інформація за Фішером вказує на те, що максимум виглядає «тупим», тобто максимум неглибокий і багато сусідніх значень мають схожу логарифмічну правдоподібність. І, навпаки, висока інформація за Фішером вказує на те, що максимум гострий.
Умови регулярності
Умови регулярності такі:[5]
- Частинна похідна f(X; θ) за θ існує майже скрізь. (Вона може не існувати на нульовій множині, за умови, що ця множина не залежить від θ.)
- Інтеграл f(X; θ) можливо диференціювати під знаком інтеграла за θ.
- Носій f(X; θ) не залежить від θ.
Якщо θ — вектор, то умови регулярності мусять виконуватися для кожного компонента θ. Приклад густини, яка не задовольняє умови регулярності, знайти легко: густина рівномірної змінної Uniform(0, θ) не виконує умов 1 та 3. У цьому випадку, незважаючи на можливість обчислення інформації за Фішером за визначенням, вона не матиме властивостей, які зазвичай передбачаються.
В термінах правдоподібності
Оскільки правдоподібність θ для заданої X завжди пропорційна ймовірності f(X; θ), їхні логарифми обов'язково відрізняються на сталу, яка не залежить від θ, а похідні цих логарифмів за θ обов'язково рівні. Таким чином, до визначення інформації за Фішером замість Шаблон:Math можливо підставити функцію логарифмічної правдоподібності l(θ; X).
Вибірки будь-якого розміру
Значення X може подавати як один зразок, вибраний з одного розподілу, так і набір зразків, вибраних з набору розподілів. Якщо є n зразків, і відповідні n розподілів статистично незалежні, то інформація за Фішером обов'язково буде сумою значень інформації за Фішером для кожного окремого зразка з його розподілу. Зокрема, якщо ці n розподілів незалежні й однаково розподілені, то інформація за Фішером обов'язково становитиме n разів інформації за Фішером для одного зразка з загального розподілу. Іншими словами, інформація за Фішером н. о. р. спостережень вибірки розміру n із сукупності дорівнює добуткові n на інформацію за Фішером для одного спостереження з цієї ж сукупності.
Неформальний вивід межі Крамера — Рао
Нерівність Крамера — РаоШаблон:SfnpШаблон:Sfnp стверджує, що обернена величина інформації за Фішером є нижньою межею дисперсії будь-якого незміщеного оцінювача θ. Шаблон:Harvtxt та Шаблон:Harvtxt пропонують наступний метод виведення межі Крамера — Рао, результат, який описує застосування інформації за Фішером.
Неформально, почнімо з розгляду незміщеного оцінювача . Математично «незміщеність» означає, що
- незалежно від значення
Цей вираз нульовий незалежно від θ, тож його частинна похідна за θ також мусить бути нульовою. За правилом добутку ця частинна похідна також дорівнює
Для кожного значення θ функція правдоподібності є функцією густини ймовірності, отже, . Використовуючи ланцюгове правило для частинної похідної , а потім ділячи й множачи на , можливо перевірити, що
Використовуючи ці два факти в наведеному вище виразі, отримуємо
Розкладання підінтегрального виразу на множники дає
При піднесенні виразу в інтегралі до квадрату нерівність Коші — Буняковського дає
Другий множник у дужках визначається як інформація за Фішером, а перший множник є середньоквадратичною похибкою оцінювача . За перетворення, ця нерівність каже нам, що
Іншими словами, точність можливої оцінки параметра θ принципово обмежена інформацією за Фішером функції правдоподібності.
Іншим чином той же висновок можливо отримати безпосередньо з Шаблон:Li , застосувавши її до випадкових величин та , і побачивши, що для незміщених оцінювачів маємо
Приклади
Однопараметровий експеримент Бернуллі
Проба Бернуллі — це випадкова величина з двома можливими результатами: 0 та 1, де 1 має ймовірність θ. Цей результат можливо розглядати як підкидання несиметричної монети, де ймовірність випадіння аверса (1) дорівнює θ, а ймовірність випадіння реверса (0) — Шаблон:Nowrap.
Нехай X — проба Бернуллі однієї вибірки з розподілу. Інформацію за Фішером, яка міститься в X, можна обчислити як
Оскільки інформація за Фішером адитивна, інформація за Фішером для n незалежних випробувань Бернуллі становить
Якщо — один з можливих результатів n незалежних випробувань Бернуллі, а — j-й результат i-го випробування, то ймовірність задається як
Середнє значення i-го випробування становить Математичне сподівання середнього значення випробування:
де сума береться по всіх можливих результатах випробувань. Математичне сподівання квадрата середнього:
тож дисперсія значення середнього становить
Видно, що інформація за Фішером є оберненою величиною дисперсії середнього числа успіхів у n випробуваннях Бернуллі. Це правило є загальним. У цьому випадку нерівність Крамера — Рао є рівністю.
Оцінка θ за X ∼ Bern (√θ)
Як інший модельний приклад розгляньмо випадкову величину з можливими результатами 0 та 1 з імовірностями та відповідно, для деякого . Наша мета — оцінити зі спостережень .
Інформація за Фішером для цього випадку виглядає якЦей вираз також можливо вивести безпосередньо перепараметруванням наведеної нижче формули. Загальніше, для будь-якої достатньо регулярної функції , такої, що , інформація за Фішером для оцінки за обчислюється аналогічно:
Матричний вигляд
Коли параметрів N, тобто θ — вектор Шаблон:Nowrap, тоді інформація за Фішером набуває вигляду матриці Шаблон:Nowrap. Цю матрицю називають інформаці́йною ма́трицею за Фі́шером (ІМФ, Шаблон:Lang-en), і її типовий елемент
ІМФ — додатно напіввизначена матриця Шаблон:Nowrap. Якщо вона додатно визначена, то вона визначає ріманову метрику[6] на N-вимірному Шаблон:Li. Галузь Шаблон:Li використовує це для поєднання інформації за Фішером з диференціальною геометрією, і в цьому контексті ця метрика відома як Шаблон:Li.
За певних умов регулярності інформаційну матрицю за Фішером можна також записати як
Цей результат цікавий з кількох причин:
- Його можливо вивести як матрицю Гессе відносної ентропії.
- Його можливо використовувати як ріманову метрику для визначення геометрії Фішера — Рао, коли він додатно визначений.[7]
- Його можливо розуміти як метрику, індуковану з евклідової метрики, після відповідної заміни змінної.
- У комплекснозначному вигляді це метрика Фубіні — Штуді.
- Він є ключовою частиною доведення теореми Уїлкса, яка дозволяє оцінювати довірчі області для оцінювання максимальною правдоподібністю (для тих умов, для яких це застосовно), не потребуючи принципу правдоподібності.
- У випадках, коли наведені вище аналітичні обчислення ІМФ складні, можливо робити усереднення простих оцінок Монте-Карло матриці Гессе від'ємної функції логарифмічної правдоподібності як оцінку ІМФ.[8][9][10] Ці оцінки можуть ґрунтуватися на значеннях від'ємної функції логарифмічної правдоподібності або її градієнті; аналітичне обчислення матриці Гессе від'ємної функції логарифмічної правдоподібності не потрібне.
Інформаційно ортогональні параметри
Кажуть, що два вектори компонент параметрів θ1 та θ2 інформаційно ортогональні (Шаблон:Lang-en), якщо інформаційна матриця за Фішером блочно-діагональна з цими компонентами в окремих блоках.[11] Ортогональні параметри зручні тим, що їхні оцінки максимальною правдоподібністю асимптотично некорельовані. Коли йдеться про аналіз статистичної моделі, варто витратити певний час на пошук ортогонального параметрування моделі, особливо коли цільовий параметр одновимірний, але завадний параметр може мати будь-яку вимірність.[12]
Сингулярна статистична модель
Шаблон:See also Якщо інформаційна матриця за Фішером додатно визначена для всіх значень Шаблон:Mvar, то відповідну статистичну модель називають регулярною (Шаблон:Lang-en); інакше модель називають сингулярною (Шаблон:Lang-en).[13] До прикладів сингулярних статистичних моделей належать: гауссові Шаблон:Li, біноміальні суміші, багатовимірні суміші, баєсові мережі, нейронні мережі, радіальні базисні функції, приховані марковські моделі, Шаблон:Li, регресії зі зменшеним рангом (Шаблон:Lang-en), машини Больцмана.
У машинному навчанні, якщо статистичну модель розроблено так, що вона витягує приховану структуру з випадкового явища, то вона природно стає сингулярною.[14]
Багатовимірний нормальний розподіл
ІМФ для N-вимірного багатовимірного нормального розподілу має особливий вигляд. Нехай K-вимірний вектор параметрів це , а вектор випадкових нормальних величин це . Припустімо, що середні значення цих випадкових величин це , а — коваріаційна матриця. Тоді, для , елемент (m, n) ІМФ дорівнює:[15]
де позначує транспонування вектора, позначує слід квадратної матриці, а
Зауважте, що особливим, але дуже поширеним випадком є такий, коли , стала. Тоді
У цьому випадку інформаційну матрицю за Фішером можна ототожнити з матрицею коефіцієнтів Шаблон:Li теорії найменших квадратів.
Інший особливий випадок виникає, коли середнє та коваріація залежать від двох різних векторних параметрів, скажімо, β та θ. Це особливо популярне в аналізі просторових даних, де часто використовують лінійну модель з корельованими залишками. У такому випадку[16]
де
Властивості
Ланцюгове правило
Подібно до ентропії та взаємної інформації, інформація за Фішером також має розклад за ланцюго́вим пра́вилом (Шаблон:Lang-en). Зокрема, якщо X та Y — спільно розподілені випадкові величини, то має місце наступне:[17]
де , а — це інформація за Фішером Y щодо , обчислена за умовною густиною Y за заданого значення X = x.
Як окремий випадок, якщо дві випадкові величини незалежні, то інформація, яку вони дають, є сумою інформації від кожної з випадкових величин окремо:
Отже, інформація у вибірці з n незалежних однаково розподілених спостережень дорівнює n-кратній інформації для вибірки розміру 1.
f-розходження
Якщо задано опуклу функцію , таку, що скінченна для всіх , , а (яка може бути нескінченною), вона визначає f-розбіжність . Якщо строго опукла в , а потім локально в , інформаційна матриця за Фішером є метрикою, в тому сенсі що[18]де — розподіл, параметрований , тобто розподіл з функцією густини ймовірності .
У такій формі видно, що інформаційна матриця за Фішером є рімановою метрикою і правильно змінюється за зміни змінних. (див. розділ про перепараметрування.)
Достатня статистика
Інформація, яку надає достатня статистика, є такою ж, як і інформація вибірки X. Це можна побачити, використовуючи критерій розкладу Неймана для достатньої статистики. Якщо T(X) достатня для θ, то
для деяких функцій g та h. З незалежності h(X) від θ випливає, що
а рівність інформації випливає з визначення інформації за Фішером. Загальніше, якщо Шаблон:Nowrap — статистика, то
і рівність виконується тоді й лише тоді, коли T — достатня статистика.[19]
Перепараметрування
Інформація за Фішером залежить від параметрування задачі. Якщо θ та η — два скалярні параметрування задачі оцінювання, і θ — неперервно диференційовна функція від η, то
де та — інформаційні міри за Фішером для η та θ відповідно.Шаблон:Sfnp
У випадку векторів, нехай та — k-вектори, які параметрують задачу оцінювання, і нехай — неперервно диференційовна функція від , тодіШаблон:Sfnp
де елемент (i, j) матриці Якобі k × k визначається як
і де — транспонована матриця .
В Шаблон:Li це розглядають як зміну координат на рімановому многовиді, і внутрішні властивості кривини залишаються незмінними за різних параметрувань. Загалом, інформаційна матриця за Фішером забезпечує ріманову метрику (точніше, метрику Фішера — Рао) для многовиду термодинамічних станів і її можливо використовувати як міру інформаційно-геометричної складності для класифікації фазових переходів, наприклад, скалярна кривина тензора термодинамічної метрики розбігається в точці фазового переходу (і лише там).[20]
У термодинамічному контексті інформаційна матриця за Фішером безпосередньо пов'язана з темпом зміни відповідних параметрів порядку.[21] Зокрема, такі зв'язки дозволяють виявляти фазові переходи другого порядку через розбіжність окремих елементів інформаційної матриці за Фішером.
Ізопериметрична нерівність
Інформаційна матриця за Фішером відіграє роль у нерівності, подібній до ізопериметричної нерівності.[22] Серед усіх імовірнісних розподілів із заданою ентропією, той, чия інформаційна матриця за Фішером має найменший слід, є гауссовим розподілом. Це подібно до того, як серед усіх обмежених множин із заданим об'ємом найменшу площу поверхні має сфера.
Доведення містить взяття багатовимірної випадкової величини з функцією густини і додавання параметра положення для утворення сімейства густин . Тоді, за аналогією з Шаблон:Li, «площа поверхні» визначається як
де — гауссова змінна з коваріаційною матрицею . Назва «площа поверхні» підходить, оскільки ентропійна потужність є об'ємом «ефективної опорної множини»,[23] тому є «похідною» від об'єму ефективної опорної множини, подібно до формули Мінковського — Штайнера. Решта доведення використовує Шаблон:Li, яка подібна до Шаблон:Li. Слід інформаційної матриці за Фішером виявляється пропорційним .
Застосування
Оптимальне планування експериментів
Інформацію за Фішером широко використовують в оптимальному плануванні експериментів. Через взаємозв'язок дисперсії оцінювача та інформації за Фішером мінімізування цієї дисперсії відповідає максимізуванню цієї інформації.
Коли лінійна (або Шаблон:Li) статистична модель містить декілька параметрів, середнє оцінювача цих параметрів є вектором, а його дисперсія — матрицею. Обернення матриці дисперсій називають «інформаційною матрицею» (Шаблон:Lang-en). Оскільки дисперсія оцінювача вектору параметрів — матриця, задача «мінімізування дисперсії» ускладнюється. За допомогою теорії статистики статистики стискають інформаційну матрицю до дійснозначних зведених статистик; як дійснозначні функції, ці «інформаційні критерії» можливо максимізувати.
Традиційно статистики оцінювали оцінювачі та плани експериментів за допомогою певної зведеної статистики коваріаційної матриці (незміщеного оцінювача), зазвичай із додатними дійсними значеннями (на кшталт визначника або сліду матриці). Робота з додатними дійсними числами має кілька переваг: якщо оцінювач одного параметра має додатну дисперсію, то дисперсія та інформація за Фішером є додатними дійсними числами; отже, вони є елементами опуклого конуса невід'ємних дійсних чисел (ненульові елементи якого мають обернені значення в цьому ж конусі).
Для декількох параметрів коваріаційні та інформаційні матриці є елементами опуклого конуса невід'ємно визначених симетричних матриць у частково Шаблон:Li з Шаблон:Li. Цей конус замкнений щодо додавання та обернення матриць, а також щодо множення додатних дійсних чисел і матриць. Огляд теорії матриць і порядку Льовнера наведено у праці Пукельсгайма.[24]
Традиційні критерії оптимальності є інваріантами інформаційної матриці в сенсі теорії інваріантів; алгебрично, традиційні критерії оптимальності є функціоналами власних значень (фішерової) інформаційної матриці (див. оптимальне планування).
Апріорний розподіл Джеффріса в баєсовій статистиці
У баєсовій статистиці інформацію за Фішером використовують для обчислення Шаблон:Li, стандартного неінформативного апріорного розподілу для параметрів неперервних розподілів.[25]
Обчислювальна нейронаука
Інформацію за Фішером використовували для знаходження меж точності нейронних кодів. У цьому випадку X зазвичай є спільними відгуками багатьох нейронів, які подають низьковимірну змінну θ (як-от параметр Шаблон:Li). Зокрема, досліджували роль кореляцій у шумі нейронних відгуків.[26]
Епідеміологія
Інформацію за Фішером використовували для дослідження інформативності різних джерел даних для оцінки репродукційного числа SARS-CoV-2.[27]
Виведення фізичних законів
Інформація за Фішером відіграє центральну роль у суперечливому принципі, висунутому Шаблон:Li як основа фізичних законів, що є предметом дискусій.[28]
Машинне навчання
Інформацію за Фішером використовують у методиках машинного навчання, таких як Шаблон:Li,[29] які знижують Шаблон:Li у штучних нейронних мережах.
Інформацію за Фішером можливо використовувати як альтернативу матриці Гессе функції втрат у тренуванні мереж градієнтним спуском другого порядку.[30]
Розрізнення кольорів
Використовуючи Шаблон:Li, да Фонсека та ін.[31] досліджували, наскільки Шаблон:Li (еліпси розрізнення кольорів) можливо вивести з Шаблон:Li фоторецепторів сітківки.
Зв'язок із відносною ентропією
Шаблон:See also Інформація за Фішером пов'язана з відносною ентропією.[32] Відносну ентропію, або розходження Кульбака — Лейблера, між двома розподілами та можливо записати як
Тепер розгляньмо сімейство ймовірнісних розподілів , параметрованих . Тоді розходження Кульбака — Лейблера між двома розподілами в цьому сімействі можливо записати як
Якщо параметр незмінний, то відносна ентропія між двома розподілами з того ж сімейства мінімізується при . Для значень , близьких до , попередній вираз можна розкласти в ряд до другого порядку:
Але другу похідну можливо записати як
Тож інформація за Фішером подає кривину відносної ентропії умовного розподілу відносно його параметрів.
Історія
Інформацію за Фішером обговорювали кілька ранніх статистиків, зокрема Ф. І. Еджворт.Шаблон:Sfnp Наприклад, СевіджШаблон:Sfnp пише: «У ній [інформації за Фішером] його [Фішера] певною мірою передбачили (Еджворт 1908–9, особливо стор. 502, 507–8, 662, 677–8, 82–5 і посилання, які він [Еджворт] наводить, включно з Пірсоном і Філоном 1898 [. . .])». Існує кілька ранніх історичних джерелШаблон:Sfnmp і кілька оглядів цієї ранньої роботи.Шаблон:SfnpШаблон:SfnmpШаблон:Sfnmp
Див. також
Інші міри, які використовують у теорії інформації:
Примітки
Джерела
- Шаблон:Cite book
- Шаблон:Cite journal
- Шаблон:Cite journal
- Шаблон:Cite journal
- Шаблон:Cite journal
- Шаблон:Cite book
- Шаблон:Cite journal
- Шаблон:Cite journal
- Шаблон:Cite book
- Шаблон:Cite book
- Шаблон:Cite book
- Шаблон:Cite journal
- Шаблон:Cite book
- Шаблон:Cite journal
- Шаблон:Cite book
- Шаблон:Cite bookШаблон:Page needed
- Шаблон:Cite journal
- Шаблон:Cite book Шаблон:Page needed
- Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite web Шаблон:Webarchive
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Spall, J. C. (2008), "Improved Methods for Monte Carlo Estimation of the Fisher Information Matrix," Proceedings of the American Control Conference Шаблон:Ref-en, Seattle, WA, 11–13 June 2008, pp. 2395–2400. https://doi.org/10.1109/ACC.2008.4586850
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Citation.
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Gourieroux & Montfort (1995), page 87 Шаблон:Ref-en