Інформаційний критерій Акаіке

́Інформаційний критерій Акаіке (ІКА, Шаблон:Lang-en) — це оцінювач похибки позавибіркового передбачування, і відтак відносної якості статистичних моделей, для заданого набору даних.^[1]^[2] Маючи сукупність моделей для цих даних, ІКА оцінює якість кожної з моделей відносно кожної з інших моделей. Таким чином, ІКА пропонує засоби для обирання моделі.

ІКА ґрунтується на теорії інформації. Коли статистичну модель використовують для представлення процесу, що породив дані, це представлення майже ніколи не буде точним, тож деяка інформація при застосуванні цієї моделі для представлення цього процесу втрачатиметься. ІКА оцінює відносну кількість інформації, що втрачає задана модель: що менше інформації втрачає модель, то вищою є її якість.

В оцінюванні кількості інформації, що втрачає модель, ІКА має справу з компромісом між допасованістю моделі та її простотою. Іншими словами, ІКА працює як із ризиком перенавчання, так і з ризиком недонавчання.

Інформаційний критерій Акаіке названо на честь статистика Шаблон:Нп, який його сформулював. Він тепер формує основу однієї з парадигм Шаблон:Нп, а також знаходить широкого вжитку в статистичному висновуванні.

Означення

Припустімо, що ми маємо статистичну модель якихось даних. Нехай Шаблон:Math буде числом оцінюваних параметрів у цій моделі. Нехай $\hat{L}$ буде максимальним значенням функції правдоподібності для цієї моделі. Тоді значенням ІКА цієї моделі є наступне.Шаблон:Sfn Шаблон:Sfn

A I C = 2 k - 2 \ln (\hat{L})

Для заданого набору моделей-кандидатів даних найкращою моделлю є та, що має мінімальне значення ІКА. Таким чином, ІКА винагороджує допасованість (за оцінкою функції правдоподібності), але також включає штраф, що є висхідною функцією числа оцінюваних параметрів. Цей штраф перешкоджає перенавчанню, оскільки збільшення числа параметрів у моделі майже завжди покращує її допасованість.

ІКА засновано на теорії інформації. Припустімо, що дані породжуються якимось невідомим процесом f. Ми розглядаємо дві моделі-кандидати для представлення f: g₁ та g₂. Якби ми знали f, то могли би знайти втрату інформації від застосування g₁ для представлення f шляхом обчислення розходження Кульбака — Лейблера, Шаблон:Nowrap; аналогічно, втрату інформації від застосування g₂ для представлення f може бути знайдено обчисленням Шаблон:Nowrap. Тоді би ми, загалом, обрали модель-кандидата, що мінімізує втрату інформації.

Ми не можемо обирати з упевненістю, оскільки не знаємо f. Проте Шаблон:Harvnb показав, що за допомогою ІКА ми можемо оцінити, наскільки більше (або менше) інформації втрачається моделлю g₁, аніж моделлю g₂. Ця оцінка, проте, є вірною лише Шаблон:Нп: якщо кількість точок даних є малою, то часто є необхідним додаткове коригування (див. § ІКАк нижче).

Зауважте, що ІКА не каже нічого про абсолютну якість моделі, лише про якість відносно інших моделей. Таким чином, якщо всі моделі-кандидати допасовуються погано, ІКА не видасть жодного попередження про це. Отже, після обрання моделі за допомогою ІКА, зазвичай доброю практикою є підтвердити абсолютну якість моделі. Таке підтвердження зазвичай включає перевірку залишків моделі (щоби визначити, чи виглядають залишки випадковими), та перевірки передбачень моделі. Докладніше з цієї теми див. затверджування статистичної моделі.

Як використовувати ІКА на практиці

Для застосування ІКА на практиці ми починаємо з набору моделей-кандидатів, а потім знаходимо відповідні значення ІКА цих моделей. Через застосування моделі-кандидата для представлення «справжньої моделі», тобто процесу, що породив дані, втрата інформації буде майже завжди. Серед моделей-кандидатів ми хочемо обрати таку, що мінімізує цю втрату інформації. Ми не можемо обирати з упевненістю, але ми можемо мінімізувати оцінювану втрату інформації.

Припустімо, що є R моделей-кандидатів. Позначмо значення ІКА (Шаблон:Lang-en) для цих моделей через AIC₁, AIC₂, AIC₃, …, AIC_R. Нехай AIC_min буде мінімальним із цих значень. Тоді величину exp((AIC_min − AIC_i)/2) можливо інтерпретувати як пропорційну до ймовірності того, що i-та модель мінімізує (оцінювану) втрату інформації.Шаблон:Sfn

Як приклад, припустімо, що є три моделі-кандидати, значеннями ІКА яких є 100, 102 та 110. Тоді друга модель є в exp((100 − 102)/2) = 0.368 разів імовірнішою за першу модель для мінімізації втрати інформації. Аналогічно, третя модель є в exp((100 − 110)/2) = 0.007 разів імовірнішою за першу для мінімізації втрати інформації.

В цьому прикладі ми опустимо третю модель із подальшого розгляду. Тоді ми матимемо три варіанти: (1) зібрати більше даних у надії, що це дозволить здійснити чітке розрізнення між першими двома моделями; (2) просто зробити висновок, що дані є недостатніми для підтримки обрання моделі з-поміж цих двох; (3) взяти зважене середнє перших двох моделей з ваговими коефіцієнтами, пропорційними 1 та 0.368 відповідно, і потім здійснювати статистичне висновування на основі зваженої мультимоделі.Шаблон:Sfn

Величина exp((AIC_min − AIC_i)/2) є відомою як відносна правдоподібність моделі i. Вона є тісно пов'язаною з відношенням правдоподібностей, що використовують у перевірці відношенням правдоподібностей. Дійсно, якщо всі моделі в наборі кандидатів мають однакове число параметрів, то застосування ІКА може спершу здаватися дуже схожим на застосування перевірки відношенням правдоподібностей. Проте є істотні відмінності. Зокрема, перевірка відношенням правдоподібностей є чинною лише для вкладених моделей, тоді як ІКА (та ІКАк) не мають такого обмеження.Шаблон:Sfn Шаблон:Sfn

Перевірка гіпотез

Кожну перевірку статистичних гіпотез може бути сформульовано як порівняння статистичних моделей. Отже, кожну перевірку статистичних гіпотез може бути відтворено через ІКА. У підрозділах нижче коротко описано два приклади. Деталі для цих прикладів, та набагато більше прикладів, наведено в Шаблон:Harvnb та Шаблон:Harvnb.

Відтворення t-критерію Стьюдента

Як приклад перевірки гіпотез, розгляньмо t-критерій для порівнювання середніх значень двох нормально розподілених сукупностей. Вхід до t-критерію складається з випадкової вибірки з кожної з цих двох сукупностей.

Щоби сформулювати цей критерій як порівняння моделей, ми будуємо дві різні моделі. Перша модель моделює ці дві сукупності як такі, що мають потенційно різні середні значення та стандартні відхилення. Функція правдоподібності для першої моделі відтак є добутком правдоподібностей для двох різних нормальних розподілів, тож вона має чотири параметри: Шаблон:Math. Щоби бути точними, ця функція правдоподібності є наступною (із позначенням розмірів вибірок через Шаблон:Math and Шаблон:Math).

ℒ (μ_{1}, σ_{1}, μ_{2}, σ_{2}) =

\prod_{i = 1}^{n_{1}} \frac{1}{\sqrt{2 π} σ_{1}} \exp (- \frac{(x_{i} - μ_{1})^{2}}{2 σ_{1}^{2}}) \cdot \prod_{i = n_{1} + 1}^{n_{1} + n_{2}} \frac{1}{\sqrt{2 π} σ_{2}} \exp (- \frac{(x_{i} - μ_{2})^{2}}{2 σ_{2}^{2}})

Друга модель моделює ці дві сукупності як такі, що мають однакові середні, але потенційно різні стандартні відхилення. Функція правдоподібності для другої моделі відтак встановлює в наведеному вище рівнянні Шаблон:Math, тож вона має три параметри.

Потім ми максимізуємо ці функції правдоподібності для цих двох моделей (на практиці ми максимізуємо функції логарифмічної правдоподібності), після чого стає просто обчислити значення ІКА цих моделей. Далі ми обчислюємо відносну правдоподібність. Наприклад, якщо друга модель виявиться лише в 0.01 разів правдоподібнішою за першу, то ми виключимо другу модель із подальшого розгляду: тож ми зробимо висновок, що ті дві сукупності мають різні середні.

t-критерій виходить із того, що дві сукупності мають ідентичні стандартні відхилення. Цей критерій схильний бути ненадійним, якщо це припущення є хибним, а також якщо розміри двох вибірок є дуже різними (Шаблон:Нп був би кращим). Порівнювання середніх значень через ІКА, як у прикладі вище, має перевагу, бо не спирається на це припущення.

Порівнювання наборів категорійних даних

Як інший приклад перевірки гіпотез, припустімо, що ми маємо дві сукупності, й кожен із членів кожної сукупності перебуває в одній з двох категоій: категорії № 1, або категорії № 2. Кожна з сукупностей є розподіленою біноміально. Ми хочемо знати, чи є розподіли цих двох сукупностей однаковими. Нам дали випадкову вибірку з кожної з двох сукупностей.

Нехай Шаблон:Math буде розміром вибірки з першої сукупності. Нехай Шаблон:Math буде числом спостережень (у цій вибірці) в категорії № 1, тож числом спостережень у категорії № 2 буде Шаблон:Math. Аналогічно, нехай Шаблон:Math буде розміром вибірки з другої сукупності. Нехай Шаблон:Math буде числом спостережень (у цій вибірці) в категорії № 1.

Нехай Шаблон:Mvar буде ймовірністю того, що випадково обраний член першої сукупності перебуває в категорії № 1. Отже, ймовірністю того, що випадково обраний член першої сукупності перебуває в категорії № 2, буде Шаблон:Math. Зауважте, що розподіл першої сукупності має один параметр. Нехай Шаблон:Mvar буде ймовірністю того, що випадково обраний член другої сукупності перебуває в категорії № 1. Зауважте, що розподіл другої сукупності також має один параметр.

Щоби порівняти розподіли цих двох сукупностей, ми будуємо дві різні моделі. Перша модель моделює, що ці дві сукупності мають потенційно різні біноміальні розподіли. Функцією правдоподібності для першої моделі відтак є добуток правдоподібностей для двох відмінних біноміальних розподілів, тож вона має два параметри: Шаблон:Mvar, Шаблон:Mvar. Щоби бути точними, ця функція правдоподібності є наступною:

ℒ (p, q) = \frac{m!}{m_{1}! (m - m_{1})!} p^{m_{1}} (1 - p)^{m - m_{1}} \cdot \frac{n!}{n_{1}! (n - n_{1})!} q^{n_{1}} (1 - q)^{n - n_{1}}

Друга модель моделює, що ці дві сукупності мають один і той же розподіл. Функція правдоподібності для другої моделі відтак встановлює в наведеному вище рівнянні Шаблон:Math, тож ця друга модель має один параметр.

Потім ми максимізуємо ці функції правдоподібності для цих двох моделей (на практиці ми максимізуємо функції логарифмічної правдоподібності), після чого стає просто обчислити значення ІКА цих моделей. Далі ми обчислюємо відносну правдоподібність. Наприклад, якщо друга модель виявилася лише в 0.01 разів правдоподібнішою за першу, то ми виключимо другу модель з подальшого розгляду: тож ми можемо зробити висновок, що ці дві сукупності мають різні розподіли.

Засади статистики

Статистичне висновування розглядають як таке, що складається з перевіряння та оцінювання гіпотез. Перевіряння гіпотез можливо здійснювати за допомогою ІКА, як обговорено вище. Стосовно оцінювання, існує два типи: точкове оцінювання та Шаблон:Нп. Точкове оцінювання можливо здійснювати в межах парадигми ІКА: його забезпечує оцінка максимальної правдоподібності. Проміжкове оцінювання також можливо здійснювати в межах парадигми ІКА: його забезпечують проміжки правдоподібності. Отже, статистичне висновування загалом можливо здійснювати в межах парадигми ІКА.

Найширше вживаними парадигмами статистичного висновування є частотницьке висновування та баєсове висновування. Проте ІКА можливо використовувати для статистичного висновування без покладання як на частотницьку парадигму, так і на баєсову, оскільки ІКА можливо інтерпретувати без допомоги рівнів значущості та баєсових апріорних.Шаблон:Sfn Іншими словами, ІКА може бути використано для формування Шаблон:Нп, відмінних як від частотництва, так і від баєсівства.Шаблон:Sfn Шаблон:Sfn

Шаблон:AnchorВидозміна для маленького розміру вибірки

Коли розмір вибірки є маленьким, існує реальна ймовірність того, що ІКА обиратиме моделі, які мають забагато параметрів, тобто, що ІКА перенавчатиметься.Шаблон:Sfn Шаблон:Sfn Шаблон:Sfn Для подолання такого потенційного перенавчання було розроблено ІКАк: це ІКА з коригуванням для маленьких розмірів вибірок.

Формула ІКАк залежить від статистичної моделі. Якщо виходити з того, що модель є Шаблон:Нп, лінійною відносно своїх параметрів, та має нормально розподілені залишки (обумовлені регресорами), то формула ІКАк є такою:Шаблон:Sfn Шаблон:Sfn

A I C c = A I C + \frac{2 k^{2} + 2 k}{n - k - 1}

де n позначає розмір вибірки, а k позначає кількість параметрів. Таким чином, ІКАк по суті є ІКА з додатковим членом штрафу на число параметрів. Зауважте, що коли Шаблон:Math, цей додатковий член штрафу збігається до 0, і відтак ІКАк збігається до ІКА.Шаблон:Sfn

Якщо припущення про те, що модель є одновимірною та лінійною з нормальними залишками, не виконується, то формула ІКАк в загальному випадку відрізнятиметься від наведеної вище. Для деяких моделей визначити цю формулу може бути складно. Втім, для кожної моделі, для якої існує ІКАк, формула ІКАк задається як ІКА плюс член, який включає як Шаблон:Math, так і Шаблон:Math². Для порівняння, формула ІКА включає Шаблон:Math, але не Шаблон:Math². Іншими словами, ІКА є Шаблон:Нп (втрат інформації), в той час як ІКАк є Шаблон:Нп.Шаблон:Sfn

Подальше обговорення цієї формули, з прикладами та іншими припущеннями, наведено в Шаблон:Harvnb та Шаблон:Harvnb. Зокрема, за інших припущень, часто є придатною натяжкова оцінка цієї формули.

Щоби підсумувати, ІКАк має перевагу в схильності бути точнішим за ІКА (особливо для малих вибірок), але ІКАк також має недолік іноді бути набагато складнішим для обчислення, ніж ІКА. Зауважте, що якщо всі моделі-кандидати мають однакову Шаблон:Math та однакові формули ІКАк, то ІКАк та ІКА даватимуть ідентичні (відносно) оцінки. Отже, не буде недоліку в застосуванні ІКА замість ІКАк. Крім того, якщо Шаблон:Math у багато разів більше за Шаблон:Math², то додатковий член штрафу буде незначним, а отже, незначними будуть і недоліки застосування ІКА замість ІКАк.

Історія

Інформаційний критерій Акаіке було сформульовано статистиком Шаблон:Нп. Первинно його було названо «інформаційним критерієм».Шаблон:Sfn Англійською про нього було вперше заявлено Акаіке на симпозіумі 1971 року, протокол якого було опубліковано 1973 року.Шаблон:Sfn Шаблон:Sfn Публікація 1973 року, однак, була лише неформальним представленням цих понять.Шаблон:Sfn Першою формальною публікацією була праця Акаіке 1974 року.Шаблон:Sfn Станом на жовтень 2014 року праця 1974 року отримала понад 14 000 цитувань в Web of Science, ставши 73-тьою найцитованішою працею за всі часи.^[3]

На сьогодні ІКА став настільки поширеним, що його часто використовують без цитування праці Акаіке 1974 року. Дійсно, існує понад 150 000 наукових статей/книг, що використовують ІКА (за оцінкою Google Scholar).^[4]

Початкове виведення ІКА покладалося на деякі сильні припущення. Шаблон:Harvnb показав, що ці припущення може бути зроблено значно слабшими. Але праця Такеуті була японською, і не була широко відомою за межами Японії протягом багатьох років.

ІКАк початково запропонував для лінійної регресії (лише) Шаблон:Harvnb. Це спровокувало працю Шаблон:Harvnb та кілька подальших праць цих же авторів, що розширили ситуації, в яких можливо застосовувати ІКАк.

Першим загальним викладом підходу теорії інформації була книга Шаблон:Harvnb. Вона включає англомовне представлення праці Такеуті. Ця книга призвела до поширення застосування ІКА, і наразі вона має понад 48 000 цитувань на Google Scholar.

Акаіке назвав свій підхід «принципом максимізації ентропії», оскільки він ґрунтується на понятті ентропії в теорії інформації. Дійсно, мінімізація ІКА в статистичній моделі є фактично рівнозначною максимізації ентропії в термодинамічній системі; іншими словами, підхід теорії інформації в статистиці є по суті застосуванням другого закону термодинаміки. По суті, ІКА має корені в праці Людвіга Больцмана про ентропію. Більше про ці питання див. Шаблон:Harvnb та Шаблон:Harvnb.

Поради щодо застосування

Підрахунок параметрів

Статистична модель мусить допасовуватися до всіх точок даних. Таким чином, пряма лінія сама по собі не є моделлю даних, якщо не всі точки даних лежать точно на цій лінії. Проте ми можемо обрати модель, яка є «прямою лінією плюс шум»; таку модель може бути формально описано таким чином: y_i = b₀ + b₁x_i + ε_i. Тут ε_i є залишками від допасовування прямої лінії. Якщо ε_i вважаються гаусовими НОР (з нульовим середнім значенням), то модель має три параметри: b₀, b₁ та дисперсію цих гаусових розподілів. Отже, при обчисленні ІКА цієї моделі ми повинні використовувати k=3. Загальніше, для будь-якої моделі найменших квадратів з гаусовими НОР залишками дисперсія розподілів залишків повинна рахуватися як один з параметрів.Шаблон:Sfn

Як інший приклад розгляньмо авторегресійну модель першого порядку, визначену як x_i = c + φx_i−1 + ε_i, де ε_i є гаусовими НОР (з нульовим середнім значенням). У випадку цієї моделі існує три параметри: c, φ та дисперсія ε_i. Загальніше, авторегресійна модель p-того порядку має p + 2 параметри. (Проте, якщо c не оцінюється з даних, а є натомість заданим заздалегідь, тоді параметрів є лише p + 1.)

Перетворювання даних

Значення ІКА для всіх моделей-кандидатів мусить бути обчислювано на одному й тому ж наборі даних. Проте іноді нам може захотітися порівняти модель змінної відгуку, Шаблон:Math, із моделлю логарифма змінної відгуку, Шаблон:Math. Загальніше, нам може захотітися порівняти модель даних із моделлю перетворених даних. Далі наведено ілюстрацію того, як давати раду перетворенням даних (пристосовано з Шаблон:Harvnb: «Дослідники повинні бути впевнені, що моделюють всі гіпотези, застосовуючи одну й ту ж змінну відгуку»).

Припустімо, що ми хочемо порівнювати дві моделі: одну з нормальним розподілом Шаблон:Math, та одну з нормальним розподілом Шаблон:Math. Ми не повинні порівнювати значення ІКА двох моделей напряму. Натомість ми повинні перетворити нормальну кумулятивну функцію розподілу, щоби спочатку взяти логарифм Шаблон:Math. Для здійснення цього нам потрібно виконати відповідне Шаблон:Нп: таким чином, нам потрібно помножити на похідну функції (натурального) логарифма, що є Шаблон:Math. Отже, перетворений розподіл має наступну функцію густини ймовірності:

y \mapsto \frac{1}{y} \frac{1}{\sqrt{2 π σ^{2}}} \exp (- \frac{{(\ln y - μ)}^{2}}{2 σ^{2}})

що є функцією густини ймовірності логнормального розподілу. Тепер ми можемо порівнювати значення ІКА нормальної моделі зі значенням ІКА логнормальної моделі.

Ненадійність програмного забезпечення

Деяке статистичне програмне забезпечення повідомлятиме значення ІКА або максимальне значення функції логарифмічної правдоподібності, але ці значення не завжди є правильними. Як правило, неправильність спричинюється нехтуванням сталою в логарифмічній функції правдоподібності. Наприклад, функцією логарифмічної правдоподібності для Шаблон:Math незалежних ідентичних нормальних розподілів є

\ln ℒ (μ, σ) = - \frac{n}{2} \ln (2 π) - \frac{n}{2} \ln σ^{2} - \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (x_{i} - μ)^{2}

Це є функцією, що максимізують при отримуванні значення ІКА. Проте деяке програмне забезпечення нехтує сталим членом Шаблон:Math, і таким чином повідомляє помилкові значення максимумів логарифмічних правдоподібностей, і, відтак, ІКА. Такі помилки не мають значення для порівнянь на основі ІКА, якщо всі моделі мають нормально розподілені залишки, оскільки тоді помилки взаємно компенсуються. Проте в загальному випадку сталий член потребує включення до функції логарифмічної правдоподібності.Шаблон:Sfn Отже, перш ніж застосовувати програмне забезпечення для обчислення ІКА, в загальному випадку є гарною звичкою виконати якісь прості перевірки на цьому програмному забезпеченні, щоби переконатися, що значення цієї функції є правильними.

Порівняння з іншими методами обирання моделі

Порівняння з БІК

Формула баєсова інформаційного критерію (БІК) є подібною до формули ІКА, але має відмінний штраф на число параметрів. В ІКА цим штрафом є Шаблон:Math, тоді як в БІК штрафом є Шаблон:Math.

Порівняння ІКА/ІКАк та БІК наведено в Шаблон:Harvnb, з подальшими зауваженнями в Шаблон:Harvnb. Автори показують, що ІКА/ІКАк може бути виведено в такій самій баєсовій системі, що й БІК, просто застосованням інших апріорних імовірностей. Проте, в баєсовім виведенні БІК кожна модель-кандидат має апріорну ймовірність 1/R (де R є числом моделей-кандидатів). Таке виведення є «не чутливим» (Шаблон:Lang-en), оскільки апріорне повинне бути спадною функцією від Шаблон:Math. Крім того, ці автори представляють кілька імітаційних досліджень, які наводять на думку, що ІКА має схильність мати практичні/продуктивні переваги над БІК.

Деякі дослідники підкреслили, що ІКА та БІК підходять для різних задач. Зокрема, вважають, що БІК підходить для обирання «істинної моделі» (тобто, процесу, що породив дані) з набору моделей кандидатів, тоді як ІКА для цього не підходить. Конкретніше, якщо «істинна модель» є присутньою в наборі моделей-кандидатів, то БІК обере цю «істинну модель» з імовірністю 1, за Шаблон:Math. На противагу цьому, при здійсненні обирання за допомогою ІКА, ця ймовірність може бути меншою за 1.Шаблон:Sfn Шаблон:Sfn Шаблон:Sfn Прибічники ІКА стверджують, що ця проблема є незначною, оскільки «істинна модель» практично ніколи не буває присутньою в наборі кандидатів. Дійсно, у статистиці є поширеним афоризм, що Шаблон:Нп, тож «істинна модель» (тобто, реальність) не може бути в наборі кандидатів.

Ще одне порівняння ІКА та БІК наведено у Шаблон:Harvnb. Врізе представляє імітаційне дослідження, яке дозволяє «істинній моделі» бути в наборі кандидатів (на відміну від практично всіх реальних даних). Це імітаційне дослідження показує, зокрема, що ІКА іноді обирає набагато кращу модель, ніж БІК, навіть коли «істинна модель» перебуває в наборі кандидатів. Причина цього полягає в тім, що для скінченних Шаблон:Math БІК може мати істотний ризик обрання з набору кандидатів дуже поганої моделі. Ця причина може проявлятися навіть коли Шаблон:Math є набагато більшим за Шаблон:Math². З ІКА ризик обрання дуже поганої моделі є мінімальним.

Якщо «істинної моделі» в наборі кандидатів немає, то найбільше, що ми можемо сподіватися зробити, це обрати модель, яка найкраще наближує «істинну». ІКА підходить для пошуку найкращої наближувальної моделі, за деяких припущень.Шаблон:Sfn Шаблон:Sfn Шаблон:Sfn (Ці припущення включають, зокрема, те, що наближування здійснюють по відношенню до втрати інформації.)

Порівняння ІКА та БІК у контексті регресії наведено в Шаблон:Harvnb. В регресії ІКА є асимптотично оптимальним для обирання моделі з найменшою середньоквадратичною похибкою, за припущення, що «істинна модель» не перебуває в наборі кандидатів. БІК не є асимптотично оптимальним за цього припущення. Янг додатково показує, що темп, з яким ІКА збігається до оптимуму, в певному сенсі є найкращим з можливих.

Порівняння з перехресним затверджуванням

Перехресне затверджування з виключенням по одному є асимптотично рівнозначним ІКА для звичайних лінійних регресійних моделей.Шаблон:Sfn Асимптотична еквівалентність до ІКА також має місце й для моделей зі змішаними рівнями факторів.Шаблон:Sfn

Порівняння з найменшими квадратами

Іноді кожна з моделей-кандидатів передбачає, що залишки розподілено відповідно до незалежних ідентичних нормальних розподілів (з нульовим середнім). Це дає привід для допасовування моделей найменшими квадратами.

При допасовуванні найменшими квадратами оцінкою максимальної правдоподібності для дисперсії розподілів залишків моделі є ${\hat{σ}}^{2} = R S S / n$ , де $R S S$ є Шаблон:Нп (Шаблон:Lang-en): $R S S = \sum_{i = 1}^{n} (y_{i} - f (x_{i}; \hat{θ}))^{2}$ . Тоді максимальним значенням функції логарифмічної правдоподібності моделі є

- \frac{n}{2} \ln (2 π) - \frac{n}{2} \ln ({\hat{σ}}^{2}) - \frac{1}{2 {\hat{σ}}^{2}} R S S = - \frac{n}{2} \ln (R S S / n) + C

де Шаблон:Math є сталою, що не залежить від моделі, а залежить лише від конкретних точок даних, тобто, вона не змінюється, якщо не змінюються дані.

Це дає AIC = Шаблон:Math.Шаблон:Sfn Оскільки в ІКА мають значення лише різниці, сталою Шаблон:Math можливо нехтувати, що дозволяє нам зручно брати для порівнювання моделей AIC = Шаблон:Math. Зауважте, що якщо всі ці моделі мають однакове Шаблон:Math, то обирання моделі з мінімальним ІКА є рівнозначним обиранню моделі з мінімальною Шаблон:Math, що є звичайною метою обирання моделі на основі найменших квадратів.

Порівняння з C_p Меллоуза

Шаблон:Нп є еквівалентом ІКА у випадку (гаусової) лінійної регресії.Шаблон:Sfn

Див. також

Примітки

Шаблон:Reflist

Джерела

Шаблон:Refbegin

Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Переопубліковано в Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en [Зауваження: Визначення ІКА Клаескенс та Йорта має протилежний знак до стандартного визначення, первинно даного Акаіке, та дотримуваного іншими авторами.]
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-ja
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en

Шаблон:Refend

Література

Шаблон:Citation Шаблон:Ref-en [Хіроцуґу Акаіке коментує, як він дійшов до ІКА]
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en
Шаблон:Citation Шаблон:Ref-en

Шаблон:Статистика

↑ Шаблон:Cite book Шаблон:Ref-en
↑ Шаблон:Cite book Шаблон:Ref-en
↑ Van Noordon R., Maher B., Nuzzo R. (2014), «The top 100 papers», Nature, 514. Шаблон:Ref-en
↑ Джерела, що містять як «Akaike», так і «AIC», Шаблон:Webarchive на Google Scholar.

[1] Шаблон:Cite book Шаблон:Ref-en

[2] Шаблон:Cite book Шаблон:Ref-en

[3] Van Noordon R., Maher B., Nuzzo R. (2014), «The top 100 papers», Nature, 514. Шаблон:Ref-en

[4] Джерела, що містять як «Akaike», так і «AIC», Шаблон:Webarchive на Google Scholar.

[1]

[2]

[3]

[4]

Інформаційний критерій Акаіке

Зміст

Означення

Як використовувати ІКА на практиці

Перевірка гіпотез

Відтворення t-критерію Стьюдента

Порівнювання наборів категорійних даних

Засади статистики

Шаблон:AnchorВидозміна для маленького розміру вибірки

Історія

Поради щодо застосування

Підрахунок параметрів

Перетворювання даних

Ненадійність програмного забезпечення

Порівняння з іншими методами обирання моделі

Порівняння з БІК

Порівняння з перехресним затверджуванням

Порівняння з найменшими квадратами

Порівняння з C_p Меллоуза

Див. також

Примітки

Джерела

Література

Навігаційне меню

Інформаційний критерій Акаіке

Означення

Як використовувати ІКА на практиці

Перевірка гіпотез

Відтворення t-критерію Стьюдента

Порівнювання наборів категорійних даних

Засади статистики

Шаблон:AnchorВидозміна для маленького розміру вибірки

Історія

Поради щодо застосування

Підрахунок параметрів

Перетворювання даних

Ненадійність програмного забезпечення

Порівняння з іншими методами обирання моделі

Порівняння з БІК

Порівняння з перехресним затверджуванням

Порівняння з найменшими квадратами

Порівняння з Cp Меллоуза

Див. також

Примітки

Джерела

Література

Навігаційне меню

Пошук

Порівняння з C_p Меллоуза