Логістична регресія

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Регресійний аналіз Логістична регресія (Шаблон:Lang-en) або лоґіт-регресія (Шаблон:Lang-en[1]) — статистичний регресійний метод, що застосовують у випадку, коли залежна змінна є Шаблон:Нп, тобто може набувати тільки двох значень (0 або 1). При запровадженні порогового значення може знаходити застосування у класифікуванні.

Приклади

Прикладом може слугувати класифікація електронних листів на «спам» або «не спам». Метод також використовується у медицині, наприклад, для визначення чи є пухлина злоякісною, чи доброякісною.

Визначення логістичної моделі

Нехай є деяка випадкова величина Y, що може набувати лише двох значень, які, як правило, позначаються цифрами 0 і 1. Нехай ця величина залежить від деякої множини пояснювальних змінних x=(1,x1,,xn)T. Залежність Y, від x1,,xn. можна визначити ввівши додаткову змінну y*, де y*=θTx=θ0+θ1x1++θnxn+ε. Тоді:

Y={0,y*01,y*>0

При визначенні логістичної моделі стохастичний доданок ε вважається випадковою величиною з логістичним розподілом ймовірностей. Відповідно для певних конкретних значень змінних x*=x1*,,xn* одержується відповідне значення y* і ймовірність того, що Y=1, така:

p(Y=1)=p(y*>0)=p(θTx*+ε>0)=p(ε>θTx*)=p(εθTx*)=Λ(θTx*).

Передостання рівність випливає з симетричності логістичного розподілу, Λ позначає логістичну функцію — функцію розподілу логістичного розподілу:

Λ(x)=ex1+ex=11+ex

Таким чином для конкретного значення xi випадкова величина Yi, має розподіл Бернуллі: Yi B(1,Λ(θTxi)).

Логіт-модель задовольняє наступній умові:

lnp(1|X)1p(1|X)=lnp(1|X)p(0|X)=b0+b1x1+...+bJxJ

Оцінка параметрів

Оцінка параметрів θ0,θ1,...,θn на основі деякої вибірки (x(1),Y(1)),...,(x(m),Y(m)), де x(i)n — вектор значень незалежних змінних, а Y(i){0,1} — відповідне їм значення Y, як правило здійснюється за допомогою методу максимальної правдоподібності, згідно з яким вибираються параметри θ, що максимізують значення функції правдоподібності на вибірці:

θ^=argmaxθL(θ)=argmaxθi=1mPr{Y=Y(i)|x=x(i)}.

Максимізація функції правдоподібності еквівалентна максимізації її логарифма:

logL(θ)=i=1mlogPr{Y=Y(i)|x=x(i)}=i=1mY(i)logΛ(θTx(i))+(1Y(i))log(1Λ(θTx(i))).

Для максимізації цієї функції може бути застосований, наприклад, метод градієнтного спуску, метод Ньютона чи стохастичний градієнтний спуск.

Примітки

Шаблон:Reflist

Логістична функція: Λ(x)=11+ex.

Див. також

Література

  • Alan. Agresti: Categorical Data Analysis. Wiley-Interscience, Nowy Jork, 2002. ISBN 0-471-36093-7.
  • T. Amemiya: Advanced Econometrics. Harvard University Press, 1985. ISBN 0-674-00560-0.
  • N. Balakrishnan: Handbook of the Logistic Distribution. Marcel Dekker, Inc., 1991. ISBN 978-0-8247-8587-1.
  • William H. Green: Econometric Analysis, fifth edition. Prentice Hall, 2003. ISBN 0-13-066189-9.
  • Hosmer, David W., Stanley Lemeshow (2000). Applied Logistic Regression, 2nd ed.. New York; Chichester, Wiley. ISBN 0-471-35632-8.
  • Kleinbaum D.G., Logistic regression. A self-learning text, Springer-Verlag, 1994.


Шаблон:Статистика