Регресія Демінга

У статистиці регресія Демінга (названа на честь В. Едвардса Демінга) є моделлю з похибками у змінних, яка намагається знайти лінію, яка найкраще підходить для двовимірного набору даних. Вона відрізняється від простої лінійної регресії тим, що пояснює похибку в спостереженнях як на осі x, так і на осі y. Це особливий випадок загальних найменших квадратів, що дозволяє приймати будь-яку кількість показників для прогнозу й складнішу структуру помилок.
Регресія Демінга еквівалентна методу максимальної правдоподібності моделі похибок у змінних, в якій похибки для двох змінних вважаються незалежними й нормально розподіленими, та відомо співвідношення їхніх відхилень, позначених δ.[1] На практиці це співвідношення можна оцінити з відповідних джерел даних; проте процедура регресії не враховує можливі похибки при оцінці цього співвідношення.
Регресію Демінга лише трохи складніше обчислити в порівнянні з простою лінійною регресією. Більшість статистичних програмних пакетів, що використовуються в клінічній хімії, пропонують регресію Демінга.
Модель спочатку була введена Адкоком (1878), який розглядав випадок δ = 1, а потім більш загалом Куммел (1879) з довільним δ. Проте їхні ідеї залишалися значною мірою непоміченими понад 50 років, поки їх не відродив Коопманс (1937). Пізніше ще більше пропагував Демінг (1943). Остання книга стала настільки популярною в клінічній хімії та суміжних областях, що цей метод навіть був названий регресією Демінга в цих областях.[2]
Уточнення
Припустимо, що наявні дані (yi, xi) є виміряними спостереженнями «істинних» значень (yi*, xi*), які лежать на лінії регресії:
де помилки ε та η незалежні, а відношення їх відхилень вважається відомим:
На практиці відхилення параметрів та часто невідоме, що ускладнює оцінку . Зверніть увагу, що коли метод вимірювання для та є однаковим, ці відхилення, ймовірно, також будуть однаковими, тому для цього випадку.
Ми прагнемо знайти таку лінію «найкращого підходу»,
де зважена сума квадратних залишків моделі зведена до мінімуму:[3]
Дивись Jensen (2007)[4] для повного виведення.
Рішення
Рішення може бути виражено через моменти вибірки другого ступеня. Тобто спочатку обчислюємо наступні величини (всі суми йдуть від i = 1 to n):
Нарешті, оцінки найменших квадратів параметрів моделі будуть[5]
Ортогональна регресія
Для випадку рівних відхилень похибки, тобто коли , регресія Демінга стає ортогональною регресією: вона мінімізує суму квадратів перпендикулярних відстаней від точок даних до лінії регресії. У цьому випадку позначимо кожне спостереження як точку zj в комплексній площині (тобто, точка (xj, yj) записується як zj = xj + iyj, де i — уявна одиниця). Позначимо як Z суму квадратичних відмінностей точок даних від центроїда (також позначається в комплексних координатах), яка є точкою, горизонтальними та вертикальними розташуваннями якої є середні значення цих точок даних. Тоді:[6]
- Якщо Z = 0, то кожна лінія через центроїд є лінією з найкращим ортогональним підходом.
- Якщо Z ≠ 0, лінія ортогональної регресії проходить через центроїд і паралельна вектору від початку до .
Тригонометричне представлення лінії ортогональної регресії було дано Кулідж в 1913 році.[7]
Додаток
У випадку трьох не колінеарних точок у площині трикутник з цими точками, як його вершини, має унікальний еліпс Штайнера, дотичний до сторін трикутника в їхніх серединах. Велика вісь цього еліпса падає на ортогональну лінію регресії для трьох вершин.[8]