Ядрова регресія

У статистиці ядрова регресія (Шаблон:Lang-en) — це Шаблон:Li методика оцінки умовного матсподівання випадкової величини. Завдання полягає в тому, щоб знайти нелінійну залежність між парою випадкових величин X і Y .

У будь-якій Шаблон:Li умовне сподівання змінної $Y$ відносно змінної $X$ можна записати:

E (Y ∣ X) = m (X)

де $m$ — невідомою функцією.

Ядрова регресія Надараї — Вотсона

Шаблон:Li та Шаблон:Li, обидва в 1964 році, запропонували оцінити $m$ як локально зважене середнє, використовуючи ядро як вагову функцію^[1]^[2]^[3]. Оцінка Надараї — Вотсона:

{\hat{m}}_{h} (x) = \frac{\sum_{i = 1}^{n} K_{h} (x - x_{i}) y_{i}}{\sum_{i = 1}^{n} K_{h} (x - x_{i})}

де $K_{h} (t) = \frac{1}{h} K (\frac{t}{h})$ — ядро з пропускною спроможністю $h$ таке, що $K (\cdot)$ має порядок принаймні 1, тобто $\int_{- \infty}^{\infty} u K (u) d u = 0$ .

Виведення

Запишемо визначення умовного математичного сподівання,

E (Y ∣ X = x) = \int y f (y ∣ x) d y = \int y \frac{f (x, y)}{f (x)} d y

ми оцінимо спільні розподіли $f (x, y)$ і $f (x)$ за допомогою ядрової оцінки густини з ядром K:

\hat{f} (x, y) = \frac{1}{n} \sum_{i = 1}^{n} K_{h} (x - x_{i}) K_{h} (y - y_{i}),

\hat{f} (x) = \frac{1}{n} \sum_{i = 1}^{n} K_{h} (x - x_{i}),

Отримуємо:

\begin{matrix} \hat{E} (Y ∣ X = x) & = \int y \frac{\hat{f} (x, y)}{\hat{f} (x)} d y, \\ = \int y \frac{\sum_{i = 1}^{n} K_{h} (x - x_{i}) K_{h} (y - y_{i})}{\sum_{j = 1}^{n} K_{h} (x - x_{j})} d y, \\ = \frac{\sum_{i = 1}^{n} K_{h} (x - x_{i}) \int y K_{h} (y - y_{i}) d y}{\sum_{j = 1}^{n} K_{h} (x - x_{j})}, \\ = \frac{\sum_{i = 1}^{n} K_{h} (x - x_{i}) y_{i}}{\sum_{j = 1}^{n} K_{h} (x - x_{j})}, \end{matrix}

що і є оцінкою Надараї — Вотсона.

Ядрова оцінка Прістлі — Чао

{\hat{m}}_{P C} (x) = h^{- 1} \sum_{i = 2}^{n} (x_{i} - x_{i - 1}) K (\frac{x - x_{i}}{h}) y_{i}

де $h$ це пропускна спроможність (або ж параметр згладжування).

Ядрова оцінка Гассера — Мюллера

{\hat{m}}_{G M} (x) = h^{- 1} \sum_{i = 1}^{n} [\int_{s_{i - 1}}^{s_{i}} K (\frac{x - u}{h}) d u] y_{i}

де $s_{i} = \frac{x_{i - 1} + x_{i}}{2} .$ ^[4]

Приклад

Цей приклад базується на канадських перехресних даних про заробітну плату, які складаються з випадкової вибірки, взятої із записів Канадського перепису громадського вжитку 1971 року для осіб чоловічої статі із загальною освітою (13 клас). Всього 205 спостереженьШаблон:Джерело.

На рисунку праворуч показано оцінену функцію регресії з використанням ядра Гауса другого порядку разом із межами асимптотичної мінливості.

Приклад з кодом

Наведені нижче команди мови програмування R використовують функцію npreg() для реалізації оптимального згладжування та створення рисунка, наведеного вище. Ці команди можна вводити в командному рядку просто скопіювавши.

install.packages("np")
library(np) # non parametric library
data(cps71)
attach(cps71)

m <- npreg(logwage~age)

plot(m, plot.errors.method="asymptotic",
     plot.errors.style="band",
     ylim=c(11, 15.2))

points(age, logwage, cex=.25)
detach(cps71)

Пов'язані

За словами Шаблон:Li, алгоритми, що використовуються в ядровій регресії, були незалежно розроблені та використані в нечітких системах: «З майже однаковим комп'ютерним алгоритмом нечіткі системи та ядрові регресії на основі густини, здається, були розроблені абсолютно незалежно одна від одної.»^[5]

Імплементація в статистичних пакетах

Пакет математичних програм GNU Octave
Julia: KernelEstimator.jl
MATLAB: на цих сторінках доступний безкоштовний набір інструментів MATLAB із реалізацією ядрової регресії, ядрової оцінки густини, ядрової оцінки функції небезпеки та багатьох інших (цей набір інструментів є частиною книги ^[6]).
Python: клас KernelReg для змішаних типів даних у підпакеті statsmodels.nonparametric (включає інші класи, пов'язані з густиною ядра), пакет kernel_regression як розширення scikit-learn (неефективний з точки зору пам'яті, корисний лише для невеликих наборів даних)
R: функція npreg пакета np може виконувати ядрову регресію.^[7]
Stata: npregress, kernreg2

Див. також

Список літератури

Шаблон:Reflist

Література

Посилання

Scale-adaptive kernel regression (для Matlab).
Tutorial of Kernel regression using spreadsheet (для Microsoft Excel).
An online kernel regression demonstration Requires .NET 3.0 or later.
Kernel regression with automatic bandwidth selection (в Python)

[1] Шаблон:Cite journal

[2] Шаблон:Cite journal

[3] Шаблон:Cite book

[4] Шаблон:Cite book

[5] Шаблон:Cite book

[HorKolZel-6] Шаблон:Cite book

[7] Шаблон:Cite book

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Ядрова регресія

Зміст

Ядрова регресія Надараї — Вотсона

Виведення

Ядрова оцінка Прістлі — Чао

Ядрова оцінка Гассера — Мюллера

Приклад

Приклад з кодом

Пов'язані

Імплементація в статистичних пакетах

Див. також

Список літератури

Література

Посилання

Навігаційне меню

Ядрова регресія

Ядрова регресія Надараї — Вотсона

Виведення

Ядрова оцінка Прістлі — Чао

Ядрова оцінка Гассера — Мюллера

Приклад

Приклад з кодом

Пов'язані

Імплементація в статистичних пакетах

Див. також

Список літератури

Література

Посилання

Навігаційне меню

Пошук