Коваріація
У теорії ймовірності та статистиці, коваріа́ція (Шаблон:Lang-en) — це міра спільної мінливості двох випадкових змінних.[1] Якщо більші значення однієї змінної здебільшого відповідають більшим значенням іншої, й те саме виконується для менших значень, тобто змінні схильні демонструвати подібну поведінку, то коваріація є додатною.[2] В протилежному випадку, коли більші значення однієї змінної здебільшого відповідають меншим значенням іншої, тобто змінні схильні демонструвати протилежну поведінку, коваріація є від'ємною. Отже, знак коваріації показує тенденцію в лінійному взаємозв'язку між цими змінними. Величину ж коваріації інтерпретувати непросто. Проте унормована версія коваріації, коефіцієнт кореляції, показує своєю величиною силу цього лінійного взаємозв'язку.
Слід розрізняти (1) коваріацію двох випадкових змінних, яка є параметром сукупності, що можна розглядати як властивість спільного розподілу ймовірності, та (2) вибіркову коваріацію, яка на додачу до того, що вона слугує описом вибірки, слугує також і оцінкою значення параметру сукупності.
Визначення
Коваріацію між двома спільно розподіленими дійснозначними випадковими змінними Шаблон:Math та Шаблон:Math зі скінченними другими моментами визначають як математичне сподівання добутку їхніх відхилень від їхніх власних математичних сподівань:[3]
де Шаблон:Math є математичним сподіванням Шаблон:Math, відомим також як середнє значення Шаблон:Math. Коваріацію також іноді позначують через «Шаблон:Math», за аналогією з дисперсією. Використовуючи властивість лінійності математичних сподівань, це можна спростити до математичного сподівання їхнього добутку мінус добуток їхніх математичних сподівань:
Проте коли , це крайнє рівняння схильне до катастрофічного анулювання, якщо його обчислюють за допомогою арифметики з рухомою комою, і відтак його слід уникати в комп'ютерних програмах, якщо дані не було попередньо відцентровано.[4] В такому разі слід віддавати перевагу Шаблон:Нп.
Для випадкових векторів та Шаблон:Нп Шаблон:Math (відома також як дисперсі́йна ма́триця, Шаблон:Lang-en, або дисперсі́йно-коваріаці́йна ма́триця, Шаблон:Lang-en,[5] або просто коваріаційна матриця) дорівнює
де Шаблон:Math є транспонуванням вектору (або матриці) Шаблон:Math.
Шаблон:Math-тий елемент цієї матриці дорівнює коваріації Шаблон:Math між Шаблон:Math-тою скалярною складовою Шаблон:Math та Шаблон:Math-тою скалярною складовою Шаблон:Math. Зокрема, Шаблон:Math є транспонуванням Шаблон:Math.
Для вектору з Шаблон:Math спільно розподілених випадкових змінних зі скінченними другими моментами, його коваріаційну матрицю визначають як
Випадкові змінні, чия коваріація є нульовою, називають некорельованими. Аналогічно, випадкові вектори, чия коваріаційна матриця є нульовою в усіх елементах за межами головної діагоналі, називають некорельованими.
Одиницями вимірювання коваріації Шаблон:Math є добуток одиниць Шаблон:Math та Шаблон:Math. На противагу цьому, коефіцієнти кореляції, які залежать від коваріації, є безрозмірнісною мірою лінійної залежності. (Насправді, коефіцієнти кореляції можна розуміти як просто унормовану версію коваріації.)
Дискретні змінні
Якщо кожна зі змінних має скінченний набір рівноймовірних значень, та відповідно для та , то коваріацію може бути рівнозначно записано в термінах середніх значень та як
Якщо , то її також може бути рівнозначно виражено без прямого посилання на середні як[6]
Більш загальний випадок, якщо роглядаємо можливих реалізацій , позачені але з ймовірністю для , то коваріяція дорівнює
Приклад для дискретних випадкових змінних[7]
Припустімо, що X та Y мають наступну спільну функцію маси ймовірності:
| y | |||||
|---|---|---|---|---|---|
| f(x,y) | 1 | 2 | 3 | fX(x) | |
| 1 | 0.25 | 0.25 | 0 | 0.5 | |
| x | 2 | 0 | 0.25 | 0.25 | 0.5 |
| fY(y) | 0.25 | 0.5 | 0.25 | 1 |
Тоді , , , а
Додаткові приклади можна знайти тут Шаблон:Webarchive.
Властивості
- Дисперсія (Шаблон:Lang-en) є окремим випадком коваріації, в якому обидві змінні є ідентичними (тобто в якому одна зі змінних завжди набуває такого ж значення, як і інша):
- Якщо X, Y, W та V є дійснозначними випадковими змінними, а a, b, c, d є сталими («стала» в цьому контексті означає не випадкова), то наступні факти є наслідком визначення коваріації:
- Для послідовності випадкових змінних X1, …, Xn та сталих a1, …, an маємо
- Корисною тотожністю для обчислення коваріації між двома випадковими змінними є коваріаційна тотожність Хьофдинга (Шаблон:Lang-en):[8]
- де є функцією спільного розподілу випадкового вектора , а є відособленими.
Загальніша тотожність для коваріаційних матриць
Нехай Шаблон:Math буде випадковим вектором з коваріаційною матрицею Шаблон:Math, і нехай Шаблон:Math буде матрицею, яка може діяти на Шаблон:Math. Коваріаційною матрицею матрично-векторного добутку Шаблон:Math є
Це є прямим результатом лінійності математичного сподівання, та є корисним при застосуванні до вектора лінійного перетворення, такого як Шаблон:Нп.
Некорельованість та незалежність
Якщо X та Y є незалежними, то їхня коваріація є нульовою.[9] Це випливає з того, що за незалежності
Обернене, проте, в загальному випадку не є вірним. Наприклад, нехай X буде рівномірно розподіленою на [−1, 1], і нехай Y = X2. Зрозуміло, що X та Y є залежними, але
В цьому випадку взаємозв'язок між Y та X є нелінійним, тоді як кореляція та коваріація є мірами лінійної залежності між двома змінними. Цей приклад показує, що, якщо дві змінні є некорельованими, це в загальному випадку не означає, що вони є незалежними. Проте, якщо дві змінні є спільно нормально розподіленими (але не якщо вони є просто Шаблон:Нп), то некорельованість дійсно означає незалежність.
Зв'язок із внутрішніми добутками
Багато властивостей коваріації можна елегантно здобути, звернувши увагу на те, що вона задовольняє властивості, подібні до властивостей внутрішнього добутку:
- білінійність: для сталих a та b, та випадкових змінних X, Y, Z, σ(aX + bY, Z) = a σ(X, Z) + b σ(Y, Z);
- симетричність: σ(X, Y) = σ(Y, X);
- Шаблон:Нп: σ2(X) = σ(X, X) ≥ 0 для всіх випадкових змінних X, а σ(X, X) = 0 означає, що X є сталою випадковою змінною (K).
Насправді ці властивості означають, що коваріація визначає внутрішній добуток над Шаблон:Нп, отримуваним взяттям підпростору випадкових змінних зі скінченним другим моментом, та визначенням будь-яких двох, які відрізняються на сталу. (Це визначення перетворює згадану вище додатну напівозначеність на додатноозначеність.) Цей векторний фактор-простір є ізоморфним до підпростору випадкових змінних зі скінченним другим моментом та нульовим середнім значенням; на цьому підпросторі коваріація в точності дорівнює внутрішньому добуткові L2 дійснозначних функцій на вибірковому просторі.
В результаті, для випадкових змінних зі скінченною дисперсією нерівність
виконується через нерівність Коші — Буняковського.
Доведення: Якщо σ2(Y) = 0, то вона виконується тривіально. Інакше, нехай випадкова змінна
Тоді ми маємо
Обчислення вибіркової коваріації
Вибіркова коваріація N спостережень K змінних — це матриця розміру K-на-K з елементами
що є оцінкою коваріації між змінною Шаблон:Math та змінною Шаблон:Math.
Матриці вибіркового середнього та вибіркової коваріації є незміщеними оцінками середнього значення та коваріаційної матриці випадкового вектора , рядкового вектора, чий j-тий елемент (j = 1, …, K) є однією з випадкових змінних. Причиною того, що коваріаційна матриця має в знаменнику , а не , по суті є те, що середнє значення сукупності не відоме, і замінене вибірковим середнім значенням . Якщо середнє значення сукупності є відомим, то аналогічна незміщена оцінка задається як
Коментарі
Коваріацію іноді називають мірою «лінійної залежності» між двома випадковими змінними. Це не означає те ж саме, що й у контексті лінійної алгебри (див. лінійну залежність). Коли коваріацію унормовано, отримують коефіцієнт кореляції. З нього можливо отримати коефіцієнт Пірсона, який дає допасованість для найкращої з можливих лінійних функцій, що описують взаємозв'язок між змінними. В цьому сенсі коваріація є лінійним мірилом залежності.
Застосування
В генетиці та молекулярній біології
Коваріація є важливою мірою в біології. Деякі послідовності ДНК є консервативнішими за інші серед різних видів, і відтак для дослідження вторинних та третинних структур білків, або структур РНК, порівнюють послідовності близько споріднених видів. Якщо знайдено зміни послідовностей, або взагалі не знайдено змін у некодувальній РНК (такій як мікроРНК), то послідовності вважають потрібними для загальних структурних лейтмотивів, таких як цикл РНК.
У фінансовій економіці
Коваріації відіграють важливу роль у Шаблон:Нп, особливо в портфельному аналізі та в моделі ціноутворення капітальних активів. Коваріації серед виручок різних активів використовують для визначення, за деяких припущень, відносних сум різних активів, які інвестор повинен (в нормативному аналізі) або, як передбачається, буде (в позитивному аналізі) обирати для тримання в контексті диверсифікації.
В опрацьовуванні метеорологічних та океанографічних даних
Коваріаційна матриця є важливою в оцінюванні початкових умов, необхідних для запуску моделей прогнозу погоди. «Коваріаційну матрицю похибки прогнозу» (Шаблон:Lang-en) зазвичай будують між збуреннями навколо середнього стану (чи то кліматологічного, чи то ансамблевого середнього). «Коваріаційну матрицю похибки спостереження» (Шаблон:Lang-en) будують для представлення величини об'єднаних похибок спостереження (на діагоналі) та корельованих похибок між вимірюваннями (поза діагоналлю).
У виділянні ознак
Коваріаційну матрицю застосовують для збирання даних про спектральну мінливість сигналу.[10]
Див. також
- Автоковаріація
- Шаблон:Нп
- Вихрова коваріація
- Довірчий інтервал для коваріації випадкових величин
- Шаблон:Нп
- Шаблон:Нп
- Коваріаційна матриця
- Коваріаційний аналіз
- Шаблон:Нп
- Шаблон:Нп, або броунівська коваріація
- Коефіцієнт варіації
- Кореляція і залежність
- Поширення невизначеності
Джерела
- Шаблон:Карташов.Імовірність процеси статистика
- Шаблон:Гнеденко.Курс теории вероятностей
- Шаблон:Гіхман.Скороход.Ядренко
- Пряха Б. Про зв'язок дисперсій та коваріацій // Геодезія, картографія і аерофотознімання, Львів: Видавництво Національного університету «Львівська політехніка». — 2009. — Вип. 71. — С. 262—271. Шаблон:Webarchive
- Шаблон:Springer Шаблон:Ref-en
- Сторінка MathWorld про обчислення вибіркової коваріації Шаблон:Webarchive Шаблон:Ref-en
- Навчальний посібник з коваріації із застосуванням R Шаблон:Webarchive Шаблон:Ref-en
- Коваріація та кореляція Шаблон:Webarchive Шаблон:Ref-en
Примітки
Шаблон:More footnotes Шаблон:Reflist
- ↑ Шаблон:Cite book Шаблон:Ref-en
- ↑ Шаблон:MathWorld
- ↑ Oxford Dictionary of Statistics, Oxford University Press, 2002, p. 104. Шаблон:Ref-en
- ↑ Donald E. Knuth (1998). The Art of Computer Programming, volume 2: Seminumerical Algorithms, 3rd edn., p. 232. Boston: Addison-Wesley. Шаблон:Ref-en
- ↑ W. J. Krzanowski, Principles of Multivariate Analysis, Chap. 7.1, Oxford University Press, New York, 1988 Шаблон:Ref-en
- ↑ Шаблон:Cite conference Шаблон:Ref-en
- ↑ Шаблон:Cite web Шаблон:Ref-en
- ↑ Шаблон:Cite book Шаблон:Ref-en
- ↑ Шаблон:Cite web Шаблон:Ref-en
- ↑ Шаблон:Cite journal Шаблон:Ref-en