Розвідувальний аналіз

Матеріал з testwiki
Версія від 11:20, 11 вересня 2024, створена imported>Sc D
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

Шаблон:Унаочнення даних Шаблон:Об'єднати з Розвідувальний аналіз даних (Шаблон:Lang-en, EDA) займається попереднім експрес-аналізом даних шляхом їх перетворення та/або представлення у зручному вигляді: графічному, табличному, схем, діаграм і т.д.

Спостереження за однією змінною

Пробіт-графік

Будується таким чином: Нехай 𝔉 - клас розподілів типу зсув-масштабу, з базовою функцією F0() . Спочатку по вибірці ξ:x1,,xn ,будується емпірична функція розподілу F(x) , а сама пробіт-функція:

y=F01(F(x))

а) Якщо пробіт-функція майже пряма, то гіпотеза про те, що функція спостерігається на даній величині типу зсув масштабу справедлива.

H0:Fξ()𝔉 ( В протилежному випадку гіпотеза несправедлива)

б) Якщо є кількість точок, що лежать осторонь усіх інших точок графіка, то спостерігаємо аномальне явище у вибірці.

y=F01(F(x))F01(Fξ(x))=xbab

Ймовірнісний графік

Ідея та ж сама, тільки зі спотвореною віссю y. Маємо множину {x,y[0,1]} , яку розтягують за правилом

(x,y)(x,F01(y))

Папір (декартова площина), де спотворюється масштаб, називають імовірнісним папером. Якщо за розподіл взяти нормальний розподіл, то такий папір називається нормальним імовірнісним папером.

Будуємо графік функції y=Fξ(x) для спостереження величини ξ.


Спотворений масштаб - смуга на y , від 0 до 1. Розтягується на всю площину.

Отримуємо набір ймовірностей. Набір для класу розподілів

Звисні гістобари

Звисні гістобари - це один з графіків розвідувального аналізу, для перевірки гіпотези відповідності вибірки нормальному розподілу.

Нормальним розподілом найбільш узгодженим з даною вибіркою називається нормальний розподіл параметри (медіана та дисперсія) якого побудовані на базі вибірки.

Щоб побудувати графік висячих гістобар спочатку малюють нормальний розподіл найбільш узгоджений з даною вибіркою, потім проводять процедуру групування. Посередині кожного інтервалу за графік розподілу підвішують прямокутник, довжина якого пропорційна відносній частоті потрапляння значень в інтервал.

Якщо основи цих гістобар несуттєво відхиляється від осі OX, то гіпотеза про нормальність вибірки приймається. Інакше відхиляється.

Підвішена коренеграма

Для вибірки проводять групування, і для кожного інтервалу обчислюють величину

νe(i)ντ(i),

де νe(i) - емпірична частота попадань в інтервал, а ντ(i) - теоретична частота обчислена згідно з узгодженим з вибіркою розподілом.

Нормальним розподілом найбільш узгодженим з даною вибіркою називається нормальний розподіл параметри (медіана та дисперсія) якого побудовані на базі вибірки.

Зображення «скринька з вусами»

Шаблон:Main Шаблон:Розширити розділ

Зображення «стебло-листок»

Шаблон:Main Шаблон:Розширити розділ

Випадок спостереження за двома змінними

Діаграма розсіювання

Шаблон:Main Всю площину розбивають на пікселі. І в залежності від того скільки значень потрапило всередину даного пікселя, кольору пікселя присвоюють яскравість чи насиченість.

Таблиця спряженості

Будується для двох випадкових змінних що приймають скінченне число значень. В першому рядку записують можливі значення першої змінної, в першому стовпцю - другої. І на перетині i-того рядка, та j-того стовпця записують скільки разів перша змінна прийняла і-те значення, одночасно з тим, як друга змінна прийняла j-те.

Шаблон:Math-stub

Посилання

Шаблон:Без джерел

Шаблон:Статистика