Класична теорія тестування

Матеріал з testwiki
Версія від 12:26, 4 березня 2025, створена imported>A.sav (clean up, replaced: іншх → інших за допомогою AWB)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

Класи́чна тео́рія тестува́ння (КТТ, Шаблон:Lang-en) — це сукупність пов'язаних психометричних теорій, що передбачують результати психологічного тестування, як-от складність завдань або здібності тестованих. Це теорія тестування на основі ідеї, що спостережувана чи отримана оцінка особи в тесті є сумою істинної оцінки (безпомилкової оцінки) та оцінки похибки.[1] Загалом, метою класичної теорії тестування є розуміння та вдосконалення надійності психологічних тестів.

Класичну теорію тестування можна вважати приблизно синонімом теорії істинної оцінки (Шаблон:Lang-en). Термін «класична» стосується не лише хронології цих моделей, але й контрастує з новішими психометричними теоріями, які зазвичай називають теорією відгуку завдання, а іноді й «сучасними», як у «сучасній теорії латентних рис».

Класична теорія тестування, якою ми її знаємо сьогодні, була кодифікована в Шаблон:Harvtxt і описана в класичних текстах, як-от Шаблон:Harvtxt і Шаблон:Harvtxt. Опис класичної теорії тестування нижче ґрунтується на цих оригінальних публікаціях.

Історія

Класична теорія тестування народилася лише після концептуалізації наступних трьох досягнень або ідей:

  1. усвідомлення наявності похибок у вимірюваннях,
  2. уявлення про цю похибку як про випадкову змінну,
  3. розуміння кореляції та способів її індексації.

1904 року Чарльз Спірмен був відповідальним за розробку способу коригування коефіцієнта кореляції для згасання через похибку вимірювання, а також способу отримання індексу надійності, необхідного для такого коригування.[2] Відкриття Спірмена деякі вважають початком класичної теорії тестування Шаблон:Harv. До інших, хто вплинули на формування класичної теорії тестування, належать Джордж Удні Юл, Шаблон:Li, Шаблон:Li та Шаблон:Li, які брали участь у розробці Шаблон:Li, Шаблон:Li, а також, найнещодавніше, Шаблон:Li, не кажучи вже про інших, протягом чверті століття після початкових знахідок Спірмена.

Визначення

Класична теорія тестування виходить з того, що кожна особа має істинну оцінку (Шаблон:Lang-en) T, яка була б отримана за відсутності похибок вимірювання. Істинну оцінку особи визначають як математичне сподівання оцінки за кількістю правильних відповідей за нескінченну кількість незалежних проведень тесту. На жаль, користувачі тестів ніколи не спостерігають істинну оцінку особи, а лише спостережувану оцінку (Шаблон:Lang-en) X. Виходять з того, що спостережувана оцінка дорівнює істинній оцінці плюс певна похибка (Шаблон:Lang-en):

      X         =     T     +     E
спостережувана     істинна     похибка
    оцінка          оцінка

Класична теорія тестування стосується взаємозв'язків між трьома змінними X, T і E у сукупності. Ці взаємозв'язки використовують, щоби сказати щось про якість тестових оцінок. У цьому контексті найважливішим поняттям є надійність (Шаблон:Lang-en). Надійність спостережуваних тестових оцінок X, позначувану через ρXT2, визначають як відношення дисперсії істинної оцінки σT2 до дисперсії спостережуваної оцінки σX2:

ρXT2=σT2σX2

Оскільки можливо показати, що дисперсія спостережуваних оцінок дорівнює сумі дисперсії істинних оцінок і дисперсії похибок, це рівняння еквівалентне

ρXT2=σT2σX2=σT2σT2+σE2

Це рівняння, яке формулює співвідношення сигнал/шум, має інтуїтивну привабливість: надійність тестових оцінок зростає пропорційно зменшенню частки дисперсії похибок у тестових оцінках і навпаки. Надійність дорівнює частці дисперсії тестових оцінок, яку можливо було би пояснити, якби ми знали істинні оцінки. Квадратний корінь із надійності є абсолютним значенням кореляції між істинними та спостережуваними оцінками.

Оцінювання тестів та оцінок: надійність

Шаблон:Main

Надійність неможливо оцінити безпосередньо, оскільки це потребувало би знання істинних оцінок, що за класичною теорією тестування неможливо. Проте можливо отримувати різними способами оцінки надійності. Один із методів оцінювання надійності — побудова так званого Шаблон:Нпні (Шаблон:Lang-en). Основна властивість паралельного тесту полягає в тому, що він видає ту саму істинну оцінку й ту саму дисперсію спостережуваних оцінок, що й первинний тест, для кожної особи. Якщо ми маємо паралельні тести x і x', то це означає, що

𝔼[Xi]=𝔼[X'i]

та

σEi2=σE'i2

Із цих припущень випливає, що кореляція між оцінками паралельних тестів дорівнює надійності (доведення див. у Шаблон:Harvnb).

ρXX=σXXσXσX=σT2σX2=ρXT2

Використання паралельних тестів для оцінювання надійності є громіздким, оскільки створювати паралельні тести дуже важко. На практиці цей метод використовують нечасто. Натомість дослідники використовують міру внутрішньої узгодженості, відому як альфа Кронбаха (α). Розгляньмо тест, складений з k завдань uj, j=1,,k. Загальна оцінка за тестом визначається як сума оцінок в окремих завданнях, тож для особи i:

Xi=j=1kUij

Тоді альфа Кронбаха дорівнює

α=kk1(1j=1kσUj2σX2)

Можливо показати, що α Кронбаха забезпечує нижню межу надійності за доволі м'яких припущень.Шаблон:Citation needed Отже, надійність тестових оцінок у сукупності завжди вища за значення α Кронбаха в цій сукупності. Тож цей метод емпірично зручний, а тому дуже популярний серед дослідників. Обчислення α Кронбаха включено до багатьох стандартних статистичних пакетів, як-от SPSS та Шаблон:Li.[3]

Як було зазначено вище, вся діяльність у межах класичної теорії тестування спрямована на отримання прийнятного визначення надійності. Надійність повинна дати уявлення про загальну якість обговорюваних тестових оцінок. Основна ідея полягає в тому, що чим вища надійність, тим краще. Класична теорія тестування не встановлює, наскільки високою має бути надійність. Надто високе значення α, скажімо понад 0,9, вказує на надлишковість завдань. Для досліджень особистості радять значення близько 0,8, тоді як для індивідуального тестування з високими ставками бажано понад 0,9.[4] Ці «критерії» не ґрунтуються на формальних аргументах, а радше є результатом звичаю та професійної практики. Міра їхньої відповідності формальним принципам статистичного висновування залишається незрозумілою.

Оцінювання завдань: P-значення та кореляція завдання з тестом

Надійність забезпечує зручний індекс якості тесту у вигляді єдиного числа — надійності. Проте вона не надає жодної інформації для оцінювання окремих завдань. Аналіз завдань у межах класичного підходу часто спирається на дві статистики: P-значення (Шаблон:Lang-en, пропорцію) та кореляцію завдання з тестом (Шаблон:Li). P-значення подає частку іспитників, які відповіли у правильному напрямку, його зазвичай називають складністю завдання (Шаблон:Lang-en). Кореляція завдання з тестом надає індекс розрізнювальності або розрізнювальної спроможності завдання, її зазвичай називають розрізнювальністю завдання (Шаблон:Lang-en). Крім того, ці статистики обчислюють для кожної відповіді у часто використовуваних завданнях множинного вибору, використовуючи їх для оцінювання завдань і діагностування можливих проблем, як-от заплутувального відволікання (Шаблон:Lang-en). Такий цінний аналіз забезпечує спеціально розроблене Шаблон:Li.

Альтернативи

Класична теорія тестування є впливовою теорією тестових оцінок у суспільних науках. У психометрії цю теорію витіснили складніші моделі, як-от теорія відгуку завдання (ТВЗ, Шаблон:Lang-en) та теорія узагальнюваності (Шаблон:Lang-en). Проте ТВЗ не включено до стандартних статистичних пакетів, як-от SPSS, але Шаблон:Li може оцінювати моделі ТВЗ за допомогою PROC IRT і PROC MCMC, а також існують пакети ТВЗ для відкритої статистичної мови програмування R (наприклад, CTT). Хоча комерційні пакети зазвичай надають оцінки α Кронбаха, перевагу можуть віддавати використанню спеціалізованого Шаблон:Li для ТВЗ чи теорії узагальнюваності. Проте загальні статистичні пакети часто не забезпечують повного класичного аналізу (α Кронбаха є лише однією з багатьох важливих статистик), і в багатьох випадках також необхідне спеціалізоване програмне забезпечення і для класичного аналізу.

Вади

Однією з найважливіших чи найвідоміших вад класичної теорії тестування є те, що характеристики іспитника та характеристики тесту неможливо розділити: кожну з них можливо інтерпретувати лише в контексті іншої. Іншою вадою є визначення надійності, яке існує у класичній теорії тестування, що стверджує, що надійність є «кореляцією між оцінками тесту на паралельних формах тесту».[5] Проблема тут полягає в тому, що існують різні думки щодо того, що таке паралельні тести. Різні коефіцієнти надійності надають або нижню межу оцінки надійності, або оцінки надійності з невідомими зміщеннями. Третя вада стосується стандартної похибки вимірювання. Проблема полягає в тому, що, за класичною теорією тестування, стандартну похибку вимірювання вважають однаковою для всіх іспитників. Проте, як пояснює Гемблтон у своїй книзі, оцінки в будь-якому тесті є нерівноточними мірами для іспитників із різними здібностями, що робить припущення про рівність похибок вимірювання для всіх іспитників неправдоподібним Шаблон:Harv. Четверта й остання вада класичної теорії тестування полягає в тому, що вона спрямована на тест, а не на завдання. Іншими словами, класична теорія тестування не може допомогти нам передбачувати, наскільки добре окремий іспитник чи навіть група іспитників могли би впоратися з якимось тестовим завданням.[5]

Див. також

Примітки

Шаблон:Reflist

Джерела

Література

Посилання