Теорія відгуку завдання

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Short description У психометрії тео́рія ві́дгуку завда́ння[1] (ТВЗ, Шаблон:Lang-en, відома також як тео́рія лате́нтних рис, Шаблон:Lang-en, си́льна тео́рія і́стинної оці́нки, Шаблон:Lang-en, та суча́сна тео́рія психометри́чного тестува́ння, Шаблон:Lang-en) — це парадигма розробки, аналізу та оцінювання тестів, опитувальників та подібних інструментів, що вимірюють здібності, ставлення чи інші змінні. Це теорія тестування, яка ґрунтується на взаємозв'язку між успішністю осіб на окремому тестовому завданні та рівнем успішності тестованих за загальним показником здібності, для оцінювання якої було це завдання розроблено. Для подання характеристик як завдань, так і іспитників використовують кілька різних статистичних моделей.[2] На відміну від простіших підходів до створення шкал та оцінювання відповідей на опитувальники, теорія відгуку завдання не виходить із того, що всі завдання мають однакову складність. Це відрізняє ТВЗ від, наприклад, лайкертового шкалювання, в якому «всі завдання вважають повтореннями одне одного, або, іншими словами, завдання розглядають як паралельні інструменти».[3] Натомість теорія відгуку завдання враховує складність кожного завдання (характеристичні криві завдань, або ХКЗ, Шаблон:Lang-en) як інформацію, яку слід включати в шкалюванні завдань.

Вона ґрунтується на застосуванні пов'язаних математичних моделей до тестових даних. Оскільки її часто вважають вищою за класичну теорію тестування,Шаблон:Sfn їй часто віддають перевагу для розробки шкал у США,Шаблон:Citation needed особливо коли вимагаються оптимальні рішення, як у так званих тестах з високими ставками, як-то тест для вступу до магістратури (GRE) чи тест для допуску до магістерських програм з менеджменту (GMAT).

Назва теорія відгуку завдання зумовлена зосередженістю цієї теорії на завданні, на відміну від зосередженості на рівень тесту класичної теорії тестування. Таким чином, ТВЗ моделює відгук кожного іспитника заданої кваліфікації на кожне завдання в тесті. Термін завдання узагальнений, і охоплює всі види інформативних завдань. Це можуть бути завдання множинного вибору з неправильними та правильними відповідями, але також поширені й твердження в опитувальниках, які дозволяють респондентам вказувати рівень згоди (як-от Шаблон:Li чи лайкертове шкалювання), або симптоми пацієнта, оцінювані як присутні/відсутні, чи діагностична інформація в складних системах.

ТВЗ ґрунтується на ідеї, що ймовірність правильної/очікуваної відповіді на завдання є математичною функцією параметрів особи та завдання. (Вираз «математична функція параметрів особи та завдання» аналогічний Шаблон:Li, B = f(P, E), яке стверджує, що поведінка є функцією особи в її середовищі.) Параметр особи зазвичай розглядають як (єдину) латентну рису або вимір. До прикладів належать загальний рівень інтелекту та вираженість певного ставлення. До параметрів, за якими характеризують завдання, належать їхня складність (Шаблон:Lang-en, відома також як «розташування», Шаблон:Lang-en, через те, що їх розташовують на шкалі складності); розрізнювальність (Шаблон:Lang-en, нахил чи кореляція), яка відображає, наскільки різко рівень успіху осіб змінюється залежно від їхньої здібності; та параметр псевдовідгадуваності (Шаблон:Lang-en), який характеризує (нижню) асимптоту, на якій навіть найнездібніші особи матимуть успіх через відгадування (наприклад, 25 % для чисто випадкової відповіді у завданні множинного вибору з чотирма можливими варіантами відповіді).

Аналогічним чином ТВЗ можливо використовувати для вимірювання людської поведінки в соціальних мережах в Інтернеті. Думки, висловлені різними людьми, можливо агрегувати для дослідження за допомогою ТВЗ. Також було оцінено її застосування для класифікування інформації як дезінформації чи достовірної інформації.

Огляд

Шаблон:More citations needed section Концепція функції відгуку завдання існувала ще до 1950 року. Піонерська робота над ТВЗ як теорією відбувалася в 1950-х та 1960-х роках. Три піонери цієї галузі — психометр зі Служби освітніх тестувань (Шаблон:Lang-en) Шаблон:Li,[4] данський математик Шаблон:Li та австрійський соціолог Пауль Лазарсфельд, які проводили дослідження паралельно й незалежно. Серед ключових постатей, які зробили значний внесок у розвиток ТВЗ, слід згадати Шаблон:Li та Шаблон:Li. Широке використання ТВЗ розпочалося лише наприкінці 1970-х і 1980-х років, коли, з одного боку, практиків почали переконувати у «корисності» та «перевагах» ТВЗ, а з іншого — доступність персональних комп'ютерів надала багатьом дослідникам обчислювальні потужності, необхідні для застосування ТВЗ. У 1990-х роках Шаблон:Li розробила два програмні засоби для аналізу даних досліджень PISA та TIMSS: ACER ConQuest (1998) і пакет R TAM (2010).

Серед іншого, мета ТВЗ полягає у створенні системи для оцінювання ефективності роботи оцінювань та ефективності роботи окремих завдань в оцінюваннях. Найпоширенішим застосуванням ТВЗ є освіта, де психометри використовують її для розробки та проєктування іспитів, підтримування банків завдань для іспитів та вирівнювання[5] (Шаблон:Lang-en) складності завдань для наступних версій іспитів (наприклад, для забезпечення можливості порівняння результатів з плином часу).[6]

Моделі ТВЗ часто називають моделями латентних рис (Шаблон:Lang-en). Термін латентний використовують для підкреслення того, що дискретні відповіді на завдання розглядаються як спостережувані прояви гіпотетичних рис, конструктів чи атрибутів, які безпосередньо не спостерігаються, але мусять бути виведені з проявлених відповідей. Моделі латентних рис розробили в галузі соціології, але вони практично ідентичні моделям ТВЗ.

ТВЗ зазвичай вважають вдосконаленням порівняно з класичною теорією тестування (КТТ). Для завдань, які можливо виконати за допомогою КТТ, ТВЗ зазвичай надає більшу гнучкість і пропонує витонченішу інформацію. Деякі застосування, як-от комп'ютеризоване адаптивне тестування, стають можливими завдяки ТВЗ і не можуть здійснюватися з використанням лише класичної теорії тестування. Ще однією перевагою ТВЗ над КТТ є те, що витонченіша інформація, яку надає ТВЗ, дає можливість дослідникові підвищити надійність Шаблон:Li.

ТВЗ виходить із трьох припущень:

  1. Одновимірна риса, позначувана через θ;
  2. Шаблон:Li завдань;
  3. Відповідь особи на завдання можливо змоделювати за допомогою математичної функції відгуку завдання (ФВЗ, Шаблон:Lang-en).

Далі, вважають, що рису можливо виміряти за якоюсь шкалою (існування тесту вже виходить з цього), яку зазвичай налаштовують на стандартну шкалу із середнім значенням 0,0 і стандартним відхиленням 1,0. Одновимірність слід розуміти як однорідність, якість, яку потрібно визначити або емпірично довести відповідно до певної мети чи використання, а не як кількість, яку можливо виміряти. «Локальна незалежність» означає (а) що ймовірність використання одного завдання не залежить від використання будь-яких інших завдань і (б) що відповідь на завдання є незалежним рішенням кожного тестованого, тобто відсутнє списування або спільна робота парами чи групами. Питання вимірності зазвичай досліджують за допомогою факторного аналізу, тоді як ФВЗ є основною складовою ТВЗ і центром багатьох досліджень та літератури.

Функція відгуку завдання

Функція відгуку завдання (ФВЗ, Шаблон:Lang-en) показує ймовірність того, що особа з певним рівнем здібностей відповість правильно. Особи з нижчим рівнем здібностей мають менше шансів, тоді як особи з високим рівнем здібностей, навпаки, дуже ймовірно дадуть правильну відповідь; наприклад, учні з вищими математичними здібностями з більшою ймовірністю правильно розв'яжуть математичне завдання. Точне значення ймовірності залежить, крім рівня здібностей, від набору параметрів завдання, які використовують у ФВЗ.

Трипараметрова логістична модель

Рис. 1. Приклад ФВЗ 3ПЛ, де пунктирними лініями показано вплив параметрів.

Наприклад, у трипара́метровій логісти́чній моде́лі (3ПЛ, Шаблон:Lang-en) ймовірність правильної відповіді на дихотомноме завдання i, зазвичай завдання множинного вибору, становить

pi(θ)=ci+1ci1+eai(θbi)

де θ вказує, що здібності особи моделюються як вибірка з нормального розподілу для цілей оцінювання параметрів завдання. Після того як параметри завдання оцінено, оцінюються здібності окремих осіб для звітності. ai, bi та ci це параметри завдання. Вони визначають форму ФВЗ. Рис. 1 показує ідеальну характеристичну криву завдання (ХКЗ) 3ПЛ.

Параметри завдання можливо інтерпретувати як зміну форми стандартної логістичної функції: P(t)=11+et.

Коротко, параметри інтерпретують наступним чином (для зручності індекси пропущено); b найосновніший, тому йде першим:

  • b — складність, розташування завдання: p(b)=(1+c)/2, середня точка між ci (мінімум) та 1 (максимум), а також точка, де нахил максимальний.
  • a — розрізнювальність, масштаб, нахил: максимальний нахил p(b)=a(1c)/4.
  • c — псевдовідгадуваність, випадковість, асимптотичний мінімум p()=c.

Якщо c=0, то формули спрощуються до p(b)=1/2 та p(b)=a/4, що означає, що b дорівнює рівню успіху в 50 % (складність), а a (поділений на чотири) є максимальним нахилом (розрізнювальністю), що виникає на рівні успіху в 50 %. Далі, Шаблон:Li (логарифм Шаблон:Li) правильної відповіді дорівнює a(θb) (за умови c=0): зокрема, якщо здібність θ дорівнює складності b, шанси на правильну відповідь рівні (1:1, тобто логіт 0). Що більше здібність перевищує складність (або відстає від неї), то вища (або нижча) ймовірність правильної відповіді, причому розрізнювальність a визначає, наскільки швидко збільшуються або зменшуються шанси зі зміною здібності.

Іншими словами, стандартна логістична функція має асимптотичний мінімум 0 (c=0), центрована навколо 0 (b=0, P(0)=1/2) і має максимальний нахил P(0)=1/4. Параметр a розтягує горизонтальну шкалу, параметр b зміщує горизонтальну шкалу, а параметр c стискає вертикальну шкалу від [0,1] до [c,1]. Докладніше це пояснено нижче.

Параметр bi подає розташування завдання, яке у випадку тестування досягнень називають складністю завдання. Це точка на θ, де ФВЗ має максимальний нахил і де значення знаходиться посередині між мінімальним значенням ci та максимальним значенням 1. Завдання в прикладі має середню складність, оскільки bi=0,0, що близько до центру розподілу. Зауважте, що ця модель масштабує складність завдання та рису особи на одному й тому же континуумі. Таким чином, можна говорити про те, що завдання приблизно таке ж складне, як рівень риси Особи A, або, що рівень риси особи приблизно дорівнює складності Завдання Y, в сенсі того, що успішне виконання завдання відображає певний рівень здібності.

Параметр завдання ai подає розрізнювальність завдання, тобто ступінь, до якого завдання розрізняє осіб у різних областях латентного континууму. Цей параметр характеризує нахил ФВЗ у точці, де він максимальний. У прикладі завдання має ai=1,0, що забезпечує доволі добру розрізнювальність; особи з низьким рівнем здібностей мають набагато менший шанс дати правильну відповідь, ніж особи з вищими здібностями. Цей параметр розрізнювальності відповідає ваговому коефіцієнту відповідного завдання чи показника у стандартній зваженій лінійній регресії (Шаблон:Li) і, таким чином, може бути використаний для створення зваженого індексу показників для некерованого вимірювання латентного поняття.

Для завдань, таких як завдання множинного вибору, параметр ci використовують для врахування впливу відгадування на ймовірність правильної відповіді. Він вказує ймовірність того, що особи з дуже низькими здібностями правильно відповідатимуть на це завдання випадково, математично виражену як нижня асимптота. У завданні множинного вибору з чотирма варіантами відповідей ФВЗ може виглядати так, як у прикладі; ймовірність вгадати правильну відповідь для кандидата з надзвичайно низькими здібностями становить 1/4, тому ci буде приблизно 0,25. Цей підхід виходить з того, що всі варіанти відповідей однаково ймовірні, оскільки, якщо один варіант виглядав би безглуздим, навіть особа з найнижчими здібностями могла б його відкинути, тож методи оцінювання параметрів у ТВЗ враховують це і оцінюють ci на основі спостережуваних даних.[7]

Моделі ТВЗ

Загалом моделі ТВЗ можливо поділити на дві категорії: одновимірні та багатовимірні. Одновимірні моделі вимагають наявності однієї вимірюваної риси (здібності) θ. Багатовимірні моделі ТВЗ моделюють дані відгуку, що припускають виникнення з кількох рис. Проте, через значно вищу складність, більшість досліджень та застосувань ТВЗ використовують одновимірну модель.

Моделі ТВЗ також можливо класифікувати за кількістю оцінюваних відповідей. Типові завдання множинного вибору дихотомні (Шаблон:Lang-en); навіть якщо завдання має чотири чи п'ять варіантів, його оцінюють лише як правильне/неправильне. Інший клас моделей застосовують до політомних (Шаблон:Lang-en) результатів, коли кожній відповіді надається різне значення балу.[8][9] Поширеним прикладом цього є завдання лайкертового типу, наприклад, «Оцініть за шкалою від 1 до 5». Іншим прикладом є оцінювання з частковими балами, для якого можна застосовувати моделі на кшталт Шаблон:Li.

Кількість параметрів у ТВЗ

Дихотомні моделі ТВЗ описують кількістю параметрів, які вони використовують.[10] Трипараметрову логістичну модель (3ПЛ) називають так через використання нею трьох параметрів завдань. Двопараметрова модель (2ПЛ) виходить з відсутності вгадування в даних, але дозволяє завданням варіюватися за розташуванням (bi) та розрізнювальністю (ai). Однопараметрова модель (1ПЛ) виходить з того, що вгадування є частиною здібності, а всі завдання, які відповідають моделі, мають однакову розрізнювальність, тому завдання описують лише одним параметром (bi). Це означає, що однопараметрові моделі мають властивість специфічної об'єктивності, тобто порядок ранжування складності завдань однаковий для всіх респондентів незалежно від їхніх здібностей, а порядок ранжування здібностей осіб однаковий для завдань незалежно від їхньої складності. Таким чином, 1-параметрові моделі вибірково незалежні, що не є властивістю двопараметрових та трипараметрових моделей. На додачу, теоретично існує й чотирипараметрова модель (4ПЛ), з верхньою асимптотою, позначуваною через di, де 1ci у 3ПЛ замінюють на dici. Проте використовують її нечасто. Зауважте, що абетковий порядок параметрів завдань не відповідає їхній практичній чи психометричній важливості; параметр розташування/складності (bi) найважливіший, оскільки входить до всіх трьох моделей. 1ПЛ використовує лише bi, 2ПЛ використовує bi та ai, 3ПЛ додає ci, а 4ПЛ додає di.

Двопараметрова модель еквівалентна трипараметровій моделі з ci=0 і підходить для тестових завдань, де вгадування правильної відповіді дуже малоймовірне, як-от завдання на заповнення пропусків («Який квадратний корінь з 121?»), або де поняття вгадування незастосовне, наприклад, завдань із вимірювання особистісних рис, ставлень чи інтересів («Мені подобаються бродвейські мюзикли. Згоден/Не згоден»).

Однопараметрова модель виходить не лише з відсутності вгадування (або його неактуальності), а й з еквівалентності всіх завдань з погляду розрізнювальності, аналогічно звичайному факторному аналізу з ідентичними вагами для всіх завдань. Окремі завдання або особи можуть мати вторинні фактори, але їх вважають взаємно незалежними та спільно ортогональними.

Логістичні та нормальні моделі ТВЗ

Альтернативне формулювання будує ФВЗ на основі нормального розподілу ймовірності; такі моделі іноді називають нормально Шаблон:Li моделями (Шаблон:Lang-en). Наприклад, формула двопараметрової нормально ожайвової ФВЗ має вигляд

pi(θ)=Φ(θbiσi),

де Φ — інтегральна функція розподілу (ІФР) стандартного нормального розподілу.

Нормально ожайвова модель випливає з припущення нормальної розподіленості похибки вимірювання, й через це теоретично приваблива. Тут bi — параметр складності завдання. Параметром розрізнювальності є σi, стандартне відхилення похибки вимірювання для завдання i, порівнянне з 1/ai.

Нормально ожайвову модель латентної риси можливо оцінювати шляхом факторного аналізу матриці тетрахорних кореляцій між завданнями.[11] Це означає, що технічно можливо оцінити просту модель ТВЗ за допомогою статистичного програмного забезпечення загального призначення.

Масштабуванням параметра здібності можливо зробити так, щоби логістична модель 2ПЛ була дуже близькою до інтегрально нормальної ожайви.[12] Зазвичай ФВЗ логістичної 2ПЛ та нормальної-ожайвової моделей відрізняються ймовірністю не більш ніж на 0,01 по всьому діапазоні функції. Проте найбільша різниця спостерігається на хвостах розподілу, що мають більше впливу на результати.

Модель латентної риси/ТВЗ спочатку розробили з використанням нормальної ожайви, але це вважали занадто обчислювально вимогливим для комп'ютерів того часу (1960-ті роки). Логістичну модель запропонували як простішу альтернативу, й відтоді її широко використовували. Проте в подальшому було показано, що за допомогою стандартних поліноміальних наближень нормальної ІФР[13] нормально ожайвова модель стає не вимогливішою обчислювально за логістичні моделі.[14]

Модель Раша

Шаблон:Li часто вважають моделлю 1ПЛ ТВЗ. Проте прихильники моделювання за Рашем віддають перевагу розгляду її як цілком іншого підходу до концептуалізації взаємозв'язку між даними та теорією.[15] Як і інші підходи до статистичного моделювання, ТВЗ наголошує на первинності допасованості моделі до спостережуваних даних,[16] тоді як модель Раша підкреслює першорядність вимог до фундаментального вимірювання, де належна допасованість моделі є важливою, але другорядною вимогою, яку слід виконати, перш ніж тест чи інструмент дослідження можна вважати здатним вимірювати рису.[17] Операційно це означає, що підходи ТВЗ містять додаткові параметри моделі для відображення закономірностей, спостережуваних у даних (наприклад, дозволяючи завданням варіюватися за їхньою кореляцією з латентною рисою), тоді як у підході Раша твердження щодо наявності латентної риси можливо вважати чинним лише за умови, що (а) дані допасовуються до моделі Раша, і (б) завдання тесту та іспитники відповідають цій моделі. Тому в моделях Раша недопасовані відгуки потребують діагностики причин цієї недопасованості, й можуть бути вилучені з набору даних, якщо можливо пояснити по суті, чому вони не охоплюють латентну рису.[18] Таким чином, підхід Раша можливо вважати підтверджувальним підходом, на відміну від розвідувальних підходів, які намагаються моделювати спостережувані дані.

Наявність або відсутність параметра вгадування чи псевдовипадковості є основною й іноді суперечливою відмінністю. Підхід ТВЗ містить параметр лівої асимптоти, щоби враховувати вгадування у завданнях множинного вибору, тоді як модель Раша цього не робить, оскільки вважається, що вгадування додає до даних випадково розподілений шум. Оскільки шум розподілений випадково, вважається, що за умови тестування достатньої кількості завдань порядок ранжування осіб за латентною рисою за сирою оцінкою не зміниться, а лише зазнає лінійного масштабування. На противагу цьому, трипараметрова ТВЗ досягає допасованості даних і моделі шляхом вибору моделі, яка відповідає даним,[19] ціною втрати Шаблон:Нпні.

На практиці модель Раша має принаймні дві основні переваги порівняно з підходом ТВЗ. Першою перевагою є першорядність специфічних вимог Раша,[20] які (за умови їх виконання) забезпечують фундаментальне незалежне від особи вимірювання (коли осіб і завдання можна відобразити на одній інваріантній шкалі).[21] Другою перевагою підходу Раша є те, що оцінювання параметрів є простішим у моделях Раша завдяки наявності достатньої статистики, що у цьому застосуванні означає взаємнооднозначне відображення сирих оцінок за кількістю правильних відповідей на оцінки θ у моделі Раша.[22]

Аналіз допасованості моделі

Шаблон:Unreferenced section Як і з будь-яким використанням математичних моделей, важливо оцінити допасованість даних до моделі. Якщо недопасованість завдань із будь-якою моделлю пояснюється низькою якістю завдань, наприклад, заплутувальними відволіканнями в тесті множинного вибору, такі завдання може бути вилучено з цієї форми тесту й переписано або замінено в майбутніх формах тесту. Проте, якщо велика кількість недопасованих завдань спостерігається без очевидної причини цієї недопасованості, необхідно буде переглянути конструктивну валідність тесту, а специфікації тесту можуть потребувати переписування. Таким чином, недопасованість надає безцінні діагностичні інструменти для розробників тестів, дозволяючи емпірично перевіряти на основі даних гіпотези, на яких ґрунтуються специфікації тесту.

Для оцінювання допасованості існує кілька методів, як-от статистика хі-квадрат, або її стандартизована версія. Дво- та трипараметрові моделі ТВЗ коригують розрізнювальність завдань, забезпечуючи покращену допасованість даних і моделі, тому статистики допасованості не мають тієї підтверджувальної діагностичної цінності, яка спостерігається в однопараметрових моделях, де ідеалізовану модель задають заздалегідь.

Дані слід вилучати не на підставі недопасованості до моделі, а лише через те, що виявлено конструктивно доречну причину цієї недопасованості, наприклад, якщо не носій англійської мови складає тест із природничих наук, написаний англійською. Можна стверджувати, що такий кандидат не належить до тієї ж сукупності осіб залежно від вимірності тесту, і, хоча вважається, що однопараметрові моделі ТВЗ незалежні від вибірки, вони не незалежні від сукупності, тож така недопасованість є конструктивно доречною й не ставить під сумнів дійсність тесту чи моделі. Такий підхід є важливим інструментом у процесі валідації інструментів. У дво- та трипараметрових моделях, де психометричну модель коригують для допасування до даних, майбутні проведення тесту необхідно перевіряти на допасованість до тієї ж моделі, яку використовували під час початкової валідації, для підтвердження гіпотези, що оцінки з кожного проведення узагальнюються на інші проведення. Якщо ж для кожного проведення задають відмінну модель задля досягнення допасованості даних і моделі, то вимірюються відмінні латентні риси, й стверджувати, що результати тестів порівнянні між проведеннями, неможливо.

Інформація

Одним з основних внесків теорії відгуку завдання є розширення поняття надійності. Традиційно надійність стосується точності вимірювання (тобто ступеня, до якого вимірювання вільне від похибки). Традиційно її вимірюють за допомогою єдиного індексу, який визначають різними способами, як-от відношення дисперсії істинних оцінок до дисперсії спостережуваних оцінок. Цей індекс корисний для характеризування усередненої надійності тесту, наприклад, для порівняння двох тестів. Проте ТВЗ вияснює, що точність вимірювання не є однорідною в усьому діапазоні тестових оцінок. Оцінки на краях діапазону тесту, наприклад, зазвичай мають більшу похибку, ніж оцінки ближче до середини діапазону.

Теорія відгуку завдання просуває поняття інформації завдання і тесту як заміну надійності. Інформація також є функцією параметрів моделі. Наприклад, за теорією інформації за Фішером, інформація завдання у випадку 1ПЛ для дихотомних даних відповіді є просто добутком імовірності правильної відповіді на імовірність неправильної відповіді, або

I(θ)=pi(θ)qi(θ).

Стандартна похибка оцінювання (Шаблон:Lang-en) є оберненням інформації тесту на заданому рівні риси, що виражається формулою

SE(θ)=1I(θ).

Таким чином, більша інформація означає меншу похибку вимірювання.

Для інших моделей, як-от дво- та трипараметрових, параметр розрізнювальності відіграє у цій функції важливу роль. Функція інформації завдання для двопараметрової моделі виражається формулою

I(θ)=ai2pi(θ)qi(θ).

Функція інформації завдання для трипараметрової моделі має вигляд[23]

I(θ)=ai2(pi(θ)ci)2(1ci)2qi(θ)pi(θ).

Загалом, функції інформації завдань зазвичай мають форму дзвона. Високорозрізнювальні завдання мають високі вузькі функції інформації; вони роблять великий внесок, але у вузькому діапазоні. Менш розрізнювальні завдання надають менше інформації, але над ширшим діапазоном.

Графіки функцій інформації завдань можливо використовувати для оцінювання того, скільки інформації завдання привносить, й у якому діапазоні шкали оцінок. Завдяки локальній незалежності, функції інформації завдань Шаблон:Li. Відтак, функція інформації тесту є просто сумою функцій інформації завдань на іспиті. Використовуючи цю властивість разом із великим банком завдань, функціям інформації тесту можливо надавати потрібної форми для дуже точного контролю похибки вимірювання.

Характеризування точності тестових оцінок є, мабуть, центральним питанням у психометричній теорії та головною відмінністю між ТВЗ і КТТ. Результати досліджень у межах ТВЗ виявляють, що поняття надійності з КТТ є спрощенням. Замість надійності ТВЗ пропонує функцію інформації тесту, яка показує ступінь прецизійності на різних значеннях тета, θ.

Ці результати дозволяють психометрам (потенційно) ретельно формувати рівень надійності для різних діапазонів здібності, включаючи ретельно підібрані завдання. Наприклад, у ситуації сертифікації, коли тест може бути лише складено або провалено, з єдиним «прохідним балом», і де фактичний прохідний бал неважливий, можливо розробити дуже ефективний тест, обравши лише завдання, що мають високу інформацію поблизу прохідного балу. Ці завдання зазвичай відповідають завданням, чия складність приблизно відповідає прохідному балу.

Оцінювання

Параметр особи θ подає величину латентної риси (Шаблон:Lang-en) особи, що є людською здатністю чи характеристикою, вимірюваною тестом.[24] Це може бути когнітивна здібність, фізична здібність, навичка, знання, ставлення, особистісна риса тощо.

Оцінка параметра особи — «оцінка» (Шаблон:Lang-en) у тесті за ТВЗ — обчислюється та інтерпретується зовсім інакше, ніж традиційні оцінки, як-от кількість або відсоток правильних відповідей. Загальна кількість правильних відповідей особи не є фактичною оцінкою, яка натомість ґрунтується на ФВЗ, що веде до зваженої оцінки, якщо модель містить параметри розрізнювальності завдань. Фактично її отримують перемноженням функцій відгуку завдань для кожного з завдань для отримання функції правдоподібності (Шаблон:Lang-en), найвища точка якої є оцінкою максимальної правдоподібності θ. Цю найвищу точку зазвичай оцінюють за допомогою програмного забезпечення ТВЗ, використовуючи метод Ньютона — Рафсона.[25] Хоча оцінювання у ТВЗ значно складніше, для більшості тестів кореляція між оцінкою тета та традиційною оцінкою дуже висока; часто вона становить 0,95 чи більше.Шаблон:Citation needed Графік оцінок ТВЗ проти традиційних оцінок має форму ожайви, що свідчить про те, що оцінки ТВЗ краще розрізняють осіб на межах діапазону, ніж у середині.

Важливою відмінністю між КТТ і ТВЗ є підхід до врахування похибки вимірювання, індексованої за допомогою стандартної похибки вимірювання. Усі тести, опитувальники та переписи є неточними інструментами; ми ніколи не можемо точно знати істинну оцінку особи, а маємо лише її оцінку, тобто спостережувану оцінку. Існує певна кількість випадкової похибки, яка може як підвищувати, так і знижувати спостережувану оцінку порівняно з істинною. КТТ виходить з того, що обсяг похибки однаковий для кожного іспитника, тоді як ТВЗ дозволяє йому варіюватися.[26]

Крім того, нічого в ТВЗ не заперечує людський розвиток чи вдосконалення та не припускає, що рівень риси є незмінним. Особа може засвоїти навички, знання або навіть так звані «навички складання тестів», що можуть призводити до вищої істинної оцінки. Насправді частина досліджень у межах ТВЗ зосереджується на вимірюванні змін рівня риси.[27]

Порівняння класичної теорії тестування та теорії відгуку завдання

Класична теорія тестування (КТТ) та ТВЗ загалом займаються одними й тими же задачами, але є різними теоретичними підходами та передбачають різні методи. Хоч обидві ці парадигми зазвичай і узгоджуються та взаємодоповнюють одна одну, між ними існує низка відмінностей:

  • ТВЗ робить сильніші припущення, ніж КТТ, і в багатьох випадках надає відповідно сильніші висновки; насамперед це стосується характеристик похибки. Звісно, ці результати дійсні лише тоді, коли припущення моделей ТВЗ справджуються.
  • Хоч результати КТТ і дозволили отримати важливі практичні висновки, модельно-орієнтована природа ТВЗ надає багато переваг над аналогічними висновками КТТ.
  • Процедури оцінювання у КТТ мають перевагу в простоті обчислення (і пояснення), тоді як оцінювання за ТВЗ зазвичай вимагає відносно складних процедур.
  • ТВЗ забезпечує кілька вдосконалень у шкалюванні завдань і осіб. Конкретні деталі залежать від моделі ТВЗ, але більшість моделей шкалюють складність завдань і здібності осіб за однією й тією ж метрикою. Тож складність завдання та здібності особи можливо змістовно порівнювати.
  • Ще одним вдосконаленням, забезпечуваним ТВЗ, є те, що параметри моделей ТВЗ зазвичай не залежать від вибірки або тесту, тоді як істинна оцінка в КТТ визначається в контексті конкретного тесту. Таким чином, ТВЗ забезпечує значно більшу гнучкість у ситуаціях використання різних вибірок чи виглядів тесту. Ці висновки ТВЗ є засадничими для комп'ютеризованого адаптивного тестування.

Варто також згадати декілька специфічних схожостей між КТТ і ТВЗ, які допомагають зрозуміти відповідність між поняттями. По-перше, ЛордШаблон:Sfn показав, що за припущення, що θ має нормальний розподіл, розрізнювальність у моделі 2ПЛ є приблизно монотонною функцією Шаблон:Li. Зокрема:

aiρit1ρit2

де ρit — точково-бісеріальна кореляція завдання i. Таким чином, якщо припущення справджується, то за вищої розрізнювальності зазвичай спостерігатиметься вища точково-бісеріальна кореляція.

Ще однією схожістю є те, що хоча ТВЗ надає стандартну похибку для кожної оцінки й функцію інформації, також можливо отримати індекс для тесту загалом, безпосередньо аналогічний альфі Кронбаха, який називають індексом поділу (Шаблон:Lang-en). Для цього потрібно почати з розкладу оцінки ТВЗ на істинне розташування та похибку, аналогічно розкладу спостережуваної оцінки на істинну оцінку та похибку в КТТ. Нехай

θ^=θ+ϵ

де θ — істинне розташування, а ϵ — похибка, пов'язана з оцінкою. Тоді SE(θ) є оцінкою стандартного відхилення ϵ для особи із заданою зваженою оцінкою, а індекс поділу отримується наступним чином:

Rθ=var[θ]var[θ^]=var[θ^]var[ϵ]var[θ^]

де середньоквадратична стандартна похибка оцінки особи дає оцінку дисперсії похибок, ϵn, для різних осіб. Стандартні похибки зазвичай отримують як побічний продукт процесу оцінювання. Індекс поділу зазвичай дуже близький за значенням до альфи Кронбаха.[28]

ТВЗ іноді називають сильною теорією істинної оцінки або сучасною теорією психометричного тестування через її сучасніший характер і чіткіше формулювання гіпотез, які в КТТ є неявними.

Втілення

Втілення різних варіацій теорії відгуку завдання доступні в багатьох статистичних програмах і мовах програмування, зокрема в мові програмування R,[29][30][31] та Python.[32]

Див. також

Примітки

Шаблон:Reflist

Література

Було написано багато книг, які стосуються теорії відгуку завдання або містять моделі ТВЗ чи подібні до них. Це частковий перелік, зосереджений на текстах, які пропонують глибше занурення в тему.

Ця книга підсумовує багато робіт Лорда у сфері ТВЗ, включно з розділами про взаємозв'язок між ТВЗ і класичними методами, основи ТВЗ, оцінювання та кілька розширених тем. Розділ про оцінювання наразі застарілий, оскільки переважно обговорює метод спільної максимальної правдоподібності замість методу Шаблон:Нпні, втіленого Дарреллом Боком і його колегами.
Ця книга є доступним вступом до ТВЗ, орієнтованим, як зазначено в назві, на психологів.
Ця вступна книга написана одним із піонерів у цій галузі.
У цій книзі описано різні моделі теорії відгуку завдання та надано докладні пояснення алгоритмів, які можна використовувати для оцінювання параметрів завдань і здібностей. Частини книги доступні онлайн як обмежений попередній перегляд у Google Книгах.
Ця книга пропонує всебічний огляд різних популярних моделей ТВЗ. Вона добре підходить для тих, хто вже набув базового розуміння ТВЗ.
У цьому томі пропонується інтегроване введення до моделей відгуку завдань, головним чином орієнтоване на практиків, дослідників і студентів.
Ця книга обговорює баєсів підхід до моделювання відгуку завдань. Вона буде корисною для тих, хто знайомий із ТВЗ і має інтерес до аналізу даних відгуку завдань із баєсової перспективи.

Посилання

Шаблон:Authority control