Чутливість та специфічність

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Short description Шаблон:Technical

Чутливість та специфічність

Чутли́вість (Шаблон:Lang-en) та специфі́чність (Шаблон:Lang-en) — це широко вживані в медицині статистичні міри продуктивності Шаблон:Нп бінарної класифікації:

  • Чутливість вимірює частку істинно позитивних, що є визначеними правильно (наприклад, частку з тих, хто справді має певний стан (уражені), яку було правильно визначено як таких, що мають цей стан).
  • Специфічність вимірює частку істинно негативних (наприклад, частку тих, хто справді не має певного стану (не уражені), яку було правильно визначено як таких, що не мають цього стану).

Терміни «істинно позитивний», «хибно позитивний», «істинно негативний» та «хибно негативний» позначують наявність або відсутність якогось стану, та правильність цієї класифікації. Наприклад, якщо станом є захворювання, то «істинно позитивний» означає «правильно діагностований як хворий», «хибно позитивний» означає «неправильно діагностований як хворий», «істинно негативний» означає «правильно діагностований як не хворий», а «хибно негативний» означає «неправильно діагностований як не хворий». Таким чином, якщо чутливість тесту складає 98 %, а специфічність — 92 %, то його рівень хибно негативних становить 2 %, а рівень хибно позитивних — 8 %.

У діагностичному тестуванні чутливість є мірою того, наскільки добре тест може визначати істинно позитивних. Чутливість також називають повнотою (Шаблон:Lang-en), коефіцієнтом влучання (Шаблон:Lang-en), та істиннопозитивним рівнем (Шаблон:Lang-en). Вона є відсотком або часткою істинно позитивних серед усіх зразків, що мають заданий стан (істинно позитивних та хибно негативних). Чутливість тесту може допомагати показувати, наскільки добре він може класифікувати зразки, що мають цей стан. Високе значення чутливості означає, що тест правильно класифікує зразок без заданого стану як негативний частіше, ніж тест, що має нижчу чутливість.

У діагностичному тестуванні специфічність є мірою того, наскільки добре тест може визначати істинно негативних. Специфічність також називають вибірністю (Шаблон:Lang-en) та істиннонегативним рівнем (Шаблон:Lang-en), і вона є відсотком або часткою істинно негативних серед усіх зразків, що не мають певного стану (істинно негативних та хибно позитивних). Наявність в тесту високого значення специфічності означає, що він правильно класифікує зразки із заданим станом частіше за тест із низькою специфічністю.

У «доброму» діагностичному тесті (такім, що намагається точно визначати людей, що мають певний стан) хибно позитивні повинні бути дуже низькими. Тобто, люди, яких визначають як носіїв стану, повинні з великою правдоподібністю справді мати цей стан. Це пов'язане з тим, що люди, яких ідентифікують як носіїв стану (але які, насправді, його не мають) можуть піддаватися: додатковому тестуванню (що може бути дорогим), стигматизації (наприклад, позитивний тест на ВІЛ), тривозі (наприклад, я хворий… я можу померти).

Для будь-якого тестування, як діагностичного, так і скринінгового, існує компроміс між чутливістю та специфічністю. Вищі чутливості означатимуть нижчі специфічності, й навпаки.

Терміни «чутливість» (Шаблон:Lang-en) та «специфічність» (Шаблон:Lang-en) запровадив 1947 року американський біостатистик Джейкоб Єрушалми.[1]

Шаблон:Терміни матриці невідповідностей

Застосування в скринінгових дослідженнях

Кожна особа, якій роблять тест, або має, або не має це захворювання. Результат тесту може бути позитивним (класифікуючи особу як таку, що має захворювання) або негативним (класифікуючи особу як таку, що не має цього захворювання). Результати тесту для кожного суб'єкта можуть відповідати, а можуть і не відповідати справжньому станові суб'єкта. Таким чином є:

  • Істинно позитивні: Хворі люди, правильно визначені як хворі
  • Хибно позитивні: Здорові люди, неправильно визначені як хворі
  • Істинно негативні: Здорові люди, правильно визначені як здорові
  • Хибно негативні: Хворі люди, неправильно визначені як здорові

Після отримання чисел істинно позитивних, хибно позитивних, істинно негативних, та хибно негативних, можливо обчислити чутливість та специфічність тесту. Якщо виявляється, що чутливість є високою, тоді будь-яка особа, яку тест класифікує як позитивну, швидше за все, є істинно позитивною. З іншого боку, якщо специфічність є високою, то будь-яка особа, яку цей тест класифікує як негативну, швидше за все, є істинно негативною.

Матриця невідповідностей

Розгляньмо групу з П позитивними та Н негативними екземплярами якогось стану. Чотири результати в таблиці невідповідностей, або матриці невідповідностей 2×2, а також виведення декількох метрик із застосуванням цих чотирьох результатів, може бути сформульовано наступним чином:

Шаблон:Діаграма діагностичного дослідження

Чутливість

Розгляньмо приклад медичного тесту для діагностування якогось стану. Чутливість означає здатність тесту правильно виявляти хворих пацієнтів, які справді мають цей стан.[2] В прикладі медичного тесту, який використовують для виявляння якогось стану, чутливість (яку також іноді в клінічній постановці називають рівнем виявляння) тесту є пропорцією людей, які отримують позитивний тест на це захворювання, серед них, хто це захворювання має. Математично це можливо виразити так:

чутливість = Шаблон:Ндріб
= Шаблон:Ндріб
= ймовірність позитивного тесту за умови, що пацієнт має захворювання

Негативний результат у тесті з високою чутливістю є корисним для виключення захворювання.[2] Тест із високою чутливістю є надійним, коли його результат є негативним, оскільки він рідко ставить помилковий діагноз тим, хто має захворювання. Тест із 100 %-ю чутливістю розпізнаватиме всіх пацієнтів із захворюванням, даючи позитивний результат. Негативний результат тесту однозначно виключатиме наявність захворювання в пацієнта. Проте позитивний результат тесту з високою чутливістю не обов'язково є корисним для встановлення захворювання. Припустімо, що «підробний» тестувальний набір розроблено таким чином, щоби він завжди видавав позитивні покази. При використанні на хворих пацієнтах всі пацієнти отримуватимуть позитивний тест, що даватиме цьому тестові чутливість 100 %. Проте чутливість не бере до уваги хибно позитивні. Цей підробний тест також повертає позитивний результат для всіх здорових пацієнтів, що дає йому хибнопозитивний рівень 100 %, роблячи його марним для виявляння або «встановлювання» захворювання.

Розрахунок чутливості не враховує невизначені результати тесту. Якщо повторити тест неможливо, то невизначені зразки потрібно або виключити з аналізу (число виключень повинно бути вказано при оголошенні чутливості), або їх можливо розглядати як хибно негативні (що дає значення найгіршого випадку для чутливості, й може відтак недооцінювати її).

Специфічність

Розгляньмо приклад медичного тесту для діагностування якогось захворювання. Специфічність означає здатність цього тесту правильно відхиляти здорових пацієнтів, що не мають цього стану. Специфічність тесту є пропорцією серед тих, хто справді не має цього стану, тих, хто отримав негативний тест на цей стан. Математично це також можливо записати так:

специфічність = Шаблон:Ндріб
= Шаблон:Ндріб
= імовірність негативного тесту за умови, що пацієнт не є хворим

Позитивний результат у тесті з високою специфічністю є корисним для встановлювання захворювання. Такий тест рідко видає позитивні результати для здорових пацієнтів. Позитивний результат означає високу ймовірність наявності захворювання.[3] Тест зі 100 %-ю специфічністю розпізнаватиме всіх пацієнтів без захворювання як негативних, тож позитивний результат однозначно встановлюватиме наявність захворювання. Проте негативний результат тесту з високою специфічністю не обов'язково є корисним для виключення захворювання. Наприклад, тест, що завжди повертає негативний результат, матиме специфічність 100 %, оскільки специфічність не бере до уваги хибно негативні. Такий тест повертатиме негативний результат для пацієнтів із захворюванням, роблячи його марним для встановлювання захворювання.

Тест із високою специфічністю має нижчий рівень помилок першого роду.

Графічна ілюстрація

Наведена вище ілюстрація-графік має на меті показати взаємозв'язок між чутливістю та специфічністю. Чорна пунктирна лінія в центрі графіка — це де чутливість та специфічність є однаковими. При русі ліворуч від чорної пунктирної лінії чутливість збільшується, досягаючи максимального значення в 100 % на лінії А, а специфічність зменшується. Чутливість на лінії А становить 100 % через те, що в цій точці є нуль хибно негативних, що означає, що всі позитивні результати тесту є істинно позитивними. При русі праворуч має місце протилежне, специфічність зростає, поки не досягне лінії Б, й складе 100 %, а чутливість зменшується. Специфічність на лінії Б становить 100 % через те, що число хибно позитивних на цій лінії є нульовим, що означає, що всі негативні результати тесту є істинно негативними.

Стосовно рисунку, що показує високу чутливість та низьку специфічність, з визначення чутливості, число хибно негативних окремо впливає лише на знаменник, і з лише кількома такими знаменник та чисельник є близькими одне до одного, й відтак видають високу чутливість. Аналогічно, подібні міркування може бути застосовано й до того, який показує низьку чутливість та високу специфічність.

Медичні приклади

У медичній діагностиці чутливість тесту є здатністю цього тесту правильно визначати тих, хто має захворювання (істиннопозитивний рівень), тоді як специфічність тесту є здатністю цього тесту правильно визначати тих, хто цього захворювання не має (істиннонегативний рівень). Якщо при тестуванні 100 пацієнтів, про яких відомо, що вони мають певне захворювання, позитивний тест отримують 43 з них, то цей тест має чутливість 43 %. Якщо тестують 100 без захворювання, й для 96 отримують повністю негативний результат, то цей тест має специфічність 96 %. Чутливість та специфічність є характеристиками тесту, що не залежать від поширеності, оскільки їхні значення є властивостями самого тесту, й не залежать від поширеності захворювання в досліджуваній сукупності.[4]Значеннями, на які впливає поширеність захворювання в тестованій сукупності, є прогностичні значущості позитивного та негативного результатів, а не чутливість та специфічність. Ці поняття проілюстровано графічно в аплеті Баєсова клінічна діагностична модель Шаблон:Webarchive Шаблон:Ref-en, який показує прогностичні значущості позитивних та негативних результатів як функцію від поширеності, чутливості та специфічності.

Поріг поширеності

Взаємозв'язок між прогностичною значущістю позитивних результатів скринінгового тесту та поширеністю його цілі є пропорційним, хоч і не лінійним в усіх випадках, крім одного особливого. Як наслідок, існує точка локального екстремуму та максимуму кривини, визначена лише як функція від чутливості та специфічності, за якою темп зміни прогностичної значущості позитивних результатів тесту падає диференціально відносно поширеності захворювання. Цю точку із застосуванням диференціальних рівнянь було вперше визначено Балайлою та ін.,[5] та названо поро́гом поши́реності (ϕe, Шаблон:Lang-en). Рівняння порогу поширеності задається наступною формулою, де a = чутливість, а b = специфічність:

ϕe = Шаблон:Ндріб = Шаблон:Ндріб

Місце положення цієї точки на кривій скринінгу має критичні наслідки для клініцистів та інтерпретування позитивних скринінових тестів у режимі реального часу.Шаблон:Які

Неправильні розуміння

Часто заявляють, що тест із високою специфічністю є дієвим для встановлення захворювання, коли він є позитивним, тоді як тест із високою чутливістю вважають дієвим для виключення захворювання, коли він є негативним.[6][7] Наслідком цього є широко вживані мнемоніки Шаблон:Lang-en та Шаблон:Lang-en, відповідно до яких тест із високою специфічністю (Шаблон:Lang-en), коли він є позитивним (Шаблон:Lang-en), встановлює (Шаблон:Lang-en) захворювання (Шаблон:Lang-en), а тест із високою чутливістю (Шаблон:Lang-en), коли він є негативним (Шаблон:Lang-en), виключає (Шаблон:Lang-en) захворювання (Шаблон:Lang-en). Проте, обидва ці евристичні формули вводять в оману, оскільки діагностична сила будь-якого тесту визначається як його чутливістю, так і його специфічністю.[8][9][10]

Компроміс між чутливістю та специфічністю досліджує аналіз РХП як компроміс між ІПР та ХПР (тобто повнотою та побічним продуктом).[11] Надавання їм однакової ваги оптимізує Шаблон:Нп = специфічність + чутливість − 1 = ІПР − ХПР, величина якої дає ймовірність поінформованого рішення між двома класами (> 0 представляє належне використання інформації, 0 представляє ефективність на рівні вгадування, < 0 представляє помилкове використання інформації).[12]

Індекс чутливості

Шаблон:Нп, або d', — це статистика, яку використовують в теорії виявляння сигналу. Вона забезпечує розділення між середніми значеннями розподілів сигналу та шуму, в порівнянні зі стандартним відхиленням розподілу шуму. Для нормально розподілених сигналу та шуму з середніми значеннями та стандартними відхиленнями μS та σS, та μN та σN відповідно, d' визначають як

d=μSμN12(σS2+σN2)[13]

Оцінку d' також можливо знаходити з вимірювань Шаблон:Нп та рівня Шаблон:Нп. Її обчислюють як

d' = Z(коефіцієнт влучання) — Z(рівень хибної тривоги),[14]

де функція Z(p), p ∈ [0,1], є оберненою до функції гауссового розподілу.

d' є безрозмірною статистикою. Вища d' вказує, що сигнал може бути легше виявити.

Робочий приклад

Шаблон:ЧутлСпецПЗППЗН

Оцінювання похибок заявлюваних чутливості чи специфічності

Значення чутливості та специфічності самі по собі можуть бути дуже оманливими. Щоби запобігти залежності від експериментів з невеликою кількістю результатів, мусить бути обчислювано чутливість чи специфічність «найгіршого випадку». Наприклад, певний тест може легко показати 100 %-ву чутливість за перевірки відносно Шаблон:Нп чотири рази, але єдина додаткова перевірка відносно золотого стандарту, що дала поганий результат, означатиме чутливість лише в 80 %. Поширеним способом робити це є вказувати Шаблон:Нп, часто обчислюваний за допомогою оцінкового інтервалу Вілсона.

Для чутливості та специфічності може бути обчислювано довірчі інтервали, що дають діапазон значень, в межах якого правильне значення перебуває із заданим рівнем довір'я (наприклад, 95 %).[15]

Термінологія в інформаційнім пошуку

В інформаційнім пошуку прогностичну значущість позитивного результату називають влучністю, а чутливість називають повнотою. На відміну від компромісу між специфічністю та чутливістю, обидві ці міри не залежать від числа істинно негативних, що є, як правило, не відомим, і набагато більшим за фактичні кількості релевантних та знайдених документів. Це припущення про великі кількості істинно негативних відносно позитивних в інших застосуваннях зустрічається рідко.[12]

Як єдину міру ефективності тесту для позитивного класу можливо використовувати F-міру. F-міра є середнім гармонійним влучності та повноти:

F = 2 × Шаблон:Ндріб

У традиційній мові перевірки статистичних гіпотез чутливість тесту називають його статистичною потужністю, хоча слово «потужність» у тім контексті має загальніше застосування, яке не є застосовним у контексті поточнім. Чутливий тест матиме менше помилок другого роду.

Див. також

Шаблон:Portal Шаблон:Columns-list

Виноски

Шаблон:Notelist

Примітки

Шаблон:Примітки

Література

Шаблон:Refbegin

Шаблон:Refend

Посилання

Шаблон:Бібліоінформація