Подібність Джаро — Вінклера

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

В інформатиці та статистиці подібність Джаро — Вінклера — це рядкова метрика, що вимірює відстань редагування між двома послідовностями. Є модифікацією метрики подібності Джаро (1989, Метью А. Джаро), запропонованою у 1990 році Вільямом Е. Вінклером.

Відстань Джаро–Вінклера використовує оцінку довжини префікса p, що дає більш сприятливі оцінки рядкам, що з самого початку відповідають заданій довжині префікса .

Чим менша відстань Джаро–Вінклера для двох рядків, тим більш подібними є рядки. Оцінка нормується таким чином, що 1 означає точну відповідність, а 0 означає відсутність будь-якої подібності. Подібність Джаро — Вінклера дає протилежні результати.

Хоча її часто називають метрикою відстані, відстань Яро–Вінклера не є метрикою в математичному розумінні, оскільки вона не виконує нерівність трикутника.

Визначення

Подібність Джаро

Подібність Джаро simj з двох заданих рядків s1 і s2 визначається як

simj={0якщо m=0,13(m|s1|+m|s2|+mtm)в іншому разі

Тут:

  • |si| - довжина рядка si;
  • m - кількість співпадінь (див. нижче);
  • t - кількість транспозицій (див. нижче).

Два символи від s1 і s2 відповідно, вважаються співпадінням лише в тому випадку, якщо вони однакові і розташовані не далі, ніж max(|s1|,|s2|)21 один від одного.

Кожен символ s1 порівнюється з усіма відповідними символами в s2. Кількість відповідних (але в різному порядку) символів, розділених на 2, визначає кількість транспозицій. Наприклад, при порівнянні «CRATE» з «TRACE» лише символи «R», «A», «E» є співпадіннями, тобто m=3 Незважаючи на те, що «C» та «T» з'являються в обох рядках, вони розташовані далі один від одного, ніж 1 (результат 521 ). Отже, t=0. Якщо порівнювати «DwAyNE» та «DuANE», то тут співпадіння уже розташовані в тому самому порядку, тож транспозиції відсутні.

Подібність Джаро — Вінклера

Подібність Джаро — Вінклера використовує оцінку префікса p що дає більш сприятливі оцінки рядкам, які з самого початку відповідають заданій довжині префікса . Дано два рядки s1 і s2. Їхня подібність Джаро-Вінклера simw визначається як:

simw=simj+p(1simj),

де:

  • simj — подібність Джаро для рядків s1 і s2
  • — довжина загального префіксу на початку рядка — максимум до 4 символів
  • p є сталим коефіцієнтом масштабування того, наскільки оцінка коригується вгору за наявність загальних префіксів. p не повинен перевищувати 0,25 (тобто 1/4, причому 4 - це максимальна довжина префікса, що розглядається), інакше подібність може стати більшою за 1. Стандартним значенням цієї константи у роботі Вінклера є p=0.1.

Відстань Джаро — Вінклера dw визначається як dw=1simw.

Хоча її часто називають метрикою, відстань Джаро — Вінклера не є метрикою в математичному розумінні, оскільки вона не підпорядковується нерівності трикутника.[1] Відстань Джаро — Вінклера також не відповідає аксіомі ідентичності d(x,y)=0x=y .

Взаємозв'язок з іншими метриками відстані редагування

Є й інші популярні міри відстані редагування, які обчислюються з використанням іншого набору допустимих операцій редагування. Наприклад,

Відстань редагування зазвичай визначається як параметризована метрика, обчислена з певним набором дозволених операцій редагування, і кожній операції присвоюється вартість (можливо, нескінченна). Це додатково узагальнюється алгоритмами вирівнювання послідовностей ДНК, такими як алгоритм Сміта — Вотермана, які роблять вартість операції залежною від того, де вона застосовується.

Див. також

Виноски

 Шаблон:Reflist

Список літератури

Зовнішні посилання

Шаблон:Рядки