Коефіцієнт Жаккара

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Шаблон:Multiple image Шаблон:Multiple image Мі́ра Жакка́ра (коефіціє́нт флористи́чної спі́льності, Шаблон:Lang-fr, Шаблон:Lang-de) — міра подібності, запропонована Полем Жаккаром в 1901 році.[1] Запропонований метод здобув поширення і нині використовується для оцінки подібності скінченних множин, в інформатиці, для пошуку подібних документів, плагіату тощо.

Коефіцієнт Jaccard вимірює подібність між множинами і визначається як міра спільної частини, поділена на міру об'єднання множин:

J(A,B)=|AB||AB|=|AB||A|+|B||AB|.

(Коли A та B обидві порожні, тоді J(A,B) = 1.)

0J(A,B)1.

Відстань Жаккара, яка вимірює відмінність множин, є доповненням коефіцієнта Жаккара до 1 і отримується відніманням коефіцієнта Жаккара від 1, або, еквівалентно, діленням різниці мір об'єднання і перетину двох множин на міру об'єднання:

dJ(A,B)=1J(A,B)=|AB||AB||AB|.

Інакше можна пояснити відстань Жаккара, як відношення міри симетричної різниці AB=(AB)(AB) до об'єднання.

Відстань Жаккара є метрикою на множині всіх скінченних множин[2][3][4].

В ботаніці

Коефіцієнт подібності Жаккара обчислюють за формулою:

KJ=ca+bc,

де

  • а — кількість видів на першому пробному майданчику,
  • b — кількість видів на другому пробному майданчику,
  • с — кількість видів, спільних для 1-ого та 2-ого майданчиків.

Це перший відомий коефіцієнт подібності. Прізвище автора коефіцієнта в літературі перекладалася як: Жаккард, Джаккард. Коефіцієнт Жаккара в різних модифікаціях і записах активно використовується в екології, геоботаніці, молекулярній біології, біоінформатиці, геноміці, протеїноміці, інформатиці та інших галузях. Міра Жаккара еквівалентна (пов'язані однією монотонно зростаючою залежністю) мірі Серенсена і міру Сокала-Сніта для скінченних множин (множинна інтерпретація):

K1,1=n(AB)n(A)+n(B)n(AB)=n(AB)n(AB)

Міру різниці, яка є доповненням до 1 коефіцієнта подібності Жаккара, називають мірою флористичного контрасту[5][6].

Для випадку дескриптивних множин (дескриптивна інтерпретація) в екології - це вибірки за рясністю, аналогом вказаної міри є міра Ружички[7]:

K1,1=i=1rmin(Ai,Bi)(i=1r(Ai)+i=1r(Bi)i=1rmin(Ai,Bi))=i=1rmin(Ai,Bi)i=1rmax(Ai,Bi))

В конкретних випадках, коли використовуються компоненти булевих векторів, тобто компоненти, які набувають тільки два значення 0 та 1, міра відома під назвою коефіцієнта Танімото або розширеного коефіцієнта Жаккара[8].

Якщо порівнюються об'єкти за зустрічальністю видів (ймовірнісна інтерпретація), тобто враховуються ймовірності зустрічей, то аналогом міри Жаккара буде ймовірнісна міра Іверсена[9]:

K1,1=P(AB)P(AB).

Для інформаційної аналітичної інтерпретації використовується міра взаємозалежності Райського[10][11][12]:

K1,1=I(A,B)H(A,B)

Мірою різниці, коеквівалентною мірі подібності Жаккара, є відстань:

F1,1=1n(AB)n(A)+n(B)n(AB)=n(AB)n(AB)n(AB)

В інформатиці

В інформатиці коефіцієнт Жаккара двох множин A та В дорівнює відношенню кількості елементів перетину множин до кількості елементів їхнього об'єднання:[13]

J(A,B)=|AB||AB|

Коефіцієнт Жаккара та алгоритм шинглів використовують для пошуку схожих текстів у великому корпусі документів, а також для виявлення плагіату. Для ефективного обчислення оцінки значення коефіцієнта Жаккара використовують алгоритм MinHash.

Примітки

Шаблон:Reflist

Див. також

Посилання

  1. Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. Soc. Vaudoise sci. Natur. — 1901. — V. 37, Bd. 140. — S. 241—272.
  2. Kosub, Sven; «A note on the triangle inequality for the Jaccard distance» arXiv:1612.02696 Шаблон:Webarchive
  3. Шаблон:Citation
  4. Шаблон:Citation
  5. Миркин Б. М., Розенберг Г. С. Толковый словарь современной фитоценологии. — М.: Наука, 1983. — 134 с.
  6. Миркин Б. М., Розенберг Г. С., Наумова Л. Г. Словарь понятий и терминов современной фитоценологии. — М.: Наука, 1989. — 223 с.
  7. Ružička M.K. Anwendung mathematiseh-statistiseher Methoden in der Geobotanik (sintetischa Bearbeitung von Aufnahmen) // Biologia. — 1958. — Roč. 13, č. 9. — S. 647—661.
  8. Tanimoto T.T. IBM Internal Report — 17th Nov. — 1957.
  9. Iversen J. Über die Korrelationen zwischen den Pflanzenarten in einem grönlandischen Talgebiet // Vegetation. — 1954. — V. 5-6. — P. 238—246.
  10. Шаблон:Cite journal
  11. Rajski C. Entropy and metric spaces // C. Cherry (ed.). Information Theory. — London: Butterworths, 1961. — P. 41-45.
  12. Елисеева И. И., Рукавишников В. О. Группировка, корреляция, распознавание образов: (статистические методы классификации и измерения связей). — М.: Статистика, 1977. — 143 с.
  13. Шаблон:Cite book