Закон Гіпса

Матеріал з testwiki
Перейти до навігації Перейти до пошуку
Типовий графік, який ілюструє закон Гіпса. По осі x — розмір тексту, по осі y — число різних слів у тексті. Порівняйте значення на двох осях

Закон Гіпса (Шаблон:Lang-en) — емпірична закономірність у лінгвістиці, що описує розподіл числа різних слів у документі (або наборі документів) як функцію від його довжини. Описується формулою

VR(n)=Knβ ,

де VR — число різних слів у тексті розміру n. K і β — вільні параметри, визначаються емпірично. Для англійського корпусу текстів, K зазвичай лежить між 10 і 100, а β між 0.4 і 0.6.

Закон часто приписують Гарольду Стенлі Гіпсу (Harold Stanley Heaps), але вперше його відкрив Густав Гердан (Gustav Herdan).[1] З деяким наближенням закон Гердана — Гіпса асимптотично еквівалентний закону Ципфа про частоту окремих слів у тексті.[2]

Див. також

Примітки

Шаблон:Reflist

Посилання

  1. Шаблон:Harvtxt: «Herdan's law in linguistics and Heaps' law in information retrieval are different formulations of the same phenomenon».
  2. Шаблон:Harvtxt; Шаблон:Harvtxt; Шаблон:Harvtxt.