Тематичне моделювання

Матеріал з testwiki
Версія від 01:12, 12 серпня 2023, створена imported>Olexa Riznyk (уточнення, вікіфікація)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку
Побудова тематичної моделі документа: : p(w|t) — матриця шуканих умовних розподілів слів за темами : p(t|d) — матриця шуканих умовних розподілів тем за документами : d — документ : w — слово : d,w — спостережувані змінні : t — тема (прихована змінна)

Тематичне моделювання — спосіб побудови моделі колекції текстових документів, яка визначає, до яких тем належить кожен з документівШаблон:Sfn.

Тематична модель (Шаблон:Lang-en) колекції текстових документів визначає, до яких тем належить кожен документ, і які слова (терміни) утворюють кожну темуШаблон:Sfn.

Перехід з простору термінів в простір знайдених тематик допомагає вирішувати синонімію і полісемію термінів, а також ефективніше вирішувати такі завдання як тематичний пошук, класифікація, сумаризація і анотація колекцій документів і новинних потоків.

Тематичне моделювання як вид статистичних моделей для знаходження прихованих тем, що зустрічаються в колекції документів, знайшло своє застосування в таких областях як машинне навчання і обробка природної мови. Дослідники використовують різні тематичні моделі для аналізу текстів, текстових архівів документів, для аналізу зміни тем у наборах документівШаблон:Перехід. Інтуїтивно розуміючи, що документ відноситься до певної теми, в документах, присвячених одній темі, можна зустріти деякі слова частіше за інші. Наприклад, слова «собака» і «кістка» зустрічаються частіше в документах про собак; «кішки» і «молоко» будуть зустрічатися в документах про кошенят, прийменники «в» та «на» будуть зустрічатися в обох тематиках. Зазвичай документ стосується кількох тем в різних пропорціях. Таким чином, для документу, в якому 10 % теми складають кішки, а 90 % теми — собаки, можна припустити, що слів про собак в 9 разів більше. Тематичне моделювання відображає цю інтуїцію в математичній структурі, яка дозволяє на підставі вивчення колекції документів і дослідження частотних характеристик слів в кожному документі зробити висновок, що кожен документ — це деякий баланс тем.

Найбільше застосування в сучасних додатках знаходять підходи, що ґрунтуються на Баєсових мережах — імовірнісних моделях на орієнтованих графах. Імовірнісні тематичні моделі — це відносно молода область досліджень в теорії некерованого навчання. Одним з перших був запропонований імовірнісний латентно-семантичний аналіз (PLSA)Шаблон:Перехід, заснований на принципі максимуму правдоподібності, як альтернатива класичним методам кластеризації, заснованим на обчисленні функцій відстані. Слідом за PLSA був запропонований метод Шаблон:Нп і його численні узагальненняШаблон:SfnШаблон:Перехід.

Імовірнісні тематичні моделі здійснюють «м'яку» кластеризацію, дозволяючи документу або терміну відноситися відразу до декількох тем з різними ймовірностями. Імовірнісні тематичні моделі описують кожну тему дискретним розподілом на множині термінів, кожен документ — дискретним розподілом на множині тем. Передбачається, що колекція документів — це послідовність термінів, обраних випадково і незалежно з суміші таких розподілів, і ставиться завдання відновлення компонентів суміші по вибірціШаблон:SfnШаблон:Перехід.

Хоча тематичне моделювання традиційно описувалося і застосовувалося в обробці природної мови, воно знайшло своє застосування і в інших областях, наприклад, таких як біоінформатика.

Історія

Перший опис тематичного моделювання з'явилося в роботі Рагавана, Пападімітріу, Томакі і Вемполи 1998 рокуШаблон:Sfn. Томас Гофман в 1999 роціШаблон:Sfn запропонував імовірнісне приховане семантичне індексування (PLSI). Одна з найпоширеніших тематичних моделей – це Шаблон:Нп (LDA). Ця модель є узагальненням імовірнісного семантичного індексування і розроблена Шаблон:Нп, Ендрю Ином і Шаблон:Нп у 2002 роціШаблон:Sfn. Інші тематичні моделі, як правило, є розширенням LDA, наприклад, Шаблон:Нп покращує LDA за рахунок введення додаткових кореляційних коефіцієнтів для кожного слова, яке становить тему.

Тематичні дослідження

Темплтон зробив огляд робіт з тематичного моделювання в гуманітарних науках, згрупованих за синхронним і діахронічним підходомШаблон:Sfn. Синхронні підходи виділяють теми в певний момент часу, наприклад, Джокерс за допомогою тематичної моделі досліджував, про що писали блогери в День цифрових гуманітарних наук в 2010 роціШаблон:Sfn.

Діахронічні підходи, включаючи визначення Блока та Ньюмана про часову динаміку тем у Пенсільванській газеті 1728-1800 рокуШаблон:Sfn. Грифітс і Стейверс використовували тематичне моделювання для оглядів журналу PNAS, визначали зміни популярності тем з 1991 по 2001 рікШаблон:Sfn. Блевін створив тематичну модель щоденника Марти БалладсШаблон:Sfn. Мімно використовував тематичне моделювання для аналізу 24 журналів з класичної філології та археології за 150 років, щоб визначити зміни популярності тем і дізнатися, наскільки сильно змінилися журнали за цей часШаблон:Sfn.

Алгоритми тематичного моделювання

У роботі Девіда Блея «Введення в тематичне моделювання» розглянуто найбільш популярний алгоритм – Латентне розміщення ДіріхлеШаблон:ПерехідШаблон:Sfn. На практиці дослідники використовують одну з евристик методу максимальної правдоподібності, методи сингулярного розкладу (SVD), метод моментів, алгоритм, заснований на невід'ємній матриці факторизації (NMF), імовірнісні тематичні моделі, імовірнісний латентно-семантичний аналіз, латентне розміщення Діріхле. У роботі Воронцова К. В. розглянуто варіації основних алгоритмів тематичного моделювання: робастна тематична модель, тематичні моделі класифікації, динамічні тематичні моделі, ієрархічні тематичні моделі, багатомовні тематичні моделі, моделі тексту як послідовності слів, багатомодальні тематичні моделі Шаблон:Sfn.

Імовірнісні тематичні моделі засновані на наступних припущенняхШаблон:SfnШаблон:SfnШаблон:SfnШаблон:Sfn:

  • Порядок документів у колекції не має значення
  • Порядок слів у документі не має значення, документ – мішок слів
  • Слова, що зустрічаються часто в більшості документів, не важливі для визначення тематики
  • Колекцію документів можна представити як вибірку пар документ-слово (d,w) , dD, w𝑊d
  • Кожна тема tT описується невідомим розподілом p(𝑊|t) на множині слів w𝑊
  • Кожен документ dD описується невідомим розподілом p(t|d) на множині тем tT
  • Гіпотеза умовної незалежності p(w|t,d)=p(w|t)

Побудувати тематичну модель – значить, знайти матриці Φ=||p(w|t)|| та Θ=||p(t|d)|| по колекції 𝐷. У більш складних імовірнісних тематичних моделях деякі з цих припущень замінюються більш реалістичними.

Імовірнісний латентно-семантичний аналіз

Імовірнісний латентно-семантичний аналіз (PLSA). d — документ, w — слово, d,w — спостережувані змінні, t — тема (прихована змінна), p(d) — апріорний розподіл на множині документів, p(w|t),p(t|d) — шукані умовні розподілу, D — колекція документів, N — довжина документа в словах

Шаблон:Нп (PLSA) запропонований Томасом Гофманом у 1999 році. Імовірнісна модель появи пари «документ-слово» може бути записана трьома еквівалентними способами:

p(d,w)=tTp(t)p(w|t)p(d|t)=tTp(d)p(w|t)p(t|d)=tTp(w)p(t|w)p(d|t)

де T — множина тем;

p(t) — невідомий апріорний розподіл тем у всій колекції;
p(d) — апріорний розподіл на множині документів, емпірична оцінка p(d)=nd/n , де n=dnd — сумарна довжина всіх документів;
p(w) — апріорний розподіл на множині слів, емпірична оцінка p(w)=nw/n, де nw — число входжень слова w в усі документи;

Шукані умовні розподілу p(w|t),p(t|d) виражаються через p(t|w),p(d|t) за формулою Баєса:

p(w|t)=p(t|w)p(w)wp(t|w)p(w);p(t|d)=p(d|t)p(t)tp(d|t)p(t).

Для ідентифікації параметрів тематичної моделі по колекції документів застосовується принцип максимуму правдоподібності, який призводить до задачі максимізації функціоналу[1]

dDwdndwlntTφwtθtdmaxΦ,Θ,

при обмеженнях нормування

wp(w|t)=1,tp(t|d)=1,tp(t)=1, де ndw — число входжень слова w у документ d. Для вирішення даної оптимізаційної задачі зазвичай застосовується EM-алгоритм.

Основні недоліки PLSA:

  • Число параметрів зростає лінійно по числу документів в колекції, що може призводити до перенавчання моделі.
  • При додаванні нового документа d у колекцію, розподіл p(t|d) неможливо обчислити за тими ж формулами, що і для інших документів, не перебудовуючи всю модель заново.

Латентне розміщення Діріхле

Латентне розміщення Діріхле (LDA). :w — слово (спостережувана змінна) :t — тема (прихована змінна) :D — колекція документів :N — довжина документа в словах :K — кількість тем в колекції :θ — розподіл тем у документі :ϕ — розподіл слів в темі

Шаблон:Нп (LDA) був запропонований Девідом Блеєм у 2003 році.

У цьому методі усунені основні недоліки PLSA.

Метод LDA заснований на тій самій імовірнісній моделі:

p(d,w)=tTp(d)p(w|t)p(t|d),

при додаткових припущеннях:

  • вектори документів θd=(p(t|d):tT) породжуються одним і тим же імовірнісним розподілом на нормованих |T|-мірних векторах; цей розподіл зручно взяти з параметричного сімейства розподілів Діріхле Dir(θ,α),α|T|;
  • вектори тем ϕt=(p(w|t):wW) породжуються одним і тим же імовірнісним розподілом на нормованих векторах розмірності |W|; цей розподіл зручно взяти з параметричного сімейства розподілів Діріхле Dir(θ,β),β|W|.

Для ідентифікації параметрів моделі LDA по колекції документів застосовується Шаблон:Нп, варіаційний баєсівський висновок або Шаблон:Нп.

Див. також

Примітки

Шаблон:Reflist

Література

Посилання

Програмне забезпечення та програмні бібліотеки

Шаблон:Обробка природної мови