Умовне випадкове поле

Умо́вні випадко́ві поля́ (УВП, Шаблон:Lang-en) — це клас методів статистичного моделювання, які часто застосовують в розпізнаванні образів та машинному навчанні, й використовують для структурового передбачування. УВП належать до родини моделювання послідовностей. На відміну від дискретного класифікатора, який передбачує мітку для окремого зразка без врахування «сусідніх» зразків, УВП може брати до уваги контекст; наприклад, лінійно-ланцюгове УВП (що є популярним в обробці природної мови) передбачує послідовності міток для послідовностей входових зразків.

УВП є одним з типів розрізнювальних неспрямованих імовірнісних графових моделей. Їх використовують для кодування відомих взаємозв'язків між спостереженнями та побудови узгоджених представлень, і часто використовують для Шаблон:Нп або розбирання послідовних даних, таких як обробка природних мов та біологічні послідовності,^[1] та в комп'ютерному баченні.^[2] Зокрема, УВП, серед інших задач, знаходять застосування в розмічуванні частин мови, поверхнево-синтаксичному аналізі,^[3] розпізнаванні іменованих сутностей,^[4] Шаблон:Нп та пошуку пептидних критичних функційних областей,^[5] будучи альтернативою спорідненим прихованим марковським моделям (ПММ). У комп'ютерному зорі УВП часто використовують для розпізнавання об'єктів^[6] та сегментування зображень.

Опис

Шаблон:Нп, Шаблон:Нп та Перейра^[1] визначили УВП на спостереженнях $𝑿$ та випадкових змінних $𝒀$ наступним чином:

Нехай
$G = (V, E)$
є таким графом, що
$𝒀 = (𝒀_{v})_{v \in V}$ , так що $𝒀$ індексовано вершинами $G$ . Тоді $(𝑿, 𝒀)$ є умовним випадковим полем, коли випадкові змінні $𝒀_{v}$ , обумовлені $𝑿$ , володіють марковською властивістю по відношенню до цього графу: $p (𝒀_{v} | 𝑿, 𝒀_{w}, w \neq v) = p (𝒀_{v} | 𝑿, 𝒀_{w}, w \sim v)$ , де $𝑤 \sim v$ означає, що $w$ та $v$ є сусідами в $G$ .

Це означає, що УВП є неспрямованою графовою моделлю, чиї вершини може бути поділено на рівно дві неперетинні множини $𝑿$ та $𝒀$ , спостережувані та виходові змінні, відповідно; тоді моделюють умовний розподіл $p (𝒀 | 𝑿)$ .

Висновування

Для графів загального вигляду задача точного висновування в УВП є нерозв'язною. Задача висновування для УВП є по суті такою ж, як і для Шаблон:Нп, і мають місце ті самі аргументи.^[7] Проте, існують особливі випадки, для яких висновування є здійсненним:

Якщо граф є ланцюгом або деревом, то точні розв'язки дають алгоритми передавання повідомлень. Алгоритми, що застосовують в цих випадках, є аналогічними до Шаблон:Нп та алгоритму Вітербі для випадку ПММ.
Якщо УВП містить лише попарні потенціали, й ця енергія є Шаблон:Нп, то точні розв'язки дають комбінаторні алгоритми мінімального розрізу/максимального потоку.

Якщо точне висновування є неможливим, то можливо застосовувати декілька алгоритмів для отримування наближених розв'язків. До них належать:

Шаблон:Нп
Альфа-розширення (Шаблон:Lang-en)
Висновування середнього поля (Шаблон:Lang-en)
Шаблон:Нп

Навчання параметрів

Навчання параметрів $θ$ зазвичай виконують навчанням максимальної правдоподібності для $p (Y_{i} | X_{i}; θ)$ . Якщо всі вузли мають розподіли експоненційного сімейства, та є спостережуваними під час тренування, то ця оптимізація є опуклою.^[7] Її можливо розв'язувати, наприклад, застосуванням алгоритмів градієнтного спуску, або квазі-ньютоновими методами, такими як алгоритм Шаблон:Нп. З іншого боку, якщо деякі змінні є неспостережуваними, то для цих змінних має бути розв'язано задачу висновування. Для графів загального вигляду точне висновування є непіддатливим, тож мають застосовуватися наближення.

Приклади

У послідовнісному моделюванні, граф, який становить інтерес, зазвичай є ланцюговим. Входова послідовність спостережуваних змінних $X$ представляє послідовність спостережень, а $Y$ представляє приховану (або невідому) змінну стану, висновки про яку потрібно отримувати зі спостережень. $Y_{i}$ структурують так, щоби утворити ланцюг, з ребрами між кожними $Y_{i - 1}$ та $Y_{i}$ . Маючи просте представлення $Y_{i}$ як «міток» для кожного з елементів послідовності входу, це компонування також уможливлює дієві алгоритми для:

тренування моделі, навчання умовних розподілів між $Y_{i}$ та функціями ознак для деякого корпусу тренувальних даних.
декодування, визначення ймовірності заданої послідовності міток $Y$ за заданої $X$ .
висновування, визначення найправдоподібнішої послідовності міток $Y$ за заданої $X$ .

Умовну залежність кожної з $Y_{i}$ від $X$ визначають через фіксований набір функцій ознак вигляду $f (i, Y_{i - 1}, Y_{i}, X)$ , які можливо розглядати як вимірювання на послідовності входу, що частково визначають правдоподібність кожного з можливих значень $Y_{i}$ . Ця модель призначує кожній ознаці числову вагу, й поєднує їх для визначення ймовірності певного значення $Y_{i}$ .

Лінійно-ланцюгові УВП мають багато таких же застосувань, як і концептуально простіші приховані марковські моделі (ПММ), але послаблюють деякі вихідні положення щодо розподілів послідовностей входу та виходу. ПММ можливо грубо розуміти як УВП з дуже особливими функціями ознак, які використовують сталі ймовірності для моделюванні переходів станів та виходів. І навпаки, УВП можливо грубо розуміти як узагальнення ПММ, яке робить сталі ймовірності переходів довільними функціями, що міняться над позиціями в послідовності прихованих станів, залежно від послідовності входу.

Примітно, що, на противагу до ПММ, УВП можуть містити будь-яке число функцій ознак, ці функції ознак можуть оглядати всю послідовність входу $X$ в будь-який момент висновування, і спектрові функцій ознак не потрібно мати ймовірнісної інтерпретації.

Варіанти

УВП вищих порядків, та напівмарковські УВП

УВП можливо розширити до моделей вищих порядків, зробивши кожну з $Y_{i}$ залежною від фіксованого числа $k$ попередніх змінних $Y_{i - k}, . . ., Y_{i - 1}$ . У звичайних формулюваннях УВП вищих порядків тренування та висновування є дієвими лише для маленьких значень $k$ (таких як k ≤ 5),^[8] оскільки їхня обчислювальна витратність зростає з $k$ експоненційно.

Проте, іншому нещодавньому просуванню вдалося поліпшити ці нюанси шляхом задіювання понять та інструментів з області баєсової непараметрії. Конкретніше, УВП-нескінченний (Шаблон:Lang-en) підхід^[9] становить УВП-модель, здатну навчатися нескінченно тривалої часової динаміки масштабованою манерою. Це здійснюється введенням новітньої функції потенціалу для УВП, яка ґрунтується на «запам'ятовувачі послідовностей» (ЗП, Шаблон:Lang-en), непараметричній баєсовій моделі для навчання нескінченно тривалих динамік у послідовних спостереженнях.^[10] Щоби зробити таку модель обчислювально піддатливою, УВП-нескінченність застосовує наближення середнього поля^[11] запостульованих новітніх функцій потенціалу (які веде ЗП). Це дозволяє винаходити дієві алгоритми наближеного тренування та висновування для цієї моделі, не підриваючи її здатності схоплювати та моделювати часові залежності довільної тривалості.

Існує ще одне узагальнення УВП, напівма́рковське умо́вне випадко́ве по́ле (напів-УВП, Шаблон:Lang-en), яке моделює сегментування довільної довжини послідовності міток $Y$ .^[12] Воно забезпечує майже таку ж потужність для моделювання довготривалих залежностей $Y_{i}$ , як і УВП вищих порядків, за помірних обчислювальних витрат.

Нарешті, як альтернативу процедурі тренування УВП можливо розглядати моделі з широким розділенням (Шаблон:Lang-en) для структурового передбачування, такі як Шаблон:Нп.

Латентно-динамічне умовне випадкове поле

Лате́нтно-динамі́чні умо́вні випадко́ві по́ля (ЛДУВП, Шаблон:Lang-en), або розрі́знювальні імові́рнісні моде́лі з лате́нтними змі́нними (РІМЛЗ, Шаблон:Lang-en) — це один із типів УВП для задач маркування послідовностей. Вони є Шаблон:Нп, що тренують розрізнювально.

В ЛДУВП, як і в будь-якій задачі маркування послідовностей, для заданої послідовності спостережень x = $x_{1}, \dots, x_{n}$ головною задачею, яку ця модель мусить розв'язати, є як призначити послідовність міток y = $y_{1}, \dots, y_{n}$ з однієї скінченної множини міток Шаблон:Mvar. Замість моделювати Шаблон:Mvar(y|x) безпосередньо, як робило би звичайне лінійно-ланцюгове УВП, між x та y «вставляють» множину латентних змінних h, застосовуючи ланцюгове правило ймовірності:^[13]

P (𝐲 | 𝐱) = \sum_{𝐡} P (𝐲 | 𝐡, 𝐱) P (𝐡 | 𝐱)

Це дозволяє схоплювати латентну структуру між спостереженнями та мітками.^[14] В той час як ЛДУВП може бути треновано з використанням квазі-ньютонових методів, для них на основі алгоритму структурового перцептрону Коллінза також було розроблено особливу версію алгоритму перцептрону, названу перцептро́ном з лате́нтними змі́нними (Шаблон:Lang-en).^[13] Ці моделі знаходять застосування в комп'ютерному баченні, зокрема в Шаблон:Нп для потоків відео,^[14] та в поверхнево-синтаксичному аналізі.^[13]

Програмне забезпечення

Це — частковий перелік програмного забезпечення, що втілює загальні інструменти УВП.

RNNSharp УВП на основі рекурентних нейронних мереж (C#, .NET)
CRF-ADF лінійно-ланцюгові УВП зі швидким інтерактивним ADF-тренуванням (C#, .NET)
CRFSharp лінійно-ланцюгові УВП (C#, .NET)
GCO УВП з субмодулярними функціями енергії (C++, Matlab)
DGM загальні УВП (C++)
GRMM загальні УВП (Java)
factorie загальні УВП (Scala)
CRFall загальні УВП (Matlab)
Sarawagi's CRF лінійно-ланцюгові УВП (Java)
HCRF library приховано-станові УВП (C++, Matlab)
Accord.NET лінійно-ланцюгові УВП, ПУВП та ПММ (C#, .NET)
Wapiti швидкі лінійно-ланцюгові УВП (C)^[15]
CRFSuite швидкі обмежені лінійно-ланцюгові УВП (C)
CRF++ лінійно-ланцюгові УВП (C++)
FlexCRFs марковські УВП першого та другого порядків (C++)
crf-chain1 лінійно-ланцюгові УВП першого порядку (Haskell)
imageCRF УВП для сегментування зображень та томів зображень (C++)
MALLET лінійно-ланцюгові для маркування послідовностей (Java)
PyStruct структурове навчання в Python (Python)
Pycrfsuite python-обв'язка для crfsuite (Python)
Figaro ймовірнісна мова програмування, здатна визначати УВП та інші графові моделі (Scala)
CRF моделювальні та обчислювальні інструменти для УВП та інших неспрямованих графових моделей (R)
OpenGM бібліотека для дискретних Шаблон:Нп моделей та розподілених операцій на цих моделях (C++)
UPGMpp^[6] бібліотека для побудови, тренування неспрямованих графових моделей, та виконання висновування на них (C++)
KEG_CRF швидкі лінійні УВП (C++)

Це — частковий перелік програмного забезпечення, що втілює пов'язані з УВП інструменти.

MedaCy розпізнавач медичних іменованих сутностей (Python)
Conrad передбачувач генів на основі УВП (Java)
Stanford NER розпізнавач іменованих сутностей (Java)
BANNER розпізнавач іменованих сутностей (Java)

Див. також

Примітки

Шаблон:Reflist

Література

McCallum, A.: Efficiently inducing features of conditional random fields. In: Proc. 19th Conference on Uncertainty in Artificial Intelligence. (2003) Шаблон:Ref-en
Wallach, H.M.: Conditional random fields: An introduction. Technical report MS-CIS-04-21, University of Pennsylvania (2004) Шаблон:Ref-en
Sutton, C., McCallum, A.: An Introduction to Conditional Random Fields for Relational Learning. In «Introduction to Statistical Relational Learning». Edited by Шаблон:Нп and Ben Taskar. MIT Press. (2006) Online PDF Шаблон:Ref-en
Klinger, R., Tomanek, K.: Classical Probabilistic Models and Conditional Random Fields. Algorithm Engineering Report TR07-2-013, Department of Computer Science, Dortmund University of Technology, December 2007. ISSN 1864-4503. Online PDF Шаблон:Ref-en

↑ ^1,0 ^1,1 Шаблон:Cite conference Шаблон:Ref-en
↑ Шаблон:Cite news Шаблон:Ref-en
↑ Шаблон:Cite conference Шаблон:Ref-en
↑ Шаблон:Cite conference Шаблон:Ref-en
↑ Шаблон:Cite conference Шаблон:Ref-en
↑ ^6,0 ^6,1 Шаблон:Cite conference Шаблон:Ref-en
↑ ^7,0 ^7,1 Шаблон:Cite arXiv Шаблон:Ref-en
↑ Шаблон:Cite conference Шаблон:Ref-en
↑ Шаблон:Cite journal Шаблон:Ref-en
↑ Шаблон:Cite conference Шаблон:Ref-en
↑ Шаблон:Cite journal Шаблон:Ref-en
↑ Шаблон:Cite book Шаблон:Webarchive Шаблон:Ref-en
↑ ^13,0 ^13,1 ^13,2 Шаблон:Cite conference Шаблон:Ref-en
↑ ^14,0 ^14,1 Шаблон:Cite book Шаблон:Ref-en
↑ T. Lavergne, O. Cappé and F. Yvon (2010). Practical very large scale CRFs Шаблон:Webarchive. Proc. 48th Annual Meeting of the Шаблон:Нп, pp. 504—513. Шаблон:Ref-en

[Laf:McC:Per01-1] 1,0 ^1,1 Шаблон:Cite conference Шаблон:Ref-en

[2] Шаблон:Cite news Шаблон:Ref-en

[3] Шаблон:Cite conference Шаблон:Ref-en

[4] Шаблон:Cite conference Шаблон:Ref-en

[5] Шаблон:Cite conference Шаблон:Ref-en

[Rui:Gal:Gon15-6] 6,0 ^6,1 Шаблон:Cite conference Шаблон:Ref-en

[SuttonIntroduction-7] 7,0 ^7,1 Шаблон:Cite arXiv Шаблон:Ref-en

[8] Шаблон:Cite conference Шаблон:Ref-en

[9] Шаблон:Cite journal Шаблон:Ref-en

[10] Шаблон:Cite conference Шаблон:Ref-en

[11] Шаблон:Cite journal Шаблон:Ref-en

[12] Шаблон:Cite book Шаблон:Webarchive Шаблон:Ref-en

[lvperceptron-13] 13,0 ^13,1 ^13,2 Шаблон:Cite conference Шаблон:Ref-en

[morency-14] 14,0 ^14,1 Шаблон:Cite book Шаблон:Ref-en

[15] T. Lavergne, O. Cappé and F. Yvon (2010). Practical very large scale CRFs Шаблон:Webarchive. Proc. 48th Annual Meeting of the Шаблон:Нп, pp. 504—513. Шаблон:Ref-en

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Умовне випадкове поле

Зміст

Опис

Висновування

Навчання параметрів

Приклади

Варіанти

УВП вищих порядків, та напівмарковські УВП

Латентно-динамічне умовне випадкове поле

Програмне забезпечення

Див. також

Примітки

Література

Навігаційне меню

Умовне випадкове поле

Опис

Висновування

Навчання параметрів

Приклади

Варіанти

УВП вищих порядків, та напівмарковські УВП

Латентно-динамічне умовне випадкове поле

Програмне забезпечення

Див. також

Примітки

Література

Навігаційне меню

Пошук