Баєсова мережа

Матеріал з testwiki
Версія від 01:08, 27 грудня 2024, створена imported>BunykBot (виправлена вікіфікація)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

Шаблон:More footnotes Шаблон:Баєсова статистика

Проста баєсова мережа. Дощ (Шаблон:Lang-en) впливає на те, чи вмикається розбризкувач (Шаблон:Lang-en), і як дощ, так і розбризкувач, впливають на те, чи є трава мокрою (Шаблон:Lang-en).

Ба́єсова мере́жа, мере́жа Ба́єса, мере́жа перекона́нь, ба́єсова моде́ль або ймові́рнісна орієнто́вана ациклі́чна гра́фова моде́ль (Шаблон:Lang-en) — це ймовірнісна графова модель (різновид статистичної моделі), яка представляє набір випадкових змінних та їхніх Шаблон:Нп за допомогою орієнтованого ациклічного графу (ОАГ, Шаблон:Lang-en). Наприклад, баєсова мережа може представляти ймовірнісні зв'язки між захворюваннями та симптомами. Таку мережу можна використовувати для обчислення ймовірностей наявності різних захворювань за наявних симптомів.

Формально баєсові мережі є ОАГ, чиї вершини представляють випадкові змінні у баєсовому сенсі: вони можуть бути спостережуваними величинами, латентними змінними, невідомими параметрами або гіпотезами. Ребра представляють умовні залежності; не з'єднані вершини (такі, що в Баєсовій мережі не існує шляху від однієї змінної до іншої) представляють змінні, що є Шаблон:Нп одна від одної. Кожну вершину пов'язано із функцією ймовірності, що бере на вході певний набір значень батьківських вершин, і видає (на виході) ймовірність (або розподіл імовірності, якщо застосовно) змінної, представленої цією вершиною. Наприклад, якщо m батьківських вершин представляють m булевих змінних, то функцію ймовірності може бути представлено таблицею 2m записів, по одному запису для кожної з 2m можливих комбінацій істинності або хибності її батьків. Схожі ідеї можуть застосовуватися до неорієнтованих та, можливо, циклічних графів, таких як марковські мережі.

Існують ефективні алгоритми, що виконують висновування та навчання в баєсових мережах. Баєсові мережі, що моделюють послідовності змінних (наприклад, сигнали мовлення, або послідовності білків), називають динамічними баєсовими мережами. Узагальнення баєсових мереж, що можуть представляти та розв'язувати задачі ухвалення рішень за умов невизначеності, називають Шаблон:Нп.

Приклад

Проста баєсова мережа з Шаблон:Нп

Припустімо, що існують дві події, які можуть спричинити мокрість трави: або увімкнено розбризкувач, або йде дощ. Також припустімо, що дощ має прямий вплив на використання розбризкувача (а саме, коли йде дощ, розбризкувач зазвичай не увімкнено). Тоді цю ситуацію може бути змодельовано баєсовою мережею (показаною праворуч). Всі три змінні мають два можливі значення, T (істина, Шаблон:Lang-en) та F (хиба, Шаблон:Lang-en).

Функцією спільного розподілу ймовірності є

Pr(G,S,R)=Pr(G|S,R)Pr(S|R)Pr(R)

де назви змінних є скороченнями G = трава мокра (Шаблон:Lang-en, так/ні), S = розбризкувач увімкнено (Шаблон:Lang-en, так/ні) та R = іде дощ (Шаблон:Lang-en, так/ні).

Ця модель може відповідати на такі питання, як «Якою є ймовірність того, що йде дощ, якщо трава мокра?» шляхом застосування формули умовної ймовірності та підбиття сум за всіма Шаблон:Нп:

Pr(R=T|G=T)=Pr(G=T,R=T)Pr(G=T)=S{T,F}Pr(G=T,S,R=T)S,R{T,F}Pr(G=T,S,R)

Використовуючи розклад спільної функції ймовірності Pr(G,S,R), та умовні ймовірності з Шаблон:Нп, зазначених у діаграмі, можна оцінити кожен член у сумах чисельника та знаменника. Наприклад,

Pr(G=T,S=T,R=T)=Pr(G=T|S=T,R=T)Pr(S=T|R=T)Pr(R=T)=0.99×0.01×0.2=0.00198.

Тоді числовими результатами (з пов'язаними значеннями змінних в індексах) є

Pr(R=T|G=T)=0.00198TTT+0.1584TFT0.00198TTT+0.288TTF+0.1584TFT+0.0TFF=891249135.77%.

З іншого боку, якщо ми хочемо відповісти на втручальницьке питання «Яка ймовірність того, що піде дощ, якщо ми намочимо траву?», то відповідь визначатиметься післявтручальною функцією спільного розподілу Pr(S,R|do(G=T))=Pr(S|R)P(R), отриманою усуненням коефіцієнту Pr(G|S,R) із довтручального розподілу. Як і очікувалося, на ймовірність дощу ця дія не впливає: Pr(R|do(G=T))=Pr(R).

Понад те, якщо ми хочемо передбачити вплив умикання розбризкувача, то ми маємо

Pr(R,G|do(S=T))=Pr(R)Pr(G|R,S=T)

з усуненим членом Pr(S=T|R), що показує, що ця дія має вплив на траву, але не на дощ.

Ці передбачення не можуть бути здійсненними, якщо якісь змінні є неспостережуваними, як у більшості задач оцінки стратегій. Вплив дії do(x) все ще можна передбачувати, проте лише якщо задовольняється критерій «чорного ходу».[1][2] Він заявляє, що якщо може спостерігатися множина вузлів Z, яка о-розділює[3] (або блокує) всі чорні ходи (Шаблон:Lang-en) з X до Y, то Pr(Y,Z|do(x))=Pr(Y,Z,X=x)/Pr(X=x|Z). Чорний хід є таким, що закінчується стрілкою в X. Множини, які задовольняють критерій чорного ходу, називають «достатніми» (Шаблон:Lang-en) або «прийнятними» (Шаблон:Lang-en). Наприклад, множина Z = R є прийнятною для передбачування впливу S = T на G, оскільки R о-розділює (єдиний) чорний хід S ← R → G. Проте якщо S не спостерігається, то не існує іншої множини, яка би о-розділювала цей шлях, і вплив умикання розбризкувача (S = T) на траву (G) не може бути передбачено з пасивних спостережень. Тоді ми кажемо, що множина P(G | do(S = T)) є не пізннаною (Шаблон:Lang-en). Це віддзеркалює той факт, що за умови браку даних втручання ми не можемо визначити, чи завдячує спостережувана залежність між S та G випадковому зв'язкові або є фальшивою (видима залежність, що випливає зі спільної причини, R). (див. парадокс Сімпсона)

Для з'ясування того, чи є причинний зв'язок пізнанним із довільної баєсової мережі з неспостережуваними змінними, можна застосовувати три правила числення дій (Шаблон:Lang-en),[1][4] і перевіряти, чи всі do-члени може бути усунено з виразу для цього співвідношення, підтверджуючи таким чином, що бажана величина є оцінкою із частотних даних.[5]

Застосування баєсової мережі може заощаджувати значні обсяги пам'яті, якщо залежності в спільному розподілі є розрідженими. Наприклад, наївний спосіб зберігання умовних імовірностей для 10 двозначних змінних як таблиці вимагає простору для зберігання 210=1024 значень. Якщо локальні розподіли жодної зі змінних не залежать більше ніж від трьох батьківських змінних, то представлення як баєсової мережі потребує зберігання щонайбільше 1023=80 значень.

Однією з переваг баєсових мереж є те, що людині інтуїтивно простіше розуміти (розріджені набори) прямих залежностей та локальні розподіли, ніж повні спільні розподіли.

Висновування та навчання

Для баєсових мереж існує три основні завдання для висновування.

Отримування висновків про неспостережувані змінні

Оскільки баєсова мережа є повною моделлю змінних та їхніх взаємозв'язків, її можна використовувати для отримання відповідей на ймовірнісні запити стосовно них. Наприклад, цю мережу можна використовувати для з'ясовування уточненого знання про стан якоїсь підмножини змінних, коли спостерігаються інші змінні (змінні свідчення, Шаблон:Lang-en). Цей процес обчислення апостеріорного розподілу змінних для заданого свідчення називається ймовірнісним висновуванням (Шаблон:Lang-en). Це апостеріорне дає універсальну достатню статистику для застосувань для виявлення, коли потрібно підбирати значення підмножини змінних, які мінімізують певну функцію очікуваних втрат, наприклад, імовірність помилковості рішення. Баєсову мережу відтак можна розглядати як механізм автоматичного застосування теореми Баєса до комплексних задач.

Найпоширенішими методами точного висновування є: Шаблон:Нп, яке виключає (інтегруванням або підсумовуванням) неспостережувані не запитові змінні одну по одній шляхом розподілу суми над добутком; Шаблон:Нп, яке кешує обчислення таким чином, що одночасно можна робити запит до багатьох змінних, а нові свідчення можуть поширюватися швидко; та рекурсивне обумовлювання й пошук ТА/АБО, які передбачають просторово-часовий компроміс та підбирають ефективність виключення змінних при використанні достатнього простору. Всі ці методи мають експоненційну складність відносно деревної ширини мережі. Найпоширенішими алгоритмами Шаблон:Нп є вибірка за значимістю, стохастична імітація МКМЛ, міні-блокове виключення (Шаблон:Lang-en), Шаблон:Нп, Шаблон:Нп та Шаблон:Нп.

Навчання параметрів

Щоби повністю описати баєсову мережу, і відтак повністю представити спільний розподіл імовірності, необхідно для кожного вузла X вказати розподіл імовірності X, обумовлений батьками X. Цей розподіл X, обумовлений батьками X, може мати будь-який вигляд. Є звичним працювати з дискретними або ґаусовими розподілами, оскільки це спрощує обчислення. Іноді відомі лише обмеження на розподіл; тоді можна застосовувати Шаблон:Нп для визначення єдиного розподілу, який має найбільшу ентропію для заданих обмежень. (Аналогічно, в конкретному контексті динамічних баєсових мереж зазвичай вказують такий умовний розподіл розвитку в часі прихованих станів, щоби максимізувати ентропійну швидкість цього неявного стохастичного процесу.)

Ці умовні розподіли часто включають параметри, які є невідомими, і мусять бути оцінені з даних, іноді із застосуванням підходу максимальної правдоподібності. Пряма максимізація правдоподібності (або апостеріорної ймовірності) часто є складною, коли є неспостережувані змінні. Класичним підходом до цієї задачі є алгоритм очікування-максимізації, який чередує обчислення очікуваних значень неспостережених змінних за умови спостережуваних даних із максимізацією повної правдоподібності (або апостеріорного), виходячи з припущення про правильність попередньо обчислених очікуваних значень. За м'яких умов закономірності цей процес збігається до значень параметрів, які дають максимальну правдоподібність (або максимальне апостеріорне).

Повнішим баєсовим підходом до параметрів є розгляд параметрів як додаткових неспостережуваних змінних і обчислення повного апостеріорного розподілу над усіма вузлами за умови спостережуваних даних, із наступним відінтегровуванням параметрів. Цей підхід може бути витратним і вести до моделей великої розмірності, тому на практиці поширенішими є класичні підходи встановлення параметрів.

Навчання структури

У найпростішому випадку баєсова мережа задається фахівцем, і потім застосовується для виконання висновування. В інших застосуваннях задача визначення цієї мережі є занадто складною для людей. В такому випадку структури мережі та параметрів локальних розподілів треба навчатися з даних.

Автоматичне навчання структури баєсової мережі є проблемою, якою займається машинне навчання. Основна ідея сходить до алгоритму виявлення, розробленого Ребане та Перлом 1987 року,[6] який спирається на розрізнення між трьома можливими типами суміжних трійок, дозволеними в орієнтованому ациклічному графі (ОАГ):

  1. XYZ
  2. XYZ
  3. XYZ

Типи 2 та 3 представляють однакові залежності (X та Z є незалежними за заданого Y), і, відтак, є нерозрізнюваними. Проте тип 3 може бути унікально виявлено, оскільки X та Z є відособлено незалежними, а всі інші пари є залежними. Таким чином, в той час як кістяки (Шаблон:Lang-en, графи із зачищеними стрілками) цих трьох трійок є однаковими, напрямок стрілок частково підлягає виявленню. Таке саме розрізнення застосовується й тоді, коли X та Z мають спільних батьків, тільки спочатку треба зробити обумовлення за цими батьками. Було розроблено алгоритми для систематичного визначення кістяка графу, що лежить в основі, а потім спрямовуванні всіх стрілок, чия спрямованість диктується спостережуваними умовними незалежностями.[1][7][8][9]

Альтернативний метод навчання структури застосовує пошук на основі оптимізації. Він потребує Шаблон:Нп та стратегії пошуку. Поширеною оцінковою функцією є апостеріорна ймовірність структури за заданих тренувальних даних, така як БІК або BDeu. Часові вимоги вичерпного пошуку, що повертає структуру, яка максимізує оцінку, є суперекспоненційними відносно числа змінних. Стратегія локального пошуку робить поступові зміни, спрямовані на поліпшення оцінки структури. Алгоритм глобального пошуку, такий як метод Монте-Карло марковських ланцюгів, може уникати потрапляння в пастку локального мінімуму. Фрідман та ін.[10][11] обговорюють застосування взаємної інформації між змінними, та пошуку структури, яка її максимізує. Вони роблять це шляхом обмеження набору кандидатів у батьки k вузлами, і вичерпним пошуком серед таких.

Особливо швидким методом точного навчання БМ є розгляд цієї задачі як задачі оптимізації, й розв'язання її із застосуванням цілочисельного програмування. Обмеження ациклічності додаються цілочисельній програмі під час розв'язання у вигляді Шаблон:Нп.[12] Такий метод може впоруватися із задачами, що мають до 100 змінних.

Щоби мати справу із задачами з тисячами змінних, необхідно застосовувати інший підхід. Одним з них є спочатку вибирати одне впорядкування, і потім знаходити оптимальну структуру БМ по відношенню до цього впорядкування. Це означає роботу на просторі пошуку можливих впорядкувань, що є зручним, оскільки він менший за простір мережних структур. Потім вибираються й оцінюються декілька впорядкувань. Було доведено, що цей метод є найкращим із доступних в наукових працях, коли число змінних є величезним.[13]

Інший метод полягає в зосередженні на підкласах розкладаних моделей, для яких оцінка максимальної правдоподібності має замкнений вигляд. Тоді можливо виявляти цілісну структуру для сотень змінних.[14]

Баєсова мережа може доповнюватися вузлами та ребрами із застосуванням методик машинного навчання на основі правил. Для добування правил та створення нових вузлів може застосовуватися Шаблон:Нп.[15] Підходи Шаблон:Нп (СНВ, Шаблон:Lang-en) використовують Шаблон:Нп, що ґрунтується на структурі баєсової мережі, для спрямовування структурного пошуку та доповнення мережі.[16] Поширеною оцінковою функцією СНВ є площа під кривою РХП.

Як зазначено раніше, навчання баєсових мереж із обмеженою деревною шириною є необхідним для уможливлення точного розв'язного висновування, оскільки складність висновування в найгіршому випадку є експоненційною по відношенню до деревної ширини k (за гіпотези експоненційного часу). Проте, будучи глобальною властивістю графу, вона значно підвищує складність процесу навчання. В цьому контексті для ефективного навчання можливо застосовувати поняття k-дерева.[17]

Статистичне введення

Для заданих даних x та параметру θ простий баєсів аналіз починається з апріорної ймовірності (апріорного) p(θ) та правдоподібності p(xθ) для обчислення апостеріорної ймовірності p(θx)p(xθ)p(θ).

Часто апріорне θ залежить у свою чергу від інших параметрів φ, які не згадуються в правдоподібності. Отже, апріорне p(θ) мусить бути замінено правдоподібністю p(θφ), і потрібним апріорним p(φ) нововведених параметрів φ, що дає в результаті апостеріорну ймовірність

p(θ,φ|x)p(x|θ)p(θ|φ)p(φ).

Це є найпростішим прикладом ієрархічної баєсової моделі (Шаблон:Lang-en).Шаблон:Clarify

Цей процес може повторюватися; наприклад, параметри φ можуть у свою чергу залежати від додаткових параметрів ψ, які потребуватимуть свого власного апріорного. Зрештою цей процес мусить завершитися апріорними, які не залежать від жодних інших незгаданих параметрів.

Ввідні приклади

Шаблон:Expand section

Припустімо, що ми виміряли величини x1,,xn, кожна із нормально розподіленою похибкою відомого стандартного відхилення σ,

xiN(θi,σ2)

Припустімо, що нас цікавить оцінка θi. Підходом буде оцінювати θi із застосуванням методу максимальної правдоподібності; оскільки спостереження є незалежними, правдоподібність розкладається на множники, і оцінкою максимальної правдоподібності є просто

θi=xi

Проте, якщо ці величини є взаємопов'язаними, так що, наприклад, ми можемо думати, що окремі θi було й самі вибрано з розподілу, що лежав в основі, то цей взаємозв'язок руйнує незалежність, і пропонує складнішу модель, наприклад,

xiN(θi,σ2),
θiN(φ,τ2)

з некоректними апріорними φflat, τflat(0,). При n3 це є пізнанною моделлю (тобто, існує унікальний розв'язок для параметрів моделі), а апостеріорні розподіли окремих θi будуть схильні рухатися, або Шаблон:Нп (Шаблон:Lang-en) від оцінок максимальної правдоподібності до свого спільного середнього. Це стискання (Шаблон:Lang-en) є типовою поведінкою ієрархічних баєсових моделей.

Обмеження на апріорні

При виборі апріорних в ієрархічній моделі потрібна деяка обережність, зокрема на масштабних змінних на вищих рівнях ієрархії, таких як змінна τ у цьому прикладі. Звичайні апріорні, такі як Шаблон:Нп, часто не працюють, оскільки апостеріорний розподіл буде некоректним (його неможливо буде унормувати), а оцінки, зроблені мінімізуванням очікуваних втрат будуть Шаблон:Нп.

Визначення та поняття

Шаблон:See also

Існує декілька рівнозначних визначень баєсової мережі. Для всіх наступних, нехай G = (V,E) є орієнтованим ациклічним графом (або ОАГ), і нехай X = (Xv)vV є множиною випадкових змінних, проіндексованою за V.

Множникове визначення

X є баєсовою мережею по відношенню до G, якщо функцію її спільної густини ймовірності (по відношенню до добуткової міри) може бути записано як добуток окремих функцій густини, обумовлених їхніми батьківськими змінними:Шаблон:Sfn

p(x)=vVp(xv|xpa(v))

де pa(v) є множиною батьків v (тобто, тих вершин, які вказують безпосередньо на v через єдине ребро).

Для будь-якої множини випадкових змінних імовірність будь-якого члену спільного розподілу може бути обчислено з умовних імовірностей із застосуванням ланцюгового правила (для заданого топологічного впорядкування X) наступним чином:Шаблон:Sfn

P(X1=x1,,Xn=xn)=v=1nP(Xv=xvXv+1=xv+1,,Xn=xn)

Порівняйте це із наведеним вище визначенням, що його може бути записано наступним чином:

P(X1=x1,,Xn=xn)=v=1nP(Xv=xvXj=xj для кожного Xj що є батьком Xv)

Різницею між цими двома виразами є Шаблон:Нп змінних від будь-якого з їхніх не-нащадків за заданих значень їхніх батьківських змінних.

Локальна марковська властивість

X є баєсовою мережею по відношенню до G, якщо вона задовольняє локальну марковську властивість (Шаблон:Lang-en): кожна змінна є Шаблон:Нп від своїх не-нащадків за заданих її батьківських змінних:Шаблон:Sfn

XvXVde(v)Xpa(v) для всіх vV

де de(v) є множиною нащадків, а V \ de(v) є множиною не-нащадків v.

Це також може бути виражено в подібних до першого визначення термінах як

P(Xv=xvXi=xi для кожного Xi що не є нащадком Xv)=P(Xv=xvXj=xj для кожного Xj що є батьківським для Xv)

Зауважте, що множина батьків є підмножиною множини не-нащадків, оскільки граф є ациклічним.

Розробка баєсових мереж

Для розробки баєсових мереж ми часто спочатку розробляємо такий ОАГ G, що ми переконані, що X задовольняє локальну марковську властивість по відношенню до G. Іноді це робиться шляхом створення Шаблон:Нп ОАГ. Потім ми з'ясовуємо умовні розподіли ймовірності для кожної змінної за заданих її батьків у G. В багатьох випадках, зокрема, в тому випадку, коли змінні є дискретними, якщо ми визначаємо спільний розподіл X як добуток цих умовних розподілів, то X є баєсовою мережею по відношенню до G.[18]

Марковське покриття

Марковське покриття вузла є множиною вузлів, яка складається з його батьківських вузлів, його дочірніх вузлів, та всіх іншиї батьків його дочірніх вузлів. Марковське покриття робить вузол незалежним від решти мережі; спільний розподіл змінних у марковському покритті вузла є достатнім знанням для обчислення розподілу цього вузла. X є баєсовою мережею по відношенню до G, якщо кожен вузол є умовно незалежним від всіх інших вузлів мережі за заданого його марковського покриття.Шаблон:Sfn

Шаблон:AnchorШаблон:Anchorо-розділеність

Це визначення можна зробити загальнішим через визначення о-розділеності (Шаблон:Lang-en) двох вузлів, де «о» значить «орієнтована» (Шаблон:Lang-en).[19][20] Нехай P є ланцюгом від вузла u до v. Ланцюг — це ациклічний неорієнтований шлях між двома вузлами (тобто, напрям ребер при побудові цього шляху ігнорується), в якому ребра можуть мати будь-який напрям. Тоді про P кажуть, що він о-розділюється множиною вузлів Z, якщо виконуються будь-які з наступних умов:

  1. P містить орієнтований шлях, umv або umv, такий, що середній вузол m належить Z,
  2. P містить розгалуження, umv, таке, що середній вузол m належить Z, або
  3. P містить обернене розгалуження (або колайдер), umv, таке, що середній вузол m не належить Z, і жодні з нащадків m не належать Z

X є баєсовою мережею по відношенню до G, якщо для будь-яких двох вузлів u та v

XuXvXZ

де Z є множиною, яка о-розділює u та v. (Марковське покриття є мінімальним набором вузлів, які о-відділюють вузол v від решти вузлів.)

Ієрархічні моделі

Термін ієрархічна модель (Шаблон:Lang-en) іноді вважається окремим типом басової мережі, але він не має формального визначення. Іноді цей термін резервують для моделей з трьома або більше шарами випадкових змінних; в інших випадках його резервують для моделей із латентними змінними. Проте в цілому «ієрархічною» зазвичай називають будь-яку помірно складну баєсову мережу.

Причинні мережі

Хоч баєсові мережі й використовують часто для представлення причинних взаємозв'язків, це не обов'язково повинно бути так: орієнтоване ребро з u до v не вимагає, щоби Xv причинно залежало від Xu. Про це свідчить той факт, що баєсові мережі на графах

abc та abc

є рівнозначними: тобто, вони накладають точно такі ж вимоги умовної незалежності.

Причи́нна мере́жа (Шаблон:Lang-en) — це баєсова мережа з явною вимогою того, що взаємозв'язки є причинними. Додаткова семантика причинних мереж вказує, що якщо вузлові X активно спричинено перебування в заданому стані x (дія, що записується як do(X = x)), то функція густини ймовірності змінюється на функцію густини ймовірності мережі, отриманої відсіканням з'єднань від батьків X до X, і встановленням X у спричинене значення x.[1] Застосовуючи ці семантики, можна передбачувати вплив зовнішніх втручань на основі даних, отриманих до втручання.

Складність висновування та алгоритми наближення

1990 року під час праці в Стенфордському університеті над великими застосунками в біоінформатиці Грег Купер довів, що точне висновування в баєсових мережах є NP-складним.[21] Цей результат спричинив сплеск досліджень алгоритмів наближення з метою розробки розв'язного наближення ймовірнісного висновування. 1993 року Шаблон:Нпні та Майкл Любі довели два несподівані результати стосовно складності наближення ймовірнісного висновування в баєсових мережах.[22] По-перше, вони довели, що не існує розв'язного детермінованого алгоритму, який міг би наближувати ймовірнісне висновування в межах абсолютної похибки ɛ< 1/2. По-друге, вони довели, що не існує розв'язного увипадковленого алгоритму, який міг би наближувати ймовірнісне висновування в межах абсолютної похибки ɛ < 1/2 з довірчою ймовірністю понад 1/2.

Приблизно в той же час Шаблон:Нп довів, що точне висновування в баєсових мережах фактично є Шаблон:Нп (і відтак настільки ж складним, як і підрахунок числа задовільних присвоєнь КНФ-формули), і що наближене висновування, навіть для баєсових мереж із обмеженою архітектурою, є NP-складним.[23][24]

З практичної точки зору, ці результати стосовно складності підказали, що хоча баєсові мережі й були цінними представленнями для застосунків ШІ та машинного навчання, їхнє застосування у великих реальних задачах вимагатиме пом'якшення або топологічними структурними обмеженнями, такими як наївні баєсові мережі, або обмеженнями на умовні ймовірності. Алгоритм обмеженої дисперсії (Шаблон:Lang-en)[25] був першим алгоритмом довідного швидкого наближення для ефективного наближення ймовірнісного висновування в баєсових мережах з гарантією похибки наближення. Цей потужний алгоритм вимагав другорядних обмежень умовних імовірностей баєсової мережі, щоби отримати відмежування від нуля та одиниці на 1/p(n), де p(n) є будь-яким поліномом від числа вузлів мережі n.

Застосування

Баєсові мережі застосовують для моделювання переконань в обчислювальній біології та біоінформатиці (аналізі генних регуляторних мереж, структур білків, експресії генів,[26] навчанні епістазів із наборів даних Шаблон:Нп[27]), медицині,[28] Шаблон:Нп,[29] класифікації документів, інформаційному пошуку,[30] Шаблон:Нп,[31] обробці зображень, злитті даних, системах підтримки ухвалення рішень,[32] інженерії, ставках на спорт,[33][34] іграх, праві,[35][36][37] розробці досліджень[38] та аналізі ризиків.[39] Існують праці про застосування баєсових мереж в біоінформатиці[40][41] та фінансовій і маркетинговій інформатиці.[42][43]

Програмне забезпечення

Історія

Термін «баєсові мережі» (Шаблон:Lang-en) було запроваджено Йудою Перлом 1985 року для підкреслення трьох аспектів:[44]

  1. Часто суб'єктивної природи вхідної інформації.
  2. Покладання на баєсове обумовлювання як основу для уточнення інформації.
  3. Відмінності причинної та доказової моделей міркування, яка підкреслює працю Томаса Баєса, опубліковану посмертно 1763 року.[45]

Наприкінці 1980-х років праці Йуди Перла «Імовірнісне міркування в інтелектуальних системах»[46] та Річарда Неаполітана «Імовірнісне міркування в експертних системах»[47] підсумували властивості баєсових мереж та утвердили баєсові мережі як область дослідження.

Неофіційні варіанти таких мереж було вперше застосовано 1913 року юристом Джоном Генрі Вігмором у вигляді Шаблон:Нп для аналізу процесуальних доказів.[36]Шаблон:Rp Інший варіант, що називається Шаблон:Нп, було розроблено генетиком Сьюелом Райтом,[48] і застосовано в суспільній та поведінковій науці (переважно в лінійних параметричних моделях).

В своїй книзі 2018 року «Книга про Чому» Перл зізнався, що хоч і признає їх успішність в цілому, баєсові мережі не виправдали його сподівань (наблизити машинний інтелект до людського). Він також пояснив чому: мережі виводили висновки через спостережені ймовірності, але не враховували причинність. Думка про ймовірну помилковість конструкції баєсових мереж виникла у нього одразу ж після публікації книги «Імовірнісне міркування в інтелектуальних системах»[49], що і призвело до появи причинних мереж[1].

Див. також

Шаблон:Стовпці

Примітки

Шаблон:Reflist

Джерела

Шаблон:Refbegin

Також з'являється як Шаблон:Cite journal
Раніша версія з'являється як, Microsoft Research, March 1, 1995. Ця праця як про параметричне, так і про структурне навчання в баєсових мережах. Шаблон:Ref-en

Шаблон:Refend

Література

  • Computational Intelligence: A Methodological Introduction by Kruse, Borgelt, Klawonn, Moewes, Steinbrecher, Held, 2013, Springer, ISBN 9781447150121 Шаблон:Ref-en
  • Graphical Models — Representations for Learning, Reasoning and Data Mining, 2nd Edition, by Borgelt, Steinbrecher, Kruse, 2009, J. Wiley & Sons, ISBN 9780470749562 Шаблон:Ref-en
  • Bayesian Netwrks and BayesiaLab — A practical introduction for researchers by Stefan Conrady and Lionel Jouffe Шаблон:Ref-en
  • Шаблон:Cite journal

Посилання

  1. 1,0 1,1 1,2 1,3 1,4 Шаблон:Cite book Шаблон:Ref-en
  2. Шаблон:Cite web Шаблон:Ref-en
  3. Шаблон:Cite web Шаблон:Ref-en
  4. Шаблон:Cite conference Шаблон:Ref-en
  5. I. Shpitser, J. Pearl, «Identification of Conditional Interventional Distributions» In R. Dechter and T.S. Richardson (Eds.), Proceedings of the Twenty-Second Conference on Uncertainty in Artificial Intelligence, 437—444, Corvallis, OR: AUAI Press, 2006. Шаблон:Ref-en
  6. Rebane, G. and Pearl, J., "The Recovery of Causal Poly-trees from Statistical Data, " Proceedings, 3rd Workshop on Uncertainty in AI, (Seattle, WA) pages 222—228, 1987 Шаблон:Ref-en
  7. Шаблон:Cite journal Шаблон:Ref-en
  8. Шаблон:Cite book Шаблон:Ref-en
  9. Шаблон:Cite conference Шаблон:Ref-en
  10. Шаблон:Cite journal Шаблон:Ref-en
  11. Шаблон:Cite journal Шаблон:Ref-en
  12. Шаблон:Cite journal Шаблон:Ref-en
  13. M. Scanagatta, C. P. de Campos, G. Corani, and M. Zaffalon. Learning Bayesian Networks with Thousands of Variables. Шаблон:Webarchive In NIPS-15: Advances in Neural Information Processing Systems 28, pages 1855—1863, 2015. Шаблон:Ref-en
  14. Шаблон:Cite conference Шаблон:Ref-en
  15. Шаблон:Cite journal Шаблон:Ref-en
  16. Шаблон:Cite journal Шаблон:Ref-en
  17. M. Scanagatta, G. Corani, C. P. de Campos, and M. Zaffalon. Learning Treewidth-Bounded Bayesian Networks with Thousands of Variables. Шаблон:Webarchive In NIPS-16: Advances in Neural Information Processing Systems 29, 2016. Шаблон:Ref-en
  18. Шаблон:Cite book Шаблон:Ref-en
  19. Шаблон:Cite journal Шаблон:Ref-en
  20. Шаблон:Citation Шаблон:Ref-en
  21. Шаблон:Cite journal Шаблон:Ref-en
  22. Шаблон:Cite journal Шаблон:Ref-en
  23. D. Roth, On the hardness of approximate reasoning Шаблон:Webarchive, IJCAI (1993) Шаблон:Ref-en
  24. D. Roth, On the hardness of approximate reasoning Шаблон:Webarchive, Artificial Intelligence (1996) Шаблон:Ref-en
  25. Шаблон:Cite journal Шаблон:Ref-en
  26. Шаблон:Cite journal Шаблон:Ref-en
  27. Шаблон:Cite journal Шаблон:Ref-en
  28. Шаблон:Cite book Шаблон:Ref-en
  29. Шаблон:Cite journal Шаблон:Ref-en
  30. Шаблон:Cite journal Шаблон:Ref-en
  31. Christos L. Koumenides and Nigel R. Shadbolt. 2012. Combining link and content-based information in a Bayesian inference model for entity search. Шаблон:Webarchive In Proceedings of the 1st Joint International Workshop on Entity-Oriented and Semantic Search (JIWES '12). ACM, New York, NY, USA, Article 3 , 6 pages. Шаблон:Doi Шаблон:Ref-en
  32. Шаблон:Cite journal Шаблон:Ref-en
  33. Шаблон:Cite journal Шаблон:Ref-en
  34. Шаблон:Cite journal Шаблон:Ref-en
  35. Шаблон:Cite journal Шаблон:Ref-en
  36. 36,0 36,1 Шаблон:Cite book Шаблон:Ref-en
  37. Шаблон:Cite book Шаблон:Ref-en
  38. Шаблон:Cite journal Шаблон:Ref-en
  39. Шаблон:Cite journal Шаблон:Ref-en
  40. Шаблон:Cite book Шаблон:Ref-en
  41. Шаблон:Cite web Шаблон:Webarchive Шаблон:Ref-en
  42. Шаблон:Cite book Шаблон:Ref-en
  43. Шаблон:Cite web Шаблон:Ref-en
  44. Шаблон:Cite conference Шаблон:Ref-en
  45. Шаблон:Cite journal Шаблон:Ref-en
  46. Шаблон:Cite book Шаблон:Ref-en
  47. Шаблон:Cite book Шаблон:Ref-en
  48. Шаблон:Cite journal Шаблон:Ref-en
  49. Шаблон:Cite book