Модель «торба слів» у комп'ютерному зорі

У комп'ютерному зорі модель "торба слів" (Шаблон:Lang-en, модель BoW), яку іноді називають моделлю "сумки візуальних слів"^[1], можна застосувати до класифікації або пошуку зображень, трактуючи характеристики зображення як слова. У класифікації документів торба слів — це розріджений вектор підрахунків появи слів; тобто розріджена гістограма над словником. У комп'ютерному зорі модель "торба слів" — це вектор підрахунків появи словника локальних характеристик зображення.

Представлення зображення на основі моделі BoW

Щоб представити зображення за допомогою моделі BoW, зображення можна розглядати як документ. Подібним чином необхідно визначити «слова» в зображеннях. Щоб досягти цього, він зазвичай включає наступні три кроки: виявлення функції, опис функції та створення кодової книги.^[2] Визначенням моделі BoW може бути «подання гістограми на основі незалежних ознак».^[3] Індексування та пошук зображень на основі вмісту (CBIR), здається, є першим застосовувачем цієї техніки представлення зображень.^[4]

Представлення ознак

Після виявлення ознак кожне зображення абстрагується кількома локальними плямами. Методи подання функцій стосуються того, як представити патчі як числові вектори. Ці вектори називаються дескрипторами ознак. Хороший дескриптор повинен мати здатність певною мірою обробляти інтенсивність, обертання, масштаб і афінні варіації. Одним із найвідоміших дескрипторів є Scale-invariant Feature Transform (SIFT).^[5] SIFT перетворює кожен патч у 128-вимірний вектор. Після цього кроку кожне зображення є набором векторів однакової розмірності (128 для SIFT), де порядок різних векторів не має значення.

Генерація кодової книги

Останнім кроком для моделі BoW є перетворення векторно представлених патчів на «кодові слова» (аналогічні словам у текстових документах), що також створює «кодову книгу» (аналогію словнику слів). Кодове слово можна розглядати як представник кількох подібних патчів. Одним із простих методів є кластеризація k-середніх по всіх векторах.^[6] Потім кодові слова визначаються як центри вивчених кластерів. Кількість кластерів є розміром кодової книги (аналогічно розміру словника слів).

Таким чином, кожна пляма в зображенні зіставляється з певним кодовим словом через процес кластеризації, і зображення може бути представлено гістограмою кодових слів.

Навчання та розпізнавання на основі моделі BoW

Дослідники комп'ютерного зору розробили кілька методів навчання, щоб використовувати модель BoW для завдань, пов'язаних із зображеннями, наприклад, категоризації об'єктів . Ці методи можна умовно розділити на дві категорії: неконтрольовані та контрольовані моделі. Для проблеми категоризації кількох міток матрицю плутанини можна використовувати як показник оцінки.

Моделі без нагляду

Ось деякі позначки для цього розділу. Припустимо, розмір кодової книги дорівнює $V$ .

$w$ : кожен патч $w$ є V-вимірним вектором, один компонент якого дорівнює одиниці, а всі інші компоненти дорівнюють нулю (для налаштування кластеризації k-середніх одиничний компонент, що дорівнює одиниці, вказує на кластер, який $w$ належить до). The $v$ -го кодового слова в кодовій книзі можна представити як $w^{v} = 1$ і $w^{u} = 0$ для $u \neq v$ .
$𝐰$ : кожне зображення представлено $𝐰 = [w_{1}, w_{2}, \dots, w_{N}]$ , усі патчі на зображенні
$d_{j}$ : $j$ -те зображення в колекції зображень
$c$ : категорія зображення
$z$ : основна думка або тема патча
$π$ : пропорція суміші

Оскільки модель BoW є аналогією моделі BoW в НЛП, генеративні моделі, розроблені в текстових областях, також можуть бути адаптовані в комп'ютерному зорі. Обговорюються проста наївна модель Баєса та ієрархічні моделі Баєса.

Наївний Баєс

Найпростішим є наївний класифікатор Баєса .^[1] Використовуючи мову графічних моделей, наївний класифікатор Баєса описується наведеним нижче рівнянням. Основна ідея (або припущення) цієї моделі полягає в тому, що кожна категорія має свій власний розподіл у книгах кодів і що розподіли кожної категорії помітно відрізняються. Візьмемо для прикладу категорію обличчя та категорію автомобіля. Категорія обличчя може підкреслювати кодові слова, які представляють «ніс», «око» та «рот», тоді як категорія автомобіля може підкреслювати кодові слова, які представляють «колесо» та «вікно». Отримавши набір навчальних прикладів, класифікатор вивчає різні розподіли для різних категорій. Рішення про категоризацію прийнято в

$c^{*} = \arg \max_{c} p (c | 𝐰) = \arg \max_{c} p (c) p (𝐰 | c) = \arg \max_{c} p (c) \prod_{n = 1}^{N} p (w_{n} | c)$ Шаблон:Науковець Оскільки наївний класифікатор Баєса простий, але ефективний, його зазвичай використовують як базовий метод для порівняння.

Ієрархічні баєсівські моделі

Основне припущення наївної моделі Баєса іноді не виконується. Наприклад, зображення природної сцени може містити кілька різних тем. Імовірніший прихований семантичний аналіз (pLSA)^[7] і прихований розподіл Діріхле (LDA)^[8] є двома популярними тематичними моделями з текстових доменів для вирішення схожої проблеми з кількома «темами». Візьмемо для прикладу LDA. Для моделювання зображень природної сцени за допомогою LDA проводиться аналогія з аналізом документів:

категорія зображення зіставляється з категорією документа;
пропорція суміші основної думки відображає пропорцію суміші тем;
індекс основної думки зіставляється з індексом теми;
кодове слово зіставляється зі словом.

Цей метод показує багатообіцяні результати в класифікації природних сцен за 13 категоріями природних сцен .^[9]

Контрольовані моделі

Оскільки зображення представлені на основі моделі BoW, можна спробувати будь-яку дискримінаційну модель, придатну для категоризації текстових документів, наприклад машину опорних векторів і AdaBoost .^[10] Трюк ядра також застосовний, коли використовується класифікатор на основі ядра, наприклад SVM. Ядро Pyramid match є нещодавно розробленим на основі моделі BoW. Підхід до локальних особливостей використання представлення моделі BoW, навченого класифікаторами машинного навчання з різними ядрами (наприклад, EMD-ядро та $X^{2}$ kernel) було ретельно протестовано в області розпізнавання текстур і об'єктів.^[11] Повідомлялося про дуже обнадійливі результати щодо ряду наборів даних. Цей підхід^[11] досяг дуже вражаючих результатів у PASCAL Visual Object Classes Challenge .

Ядро відповідності піраміди

Ядро відповідності піраміди (Шаблон:Lang-en)^[12] — це швидкий алгоритм (лінійна складність замість класичної квадратичної складності) ядерна функція (задовольняє умову Мерсера), яка відображає функції BoW або набір функцій у високій розмірності на багатовимірні гістограми з різною роздільною здатністю . Перевагою цих гістограм із різною роздільною здатністю є їх здатність фіксувати супутні елементи. Ядро пірамідної відповідності будує гістограми з різною роздільною здатністю, об'єднуючи точки даних у дискретні області зростаючого розміру. Таким чином, точки, які не збігаються при високій роздільній здатності, мають шанс збігатися при низькій роздільній здатності. Ядро пірамідної відповідності виконує приблизну відповідність подібності без явного пошуку чи обчислення відстані. Замість цього він перетинає гістограми для наближення оптимального збігу. Відповідно, час обчислення є лише лінійним за кількістю ознак. Порівняно з іншими підходами до ядра, ядро пірамідального збігу є набагато швидшим, але забезпечує еквівалентну точність. Ядро пірамідної відповідності було застосовано до бази даних ETH-80 і бази даних Caltech 101 із багатообіцяючими результатами.^[12]^[13]

Обмеження та останні розробки

Одним із сумнозвісних недоліків BoW є те, що він ігнорує просторові відносини між патчами, які дуже важливі для представлення зображення. Дослідники запропонували кілька методів включення просторової інформації. Для покращення рівня функцій функції корелограми можуть фіксувати просторову співпояву функцій.^[14] Для генеративних моделей також враховуються відносні позиції^[15] кодових слів. Модель ієрархічної форми та зовнішнього вигляду для людських дій^[16] вводить новий шар частин (модель сузір'я) між пропорцією суміші та функціями BoW, який фіксує просторові відносини між частинами в шарі. Для дискримінаційних моделей просторове пірамідне зіставлення^[17] виконує пірамідне зіставлення шляхом поділу зображення на дедалі точніші підобласті та обчислення гістограм локальних особливостей у кожній підобласті. Нещодавно доповнення локальних дескрипторів зображення (тобто SIFT(scale-invariant feature transform) їх просторовими координатами, нормалізованими шириною та висотою зображення, виявилося надійним і простим підходом до кодування просторових координат^[18]^[19], який вводить просторову інформацію в модель BoW.

Модель BoW ще не була ретельно перевірена на незмінність точки огляду та незмінність масштабу, і продуктивність неясна. Крім того, модель BoW для сегментації та локалізації об'єктів недостатньо зрозуміла.^[20]

Систематичне порівняння конвеєрів класифікації виявило, що кодування статистики першого та другого порядку (Вектор локально агрегованих дескрипторів (Vector of Locally Aggregated Descriptors, VLAD)^[21] і Вектор Фішера (Шаблон:Iw, FV)) значно підвищило точність класифікації порівняно з BoW, а також зменшило розмір книги кодів, таким чином зменшуючи обчислювальні зусилля для створення кодової книги.^[22] Крім того, нещодавнє детальне порівняння методів кодування та об'єднання^[23] для BoW показало, що статистика другого порядку в поєднанні з розрідженим кодуванням і відповідним об'єднанням, таким як нормалізація потужності, може ще більше перевершити вектори Фішера та навіть наблизитися до результатів простих моделей згорткової нейронної мережі. на деяких наборах даних розпізнавання об'єктів, таких як Oxford Flower Dataset 102 .

Див. також

Доречно-векторна машина, ймовірнісна розріджена ядрова модель, ідентична у функційному вигляді до ОВМ
Послідовна мінімальна оптимізація
Методологія картографування
Модель векторного простору
Модель «торба слів»
Конструювання ознак
Об'єктно-орієнтоване програмування
Згорткова нейронна мережа
Простір масштабів

Примітки

Шаблон:Reflist

Джерела

Посилання

Сумка візуальних слів у двох словах, короткий посібник від Бетеї Давіди.
Демо для двох класифікаторів сумок слів від Л. Фей-Фея, Р. Фергуса та А. Торральби.
Набір інструментів Caltech Large Scale Image Search Toolbox: набір інструментів Matlab/C++, який реалізує пошук у перевернутому файлі для моделі Bag of Words. Він також містить реалізації для швидкого приблизного пошуку найближчого сусіда з використанням рандомізованого kd-дерева, хешування з урахуванням місцевості та ієрархічних k-середніх .
Бібліотека DBoW2: бібліотека, яка реалізує швидкий пакет слів у C++ із підтримкою OpenCV .

Шаблон:Бібліоінформація

[:0-1] 1,0 ^1,1 Шаблон:Cite book

[feifeicvpr2005-2] Шаблон:Cite book

[cvprcourse-3] Шаблон:Cite web

[4] Шаблон:Cite journal

[Loweiccv1999-5] Шаблон:Cite book

[6] Шаблон:Cite journal

[7] Шаблон:Cite book

[bleijmlr2003-8] Шаблон:Cite journal

[feifeicvpr20052-9] Шаблон:Cite book

[10] Шаблон:Cite book

[bogkernelijcv2007-11] 11,0 ^11,1 Шаблон:Cite journal

[pyramidiccv2005-12] 12,0 ^12,1 Шаблон:Cite book

[13] Шаблон:Cite book

[14] Шаблон:Cite book

[15] Шаблон:Cite book

[16] Шаблон:Cite book

[17] Шаблон:Cite book

[koniusz2013-18] Шаблон:Cite journal

[koniusz2017-19] Шаблон:Cite journal

[cvprcourse2-20] Шаблон:Cite web

[21] Шаблон:Cite book

[22] Шаблон:Cite journal

[koniusz20172-23] Шаблон:Cite journal

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

Модель «торба слів» у комп'ютерному зорі

Зміст

Представлення зображення на основі моделі BoW

Представлення ознак

Генерація кодової книги

Навчання та розпізнавання на основі моделі BoW

Моделі без нагляду

Наївний Баєс

Ієрархічні баєсівські моделі

Контрольовані моделі

Ядро відповідності піраміди

Обмеження та останні розробки

Див. також

Примітки

Джерела

Посилання

Навігаційне меню

Модель «торба слів» у комп'ютерному зорі

Представлення зображення на основі моделі BoW

Представлення ознак

Генерація кодової книги

Навчання та розпізнавання на основі моделі BoW

Моделі без нагляду

Наївний Баєс

Ієрархічні баєсівські моделі

Контрольовані моделі

Ядро відповідності піраміди

Обмеження та останні розробки

Див. також

Примітки

Джерела

Посилання

Навігаційне меню

Пошук