Модель «торба слів» у комп'ютерному зорі

Матеріал з testwiki
Перейти до навігації Перейти до пошуку
Візуалізація моделі "Торба слів"у комп'ютерному баченні

У комп'ютерному зорі модель "торба слів" (Шаблон:Lang-en, модель BoW), яку іноді називають моделлю "сумки візуальних слів"[1], можна застосувати до класифікації або пошуку зображень, трактуючи характеристики зображення як слова. У класифікації документів торба слів — це розріджений вектор підрахунків появи слів; тобто розріджена гістограма над словником. У комп'ютерному зорі модель "торба слів" — це вектор підрахунків появи словника локальних характеристик зображення.

Представлення зображення на основі моделі BoW

Щоб представити зображення за допомогою моделі BoW, зображення можна розглядати як документ. Подібним чином необхідно визначити «слова» в зображеннях. Щоб досягти цього, він зазвичай включає наступні три кроки: виявлення функції, опис функції та створення кодової книги.[2] Визначенням моделі BoW може бути «подання гістограми на основі незалежних ознак».[3] Індексування та пошук зображень на основі вмісту (CBIR), здається, є першим застосовувачем цієї техніки представлення зображень.[4]

Гістограма

Представлення ознак

Після виявлення ознак кожне зображення абстрагується кількома локальними плямами. Методи подання функцій стосуються того, як представити патчі як числові вектори. Ці вектори називаються дескрипторами ознак. Хороший дескриптор повинен мати здатність певною мірою обробляти інтенсивність, обертання, масштаб і афінні варіації. Одним із найвідоміших дескрипторів є Scale-invariant Feature Transform (SIFT).[5] SIFT перетворює кожен патч у 128-вимірний вектор. Після цього кроку кожне зображення є набором векторів однакової розмірності (128 для SIFT), де порядок різних векторів не має значення.

Генерація кодової книги

Останнім кроком для моделі BoW є перетворення векторно представлених патчів на «кодові слова» (аналогічні словам у текстових документах), що також створює «кодову книгу» (аналогію словнику слів). Кодове слово можна розглядати як представник кількох подібних патчів. Одним із простих методів є кластеризація k-середніх по всіх векторах.[6] Потім кодові слова визначаються як центри вивчених кластерів. Кількість кластерів є розміром кодової книги (аналогічно розміру словника слів).

Таким чином, кожна пляма в зображенні зіставляється з певним кодовим словом через процес кластеризації, і зображення може бути представлено гістограмою кодових слів.

Навчання та розпізнавання на основі моделі BoW

Дослідники комп'ютерного зору розробили кілька методів навчання, щоб використовувати модель BoW для завдань, пов'язаних із зображеннями, наприклад, категоризації об'єктів . Ці методи можна умовно розділити на дві категорії: неконтрольовані та контрольовані моделі. Для проблеми категоризації кількох міток матрицю плутанини можна використовувати як показник оцінки.

Моделі без нагляду

Ось деякі позначки для цього розділу. Припустимо, розмір кодової книги дорівнює V .

  • w : кожен патч w є V-вимірним вектором, один компонент якого дорівнює одиниці, а всі інші компоненти дорівнюють нулю (для налаштування кластеризації k-середніх одиничний компонент, що дорівнює одиниці, вказує на кластер, який w належить до). The v-го кодового слова в кодовій книзі можна представити як wv=1 і wu=0 для uv .
  • 𝐰 : кожне зображення представлено 𝐰=[w1,w2,,wN], усі патчі на зображенні
  • dj : j-те зображення в колекції зображень
  • c : категорія зображення
  • z : основна думка або тема патча
  • π : пропорція суміші

Оскільки модель BoW є аналогією моделі BoW в НЛП, генеративні моделі, розроблені в текстових областях, також можуть бути адаптовані в комп'ютерному зорі. Обговорюються проста наївна модель Баєса та ієрархічні моделі Баєса.

Нейронна мережа Наївного Баєса

Наївний Баєс

Найпростішим є наївний класифікатор Баєса .[1] Використовуючи мову графічних моделей, наївний класифікатор Баєса описується наведеним нижче рівнянням. Основна ідея (або припущення) цієї моделі полягає в тому, що кожна категорія має свій власний розподіл у книгах кодів і що розподіли кожної категорії помітно відрізняються. Візьмемо для прикладу категорію обличчя та категорію автомобіля. Категорія обличчя може підкреслювати кодові слова, які представляють «ніс», «око» та «рот», тоді як категорія автомобіля може підкреслювати кодові слова, які представляють «колесо» та «вікно». Отримавши набір навчальних прикладів, класифікатор вивчає різні розподіли для різних категорій. Рішення про категоризацію прийнято в

c*=argmaxcp(c|𝐰)=argmaxcp(c)p(𝐰|c)=argmaxcp(c)n=1Np(wn|c) Шаблон:Науковець Оскільки наївний класифікатор Баєса простий, але ефективний, його зазвичай використовують як базовий метод для порівняння.

Ієрархічні баєсівські моделі

Основне припущення наївної моделі Баєса іноді не виконується. Наприклад, зображення природної сцени може містити кілька різних тем. Імовірніший прихований семантичний аналіз (pLSA)[7] і прихований розподіл Діріхле (LDA)[8] є двома популярними тематичними моделями з текстових доменів для вирішення схожої проблеми з кількома «темами». Візьмемо для прикладу LDA. Для моделювання зображень природної сцени за допомогою LDA проводиться аналогія з аналізом документів:

Ієрархія баєвської моделі
  • категорія зображення зіставляється з категорією документа;
  • пропорція суміші основної думки відображає пропорцію суміші тем;
  • індекс основної думки зіставляється з індексом теми;
  • кодове слово зіставляється зі словом.

Цей метод показує багатообіцяні результати в класифікації природних сцен за 13 категоріями природних сцен .[9]

Контрольовані моделі

Оскільки зображення представлені на основі моделі BoW, можна спробувати будь-яку дискримінаційну модель, придатну для категоризації текстових документів, наприклад машину опорних векторів і AdaBoost .[10] Трюк ядра також застосовний, коли використовується класифікатор на основі ядра, наприклад SVM. Ядро Pyramid match є нещодавно розробленим на основі моделі BoW. Підхід до локальних особливостей використання представлення моделі BoW, навченого класифікаторами машинного навчання з різними ядрами (наприклад, EMD-ядро та X2 kernel) було ретельно протестовано в області розпізнавання текстур і об'єктів.[11] Повідомлялося про дуже обнадійливі результати щодо ряду наборів даних. Цей підхід[11] досяг дуже вражаючих результатів у PASCAL Visual Object Classes Challenge .

Ядро відповідності піраміди

Зображення до «Ядра відповідності піраміди»

Ядро відповідності піраміди (Шаблон:Lang-en)[12] — це швидкий алгоритм (лінійна складність замість класичної квадратичної складності) ядерна функція (задовольняє умову Мерсера), яка відображає функції BoW або набір функцій у високій розмірності на багатовимірні гістограми з різною роздільною здатністю . Перевагою цих гістограм із різною роздільною здатністю є їх здатність фіксувати супутні елементи. Ядро пірамідної відповідності будує гістограми з різною роздільною здатністю, об'єднуючи точки даних у дискретні області зростаючого розміру. Таким чином, точки, які не збігаються при високій роздільній здатності, мають шанс збігатися при низькій роздільній здатності. Ядро пірамідної відповідності виконує приблизну відповідність подібності без явного пошуку чи обчислення відстані. Замість цього він перетинає гістограми для наближення оптимального збігу. Відповідно, час обчислення є лише лінійним за кількістю ознак. Порівняно з іншими підходами до ядра, ядро пірамідального збігу є набагато швидшим, але забезпечує еквівалентну точність. Ядро пірамідної відповідності було застосовано до бази даних ETH-80 і бази даних Caltech 101 із багатообіцяючими результатами.[12][13]

Обмеження та останні розробки

Одним із сумнозвісних недоліків BoW є те, що він ігнорує просторові відносини між патчами, які дуже важливі для представлення зображення. Дослідники запропонували кілька методів включення просторової інформації. Для покращення рівня функцій функції корелограми можуть фіксувати просторову співпояву функцій.[14] Для генеративних моделей також враховуються відносні позиції[15] кодових слів. Модель ієрархічної форми та зовнішнього вигляду для людських дій[16] вводить новий шар частин (модель сузір'я) між пропорцією суміші та функціями BoW, який фіксує просторові відносини між частинами в шарі. Для дискримінаційних моделей просторове пірамідне зіставлення[17] виконує пірамідне зіставлення шляхом поділу зображення на дедалі точніші підобласті та обчислення гістограм локальних особливостей у кожній підобласті. Нещодавно доповнення локальних дескрипторів зображення (тобто SIFT(scale-invariant feature transform) їх просторовими координатами, нормалізованими шириною та висотою зображення, виявилося надійним і простим підходом до кодування просторових координат[18][19], який вводить просторову інформацію в модель BoW.

Модель BoW ще не була ретельно перевірена на незмінність точки огляду та незмінність масштабу, і продуктивність неясна. Крім того, модель BoW для сегментації та локалізації об'єктів недостатньо зрозуміла.[20]

Систематичне порівняння конвеєрів класифікації виявило, що кодування статистики першого та другого порядку (Вектор локально агрегованих дескрипторів (Vector of Locally Aggregated Descriptors, VLAD)[21] і Вектор Фішера (Шаблон:Iw, FV)) значно підвищило точність класифікації порівняно з BoW, а також зменшило розмір книги кодів, таким чином зменшуючи обчислювальні зусилля для створення кодової книги.[22] Крім того, нещодавнє детальне порівняння методів кодування та об'єднання[23] для BoW показало, що статистика другого порядку в поєднанні з розрідженим кодуванням і відповідним об'єднанням, таким як нормалізація потужності, може ще більше перевершити вектори Фішера та навіть наблизитися до результатів простих моделей згорткової нейронної мережі. на деяких наборах даних розпізнавання об'єктів, таких як Oxford Flower Dataset 102 .

Див. також

Примітки

Шаблон:Reflist

Джерела

Посилання

Шаблон:Бібліоінформація