Поиск изображений на основе содержимого - Content-based image retrieval

Общая схема контентного поиска изображений

Поиск изображений на основе содержимого , также известный как запрос по содержимому изображения ( QBIC ) и поиск визуальной информации на основе содержимого ( CBVIR ), представляет собой применение методов компьютерного зрения к проблеме поиска изображений , то есть проблеме поиска цифровых изображений. в больших базах данных (см. этот обзор для получения научного обзора области CBIR). Поиск изображений на основе содержимого отличается от традиционных подходов, основанных на концепциях (см. Индексирование изображений на основе концепций ).

«На основе содержимого» означает, что поиск анализирует содержимое изображения, а не метаданные, такие как ключевые слова, теги или описания, связанные с изображением. Термин «контент» в этом контексте может относиться к цветам, формам, текстурам или любой другой информации, которая может быть получена из самого изображения. CBIR желателен, потому что поиски, основанные исключительно на метаданных, зависят от качества и полноты аннотаций .

Если люди вручную аннотируют изображения путем ввода ключевых слов или метаданных в большую базу данных, это может занять много времени и может не захватить ключевые слова, необходимые для описания изображения. Оценка эффективности поиска изображений по ключевым словам является субъективной и четко не определена. В том же отношении системы CBIR сталкиваются с аналогичными проблемами в определении успеха. «Ключевые слова также ограничивают объем запросов набором заранее определенных критериев». и «быть настроенным» менее надежны, чем использование самого контента.

История

Термин «поиск изображений на основе содержания», кажется, возник в 1992 году, когда он был использован инженером японской электротехнической лаборатории Тошиказу Като для описания экспериментов по автоматическому извлечению изображений из базы данных на основе имеющихся цветов и форм. С тех пор этот термин используется для описания процесса извлечения желаемых изображений из большой коллекции на основе синтаксических характеристик изображения. Используемые методы, инструменты и алгоритмы происходят из таких областей, как статистика, распознавание образов, обработка сигналов и компьютерное зрение.

Контентный просмотр видео был представлен иранским инженером Фаршидом Арманом, тайваньским компьютерным ученым Ардингом Хсу и компьютерным ученым Минг-Йи Чиу во время работы в Siemens , и он был представлен на международной конференции ACM в августе 1993 года. Они описали обнаружение выстрела. алгоритм для сжатого видео, которое изначально было закодировано с использованием стандартов кодирования видео с дискретным косинусным преобразованием (DCT), таких как JPEG , MPEG и H.26x . Основная идея заключалась в том, что, поскольку коэффициенты DCT математически связаны с пространственной областью и представляют содержимое каждого кадра, их можно использовать для обнаружения различий между видеокадрами. В алгоритме подмножество блоков в кадре и подмножество DCT-коэффициентов для каждого блока используются в качестве представления вектора движения для кадра. Работая со сжатыми представлениями DCT, алгоритм значительно снижает вычислительные требования для распаковки и обеспечивает эффективный просмотр видео. Алгоритм представляет отдельные кадры видеопоследовательности в виде r-кадра, эскиза кадра, обрамленного областью отслеживания движения. Вариант этой концепции позже был принят для мозаики видеоконтента QBIC, где каждый r-кадр представляет собой заметный кадр из кадра, который он представляет.

QBIC - запрос по содержанию изображения

Ранняя коммерческая система CBIR была разработана IBM и была названа QBIC ( Q uery Б у я маг С ontent). Недавние сетевые и графические подходы представили простую и привлекательную альтернативу существующим методам.

Хотя хранение нескольких изображений как части единого объекта предшествовало термину BLOB ( B inary L arge OB ject), возможность полного поиска по содержимому, а не по описанию, должна была ждать QBIC IBM.

Технический прогресс

Интерес к CBIR вырос из-за ограничений, присущих системам на основе метаданных, а также из-за большого диапазона возможных применений для эффективного поиска изображений. Текстовую информацию об изображениях можно легко найти с помощью существующих технологий, но для этого нужно, чтобы люди вручную описывали каждое изображение в базе данных. Это может оказаться непрактичным для очень больших баз данных или для изображений, которые создаются автоматически, например, с камер наблюдения . Также можно пропустить изображения, в описании которых используются разные синонимы. Системы, основанные на категоризации изображений по семантическим классам, таким как «кошка» как подкласс «животное», могут избежать проблемы неправильной категоризации, но потребуют от пользователя дополнительных усилий для поиска изображений, которые могут быть «кошками», но классифицируются только как « животное ". Было разработано множество стандартов для категоризации изображений, но все еще сталкиваются с проблемами масштабирования и неправильной категоризации.

Первоначальные системы CBIR были разработаны для поиска в базах данных на основе свойств цвета, текстуры и формы изображения. После разработки этих систем необходимость в удобных для пользователя интерфейсах стала очевидной. Таким образом, усилия в области CBIR начали включать дизайн, ориентированный на человека, который пытался удовлетворить потребности пользователя, выполняющего поиск. Обычно это означает включение: методов запросов, которые могут допускать описательную семантику, запросов, которые могут включать обратную связь с пользователем, систем, которые могут включать машинное обучение, и систем, которые могут понимать уровни удовлетворенности пользователей.

Методы

Было разработано много систем CBIR, но по состоянию на 2006 г. проблема извлечения изображений на основе их пиксельного содержимого остается в значительной степени нерешенной.

Различные методы запросов и реализации CBIR используют разные типы пользовательских запросов.

Запрос по примеру

QBE ( Q uery B y E xample ) - это метод запроса, который включает в себя предоставление системе CBIR примера изображения, на котором она затем будет основывать свой поиск. Базовые алгоритмы поиска могут различаться в зависимости от приложения, но все изображения результатов должны иметь общие элементы с приведенным примером.

Варианты предоставления в систему примеров изображений включают:

  • Существующее ранее изображение может быть предоставлено пользователем или выбрано из случайного набора.
  • Пользователь рисует приблизительное изображение искомого изображения, например, с помощью цветных пятен или общих форм.

Этот метод запросов устраняет трудности, которые могут возникнуть при попытке описать изображения словами.

Семантический поиск

Семантический поиск начинается с того, что пользователь делает запрос типа «найти фотографии Авраама Линкольна». Этот тип неограниченной задачи очень сложен для компьютеров - Линкольн не всегда может смотреть в камеру или находиться в одной и той же позе. Поэтому многие системы CBIR обычно используют функции более низкого уровня, такие как текстура, цвет и форма. Эти функции используются либо в сочетании с интерфейсами, которые упрощают ввод критериев, либо с базами данных, которые уже были обучены сопоставлению функций (таких как лица, отпечатки пальцев или сопоставление форм). Однако в целом поиск изображений требует обратной связи от человека для определения концепций более высокого уровня.

Обратная связь по релевантности (взаимодействие с людьми)

Сочетание методов поиска CBIR, доступных для широкого круга потенциальных пользователей и их намерений, может быть сложной задачей. Один из аспектов успеха CBIR полностью зависит от способности понимать намерения пользователя. Системы CBIR могут использовать обратную связь по релевантности , при которой пользователь постепенно уточняет результаты поиска, отмечая изображения в результатах как «релевантные», «нерелевантные» или «нейтральные» по отношению к поисковому запросу, а затем повторяя поиск с новой информацией. . Были разработаны примеры такого типа интерфейса.

Итеративное / машинное обучение

Машинное обучение и применение итерационных методов становятся все более распространенными в CBIR.

Другие методы запроса

Другие методы запросов включают в себя просмотр, например, изображений, навигацию по настраиваемым / иерархическим категориям, запросы по области изображения (а не по всему изображению), запросы по нескольким примерам изображений, запросы по визуальному эскизу, запросы с прямым указанием функций изображения и мультимодальные запросы ( например, сочетание прикосновения, голоса и т. д.)

Сравнение контента с использованием мер расстояния между изображениями

Наиболее распространенный метод сравнения двух изображений при поиске изображения на основе содержимого (обычно пример изображения и изображение из базы данных) - это использование меры расстояния между изображениями. Мера расстояния между изображениями сравнивает сходство двух изображений в различных измерениях, таких как цвет, текстура, форма и другие. Например, расстояние, равное 0, означает точное совпадение с запросом с учетом рассмотренных измерений. Как можно интуитивно догадаться, значение больше 0 указывает на различную степень сходства между изображениями. Затем результаты поиска можно отсортировать по расстоянию до запрашиваемого изображения. Были разработаны многие меры расстояния между изображениями (модели подобия).

Цвет

Вычисление мер расстояния на основе цветового сходства достигается путем вычисления цветовой гистограммы для каждого изображения, которая определяет долю пикселей в изображении, содержащем определенные значения. Изучение изображений на основе содержащихся в них цветов является одним из наиболее широко используемых методов, поскольку его можно выполнять независимо от размера или ориентации изображения. Тем не менее, в исследованиях также была предпринята попытка сегментировать пропорции цвета по регионам и по пространственным отношениям между несколькими цветовыми регионами.

Текстура

Меры текстуры ищут визуальные закономерности в изображениях и их пространственное определение. Текстуры представлены текселями, которые затем помещаются в несколько наборов, в зависимости от того, сколько текстур обнаружено в изображении. Эти наборы определяют не только текстуру, но и то, где на изображении находится текстура.

Текстуру сложно представить. Идентификация конкретных текстур в изображении достигается, прежде всего, путем моделирования текстуры как двухмерной вариации уровня серого. Относительная яркость пар пикселей вычисляется так, чтобы можно было оценить степень контраста, регулярности, грубости и направленности. Проблема состоит в том, чтобы идентифицировать паттерны вариации сопикселей и связывать их с определенными классами текстур, такими как шелковистая или грубая .

Другие методы классификации текстур включают:

Форма

Форма относится не к форме изображения, а к форме конкретной области, которую ищут. Формы часто определяются сначала путем сегментации или обнаружения краев изображения. Другие методы используют фильтры формы для определения заданных форм изображения. Дескрипторы формы также могут быть инвариантными к перемещению, повороту и масштабированию.

Некоторые дескрипторы формы включают:

Уязвимости, атаки и защиты

Как и другие задачи компьютерного зрения, такие как распознавание и обнаружение, новейшие алгоритмы поиска на основе нейронных сетей подвержены состязательным атакам как в качестве кандидатов, так и в качестве атак по запросу. Показано, что полученное ранжирование может быть радикально изменено лишь небольшими возмущениями, незаметными для человека. Кроме того, также возможны переносимые состязательные примеры, не зависящие от модели, что позволяет проводить состязательные атаки методом черного ящика на системы с глубоким ранжированием, не требуя доступа к их базовым реализациям.

И наоборот, сопротивление таким атакам может быть улучшено с помощью противостоящей защиты, такой как защита Мэдри.

Оценка поиска изображений

Меры поиска изображения могут быть определены с точки зрения точности и запоминания . Однако рассматриваются и другие методы.

Одновременный поиск изображений в системе CBIR разными методами

Изображение извлекается в системе CBIR путем одновременного применения нескольких методов, таких как интеграция индексации кластера пикселей, пересечение гистограммы и методы дискретного вейвлет-преобразования.

Приложения

Возможные варианты использования CBIR:

К коммерческим системам, которые были разработаны, относятся:

  • QBIC от IBM
  • VIR Image Engine от Virage
  • Программное обеспечение для поиска изображений Экскалибура
  • VisualSEEk и WebSEEk
  • Нетра
  • МАРС
  • Фото
  • Pixolution

Экспериментальные системы включают:

  • Фотокнига Массачусетского технологического института
  • WebSEEk Колумбийского университета
  • Информация Университета Карнеги-Меллона
  • iSearch - PICT

Смотрите также

использованная литература

дальнейшее чтение

Соответствующие исследовательские работы

внешние ссылки