Поиск изображений на основе содержимого - Content-based image retrieval

Общая схема контентного поиска изображений

Поиск изображений на основе содержимого , также известный как запрос по содержимому изображения ( QBIC ) и поиск визуальной информации на основе содержимого ( CBVIR ), представляет собой применение методов компьютерного зрения к проблеме поиска изображений , то есть проблеме поиска цифровых изображений. в больших базах данных (см. этот обзор для получения научного обзора области CBIR). Поиск изображений на основе содержимого отличается от традиционных подходов, основанных на концепциях (см. Индексирование изображений на основе концепций ).

«На основе содержимого» означает, что поиск анализирует содержимое изображения, а не метаданные, такие как ключевые слова, теги или описания, связанные с изображением. Термин «контент» в этом контексте может относиться к цветам, формам, текстурам или любой другой информации, которая может быть получена из самого изображения. CBIR желателен, потому что поиски, основанные исключительно на метаданных, зависят от качества и полноты аннотаций .

Если люди вручную аннотируют изображения путем ввода ключевых слов или метаданных в большую базу данных, это может занять много времени и может не захватить ключевые слова, необходимые для описания изображения. Оценка эффективности поиска изображений по ключевым словам является субъективной и четко не определена. В том же отношении системы CBIR сталкиваются с аналогичными проблемами в определении успеха. «Ключевые слова также ограничивают объем запросов набором заранее определенных критериев». и «быть настроенным» менее надежны, чем использование самого контента.

История

Термин «поиск изображений на основе содержания», кажется, возник в 1992 году, когда он был использован инженером японской электротехнической лаборатории Тошиказу Като для описания экспериментов по автоматическому извлечению изображений из базы данных на основе имеющихся цветов и форм. С тех пор этот термин используется для описания процесса извлечения желаемых изображений из большой коллекции на основе синтаксических характеристик изображения. Используемые методы, инструменты и алгоритмы происходят из таких областей, как статистика, распознавание образов, обработка сигналов и компьютерное зрение.

Контентный просмотр видео был представлен иранским инженером Фаршидом Арманом, тайваньским компьютерным ученым Ардингом Хсу и компьютерным ученым Минг-Йи Чиу во время работы в Siemens , и он был представлен на международной конференции ACM в августе 1993 года. Они описали обнаружение выстрела. алгоритм для сжатого видео, которое изначально было закодировано с использованием стандартов кодирования видео с дискретным косинусным преобразованием (DCT), таких как JPEG , MPEG и H.26x . Основная идея заключалась в том, что, поскольку коэффициенты DCT математически связаны с пространственной областью и представляют содержимое каждого кадра, их можно использовать для обнаружения различий между видеокадрами. В алгоритме подмножество блоков в кадре и подмножество DCT-коэффициентов для каждого блока используются в качестве представления вектора движения для кадра. Работая со сжатыми представлениями DCT, алгоритм значительно снижает вычислительные требования для распаковки и обеспечивает эффективный просмотр видео. Алгоритм представляет отдельные кадры видеопоследовательности в виде r-кадра, эскиза кадра, обрамленного областью отслеживания движения. Вариант этой концепции позже был принят для мозаики видеоконтента QBIC, где каждый r-кадр представляет собой заметный кадр из кадра, который он представляет.

QBIC - запрос по содержанию изображения

Ранняя коммерческая система CBIR была разработана IBM и была названа QBIC ( Q uery Б у я маг С ontent). Недавние сетевые и графические подходы представили простую и привлекательную альтернативу существующим методам.

Хотя хранение нескольких изображений как части единого объекта предшествовало термину BLOB ( B inary L arge OB ject), возможность полного поиска по содержимому, а не по описанию, должна была ждать QBIC IBM.

Технический прогресс

Интерес к CBIR вырос из-за ограничений, присущих системам на основе метаданных, а также из-за большого диапазона возможных применений для эффективного поиска изображений. Текстовую информацию об изображениях можно легко найти с помощью существующих технологий, но для этого нужно, чтобы люди вручную описывали каждое изображение в базе данных. Это может оказаться непрактичным для очень больших баз данных или для изображений, которые создаются автоматически, например, с камер наблюдения . Также можно пропустить изображения, в описании которых используются разные синонимы. Системы, основанные на категоризации изображений по семантическим классам, таким как «кошка» как подкласс «животное», могут избежать проблемы неправильной категоризации, но потребуют от пользователя дополнительных усилий для поиска изображений, которые могут быть «кошками», но классифицируются только как « животное ". Было разработано множество стандартов для категоризации изображений, но все еще сталкиваются с проблемами масштабирования и неправильной категоризации.

Первоначальные системы CBIR были разработаны для поиска в базах данных на основе свойств цвета, текстуры и формы изображения. После разработки этих систем необходимость в удобных для пользователя интерфейсах стала очевидной. Таким образом, усилия в области CBIR начали включать дизайн, ориентированный на человека, который пытался удовлетворить потребности пользователя, выполняющего поиск. Обычно это означает включение: методов запросов, которые могут допускать описательную семантику, запросов, которые могут включать обратную связь с пользователем, систем, которые могут включать машинное обучение, и систем, которые могут понимать уровни удовлетворенности пользователей.

Методы

Было разработано много систем CBIR, но по состоянию на 2006 г. проблема извлечения изображений на основе их пиксельного содержимого остается в значительной степени нерешенной.

Различные методы запросов и реализации CBIR используют разные типы пользовательских запросов.

Запрос по примеру

QBE ( Q uery B y E xample ) - это метод запроса, который включает в себя предоставление системе CBIR примера изображения, на котором она затем будет основывать свой поиск. Базовые алгоритмы поиска могут различаться в зависимости от приложения, но все изображения результатов должны иметь общие элементы с приведенным примером.

Варианты предоставления в систему примеров изображений включают:

Существующее ранее изображение может быть предоставлено пользователем или выбрано из случайного набора.
Пользователь рисует приблизительное изображение искомого изображения, например, с помощью цветных пятен или общих форм.

Этот метод запросов устраняет трудности, которые могут возникнуть при попытке описать изображения словами.

Семантический поиск

Семантический поиск начинается с того, что пользователь делает запрос типа «найти фотографии Авраама Линкольна». Этот тип неограниченной задачи очень сложен для компьютеров - Линкольн не всегда может смотреть в камеру или находиться в одной и той же позе. Поэтому многие системы CBIR обычно используют функции более низкого уровня, такие как текстура, цвет и форма. Эти функции используются либо в сочетании с интерфейсами, которые упрощают ввод критериев, либо с базами данных, которые уже были обучены сопоставлению функций (таких как лица, отпечатки пальцев или сопоставление форм). Однако в целом поиск изображений требует обратной связи от человека для определения концепций более высокого уровня.

Обратная связь по релевантности (взаимодействие с людьми)

Сочетание методов поиска CBIR, доступных для широкого круга потенциальных пользователей и их намерений, может быть сложной задачей. Один из аспектов успеха CBIR полностью зависит от способности понимать намерения пользователя. Системы CBIR могут использовать обратную связь по релевантности , при которой пользователь постепенно уточняет результаты поиска, отмечая изображения в результатах как «релевантные», «нерелевантные» или «нейтральные» по отношению к поисковому запросу, а затем повторяя поиск с новой информацией. . Были разработаны примеры такого типа интерфейса.

Итеративное / машинное обучение

Машинное обучение и применение итерационных методов становятся все более распространенными в CBIR.

Другие методы запроса

Другие методы запросов включают в себя просмотр, например, изображений, навигацию по настраиваемым / иерархическим категориям, запросы по области изображения (а не по всему изображению), запросы по нескольким примерам изображений, запросы по визуальному эскизу, запросы с прямым указанием функций изображения и мультимодальные запросы ( например, сочетание прикосновения, голоса и т. д.)

Сравнение контента с использованием мер расстояния между изображениями

Наиболее распространенный метод сравнения двух изображений при поиске изображения на основе содержимого (обычно пример изображения и изображение из базы данных) - это использование меры расстояния между изображениями. Мера расстояния между изображениями сравнивает сходство двух изображений в различных измерениях, таких как цвет, текстура, форма и другие. Например, расстояние, равное 0, означает точное совпадение с запросом с учетом рассмотренных измерений. Как можно интуитивно догадаться, значение больше 0 указывает на различную степень сходства между изображениями. Затем результаты поиска можно отсортировать по расстоянию до запрашиваемого изображения. Были разработаны многие меры расстояния между изображениями (модели подобия).

Цвет

Вычисление мер расстояния на основе цветового сходства достигается путем вычисления цветовой гистограммы для каждого изображения, которая определяет долю пикселей в изображении, содержащем определенные значения. Изучение изображений на основе содержащихся в них цветов является одним из наиболее широко используемых методов, поскольку его можно выполнять независимо от размера или ориентации изображения. Тем не менее, в исследованиях также была предпринята попытка сегментировать пропорции цвета по регионам и по пространственным отношениям между несколькими цветовыми регионами.

Текстура

Меры текстуры ищут визуальные закономерности в изображениях и их пространственное определение. Текстуры представлены текселями, которые затем помещаются в несколько наборов, в зависимости от того, сколько текстур обнаружено в изображении. Эти наборы определяют не только текстуру, но и то, где на изображении находится текстура.

Текстуру сложно представить. Идентификация конкретных текстур в изображении достигается, прежде всего, путем моделирования текстуры как двухмерной вариации уровня серого. Относительная яркость пар пикселей вычисляется так, чтобы можно было оценить степень контраста, регулярности, грубости и направленности. Проблема состоит в том, чтобы идентифицировать паттерны вариации сопикселей и связывать их с определенными классами текстур, такими как шелковистая или грубая .

Другие методы классификации текстур включают:

Форма

Форма относится не к форме изображения, а к форме конкретной области, которую ищут. Формы часто определяются сначала путем сегментации или обнаружения краев изображения. Другие методы используют фильтры формы для определения заданных форм изображения. Дескрипторы формы также могут быть инвариантными к перемещению, повороту и масштабированию.

Некоторые дескрипторы формы включают:

Уязвимости, атаки и защиты

Как и другие задачи компьютерного зрения, такие как распознавание и обнаружение, новейшие алгоритмы поиска на основе нейронных сетей подвержены состязательным атакам как в качестве кандидатов, так и в качестве атак по запросу. Показано, что полученное ранжирование может быть радикально изменено лишь небольшими возмущениями, незаметными для человека. Кроме того, также возможны переносимые состязательные примеры, не зависящие от модели, что позволяет проводить состязательные атаки методом черного ящика на системы с глубоким ранжированием, не требуя доступа к их базовым реализациям.

И наоборот, сопротивление таким атакам может быть улучшено с помощью противостоящей защиты, такой как защита Мэдри.

Оценка поиска изображений

Меры поиска изображения могут быть определены с точки зрения точности и запоминания . Однако рассматриваются и другие методы.

Одновременный поиск изображений в системе CBIR разными методами

Изображение извлекается в системе CBIR путем одновременного применения нескольких методов, таких как интеграция индексации кластера пикселей, пересечение гистограммы и методы дискретного вейвлет-преобразования.

Приложения

Возможные варианты использования CBIR:

Архитектурно-инженерное проектирование
Коллекции произведений искусства
Предотвращение преступления
Системы географической информации и дистанционного зондирования
Интеллектуальная собственность
Медицинский диагноз
Военный
Фото архивы
Каталоги розничной торговли
Фильтры обнаружения обнаженной натуры
Поиск лица
Текстильная промышленность

К коммерческим системам, которые были разработаны, относятся:

QBIC от IBM
VIR Image Engine от Virage
Программное обеспечение для поиска изображений Экскалибура
VisualSEEk и WebSEEk
Нетра
МАРС
Фото
Pixolution

Экспериментальные системы включают:

Фотокнига Массачусетского технологического института
WebSEEk Колумбийского университета
Информация Университета Карнеги-Меллона
iSearch - PICT

Смотрите также

использованная литература

дальнейшее чтение

Соответствующие исследовательские работы

Запрос по изображениям и видеоконтенту: система QBIC (Flickner, 1995).
В поисках обнаженных людей (Fleck et al., 1996)
Видеодвигатель Virage , (Хампапур, 1997)
Кодирование на основе библиотеки: представление для эффективного сжатия и поиска видео , (Vasconcelos & Lippman, 1997)
Система проверки нежелательных изображений (Ван и др., 1998)
Content-based Image Retrieval ( JISC Technology Applications Program Report 39) (Eakins & Graham 1999).
Виндсерфинг: поиск изображений по регионам с использованием вейвлетов (Ардиццони, Бартолини и Пателла, 1999)
Вероятностная архитектура для поиска изображений на основе содержимого (Vasconcelos & Lippman, 2000)
Объединяющий взгляд на сходство изображений (Васконселос и Липпман, 2000).
Новое поколение веб-поиска визуального контента (Лью, 2000)
Индексирование изображений с помощью смешанных иерархий (Vasconcelos, 2001)
ПРОСТОТА: Чувствительное к семантике интегрированное сопоставление для библиотек изображений (Ван, Ли и Видерхольд, 2001)
Концептуальный подход к поиску изображений в Интернете (Попеску и Грефенстетт, 2008 г.)
FACERET: интерактивная система поиска лиц, основанная на самоорганизующихся картах (Руис-дель-Солар и др., 2002)
Автоматическое лингвистическое индексирование изображений с помощью метода статистического моделирования (Ли и Ван, 2003 г.)
Видео Google: подход поиска текста для сопоставления объектов в видео (Sivic & Zisserman, 2003)
Минимальная вероятность получения изображения с ошибкой (Vasconcelos, 2004)
Об эффективной оценке вероятностных функций подобия для поиска изображений (Vasconcelos, 2004)
Расширение систем поиска изображений с помощью тезауруса форм (Hove, 2004)
Имена и лица в новостях (Berg et al., 2004)
Cortina: система для крупномасштабного поиска веб-изображений на основе содержимого (Quack et al., 2004)
Новый взгляд на поиск визуальной информации (Эйденбергер, 2004 г.)
Запросы к коллекциям изображений на основе языка на основе расширяемой онтологии (Town and Sinclair, 2004)
Движок персонализированного просмотра изображений PIBE (Бартолини, Чаччиа и Пателла, 2004 г.)
Костюм: новая функция для автоматической индексации видеоконтента (Jaffre 2005)
Автоматическое распознавание лиц для поиска персонажей в полнометражных фильмах (Аранджелович и Зиссерман, 2005)
Значимые пространства изображений (Rouw, 2005)
Content-based Multimedia Information Retrieval: State of the Art and Challenges (Lew et al. 2006).
Адаптивный просмотр баз данных изображений с помощью PIBE (Bartolini, Ciaccia, and Patella, 2006)
Алгоритм, на котором основан Retrievr (поиск Flickr) и imgSeek (Jacobs, Finkelstein, Salesin)
Воображение: использование анализа ссылок для точной аннотации изображения (Бартолини и Чачча, 2007)
Оценка использования интерфейсов для спецификации визуального запроса. (Хоув, 2007)
От пикселей к семантическим пространствам: достижения в поиске изображений на основе содержимого (Васконселос, 2007 г.)
Поиск изображений на основе содержимого путем индексирования случайных подокон с рандомизированными деревьями (Maree et al., 2007)
Поиск изображений: идеи, влияния и тенденции новой эпохи (Datta et al., 2008)
Компьютеризированная аннотация изображений в реальном времени (Ли и Ван, 2008 г.)
Проблемы обработки запросов в региональных базах данных изображений (Bartolini, Ciaccia, and Patella, 2010)
Шиацу: иерархическая автоматическая маркировка видео на основе семантики путем сегментации с использованием сокращений (Бартолини, Пателла и Романи, 2010 г.)
Эффективный и действенный поиск видео на основе сходства (Бартолини и Романи, 2010 г.)
Аннотации и поиск изображений на основе многомерных ключевых слов (Bartolini and Ciaccia, 2010)
Библиотека виндсерфинга для эффективного поиска мультимедийных иерархических данных (Бартолини, Пателла и Стромей, 2011 г.)
« Pl @ ntNet: интерактивная идентификация растений на основе данных социальных изображений » (Джоли, Алексис и др.)
" Поиск изображений на основе содержания (Tyagi, V, 2017)
Superimage: упаковка семантически релевантных изображений для индексации и поиска (Луо, Чжан, Хуан, Гао, Тянь, 2014)
Индексирование и поиск 100 миллионов изображений с помощью Map-Reduce (Моисе, Шестаков, Гудмундссон и Амсалег, 2013 г.)

внешние ссылки

Алхазрадж, Хутафа (09.08.2017). «Исследование для постоянных относительных изображений: Обзор» . Обработка изображений IET . IEEE (обработка изображений). ISSN 1751-9659 . Проверено 22 января 2019 . - оригинальная статья
cbir.info Статьи по CBIR
IJMIR много статей, связанных с CBIR
Поиск по рисунку
Демонстрация визуального поисковика изображений. (Поиск по образцу изображения или цветов)

Languages

In other projects

Поиск изображений на основе содержимого - Content-based image retrieval

СОДЕРЖАНИЕ

История

QBIC - запрос по содержанию изображения

Технический прогресс

Методы

Запрос по примеру

Семантический поиск

Обратная связь по релевантности (взаимодействие с людьми)

Итеративное / машинное обучение

Другие методы запроса

Сравнение контента с использованием мер расстояния между изображениями

Цвет

Текстура

Форма

Уязвимости, атаки и защиты

Оценка поиска изображений

Одновременный поиск изображений в системе CBIR разными методами

Приложения

Смотрите также

использованная литература

дальнейшее чтение

Соответствующие исследовательские работы

внешние ссылки

Languages

In other projects

Поиск изображений на основе содержимого - Content-based image retrieval

История

.mw-parser-output .vanchor>:target~.vanchor-text{background-color:#b1d2ff} QBIC - запрос по содержанию изображения

Технический прогресс

Методы

Запрос по примеру

Семантический поиск

Обратная связь по релевантности (взаимодействие с людьми)

Итеративное / машинное обучение

Другие методы запроса

Сравнение контента с использованием мер расстояния между изображениями

Цвет

Текстура

Форма

Уязвимости, атаки и защиты

Оценка поиска изображений

Одновременный поиск изображений в системе CBIR разными методами

Приложения

Смотрите также

использованная литература

дальнейшее чтение

Соответствующие исследовательские работы

внешние ссылки

QBIC - запрос по содержанию изображения