Распознавание жеста - Gesture recognition

Ребенок ощущается с помощью простого алгоритма распознавания жестов, определяющего местоположение и движение руки
Распознавание жестов обычно обрабатывается в промежуточном программном обеспечении , результаты передаются в пользовательские приложения.

Распознавание жестов - это тема в компьютерных науках и языковых технологиях, цель которой - интерпретировать человеческие жесты с помощью математических алгоритмов . Это одна из дисциплин компьютерного зрения . Жесты могут происходить из любого движения или состояния тела, но обычно исходят от лица или руки . Текущие фокусы в этой области включают распознавание эмоций по лицу и распознаванию жестов рук. Пользователи могут использовать простые жесты для управления устройствами или взаимодействия с ними, не касаясь их физически. Многие подходы были сделаны с использованием камер и алгоритмов компьютерного зрения для интерпретации языка жестов . Однако идентификация и распознавание позы, походки, проксемики и поведения человека также является предметом методов распознавания жестов. Распознавание жестов можно рассматривать как способ для компьютеров начать понимать язык человеческого тела , тем самым создавая более богатый мост между машинами и людьми, чем примитивные текстовые пользовательские интерфейсы или даже графические интерфейсы пользователя (графические пользовательские интерфейсы), которые по-прежнему ограничивают большую часть ввода с клавиатуры. и мышь и взаимодействуют естественно без каких-либо механических устройств.

Обзор

Особенности распознавания жестов:

  • Более точным
  • Высокая стабильность
  • Экономия времени на разблокировку устройства

Основные области применения распознавания жестов в текущем сценарии:

Распознавание жестов может быть выполнено с помощью методов компьютерного зрения и обработки изображений .

Литература включает текущую работу в области компьютерного зрения по улавливанию жестов или более общей позы человека и движений с помощью камер, подключенных к компьютеру.

Распознавание жестов и перьевые вычисления: перьевые вычисления снижают влияние оборудования на систему, а также расширяют диапазон объектов физического мира, которые можно использовать для управления, помимо традиционных цифровых объектов, таких как клавиатуры и мыши. Такие реализации могут позволить создать новый диапазон оборудования, для которого не требуются мониторы. Эта идея может привести к созданию голографического дисплея. Термин «распознавание жестов» используется для более узкого обозначения символов рукописного ввода без ввода текста, таких как рукописный ввод на графическом планшете , мультитач- жесты и распознавание жестов мыши . Это взаимодействие с компьютером посредством рисования символов курсором указывающего устройства. (см. Pen computing )

Типы жестов

В компьютерных интерфейсах различают два типа жестов: мы рассматриваем онлайн-жесты, которые также можно рассматривать как прямые манипуляции, такие как масштабирование и вращение. Напротив, офлайн-жесты обычно обрабатываются после завершения взаимодействия; например, нарисован круг для активации контекстного меню .

  • Автономные жесты: те жесты, которые обрабатываются после взаимодействия пользователя с объектом. Примером может служить жест для активации меню.
  • Онлайн-жесты: жесты прямого управления. Они используются для масштабирования или поворота материального объекта.

Бесконтактный интерфейс

Бесконтактный пользовательский интерфейс - это новая технология, связанная с управлением жестами. Бесконтактный пользовательский интерфейс (TUI) - это процесс управления компьютером с помощью движений тела и жестов без касания клавиатуры, мыши или экрана. Бесконтактный интерфейс в дополнение к управлению жестами становится широко популярным, поскольку они предоставляют возможность взаимодействовать с устройствами, не касаясь их физически.

Типы бесконтактных технологий

Существует ряд устройств, использующих этот тип интерфейса, например смартфоны, ноутбуки, игры, телевидение и музыкальное оборудование.

Один из типов бесконтактного интерфейса использует Bluetooth-соединение смартфона для активации системы управления посетителями компании. Это избавляет от необходимости прикасаться к интерфейсу во время пандемии COVID-19 .

Устройства ввода

Способность отслеживать движения человека и определять, какие жесты они могут выполнять, может быть достигнута с помощью различных инструментов. Кинетические пользовательские интерфейсы (KUI) - это развивающийся тип пользовательских интерфейсов, которые позволяют пользователям взаимодействовать с вычислительными устройствами посредством движения объектов и тел. Примеры KUI включают в себя осязаемые пользовательские интерфейсы и игры с движением, такие как Wii и Microsoft Kinect , а также другие интерактивные проекты.

Несмотря на то, что в области распознавания жестов на основе изображений / видео было проведено большое количество исследований, существуют некоторые различия в инструментах и ​​средах, используемых между реализациями.

  • Проволочные перчатки . Они могут обеспечивать ввод в компьютер информации о положении и вращении рук с использованием магнитных или инерциальных устройств слежения. Кроме того, некоторые перчатки могут обнаруживать сгибание пальцев с высокой степенью точности (5-10 градусов) или даже обеспечивать тактильную обратную связь с пользователем, которая имитирует осязание. Первым коммерчески доступным устройством для отслеживания рук в перчатках было DataGlove, устройство типа перчатки, которое могло определять положение руки, движение и сгибание пальцев. Для этого используются оптоволоконные кабели, идущие вниз по тыльной стороне руки. Создаются световые импульсы, и когда пальцы сгибаются, свет просачивается через небольшие трещины, и регистрируется потеря, что дает приблизительное представление о позе руки.
  • Камеры с функцией определения глубины. Используя специализированные камеры, такие как структурированный свет или времяпролетные камеры , можно создать карту глубины того, что видно через камеру на близком расстоянии, и использовать эти данные для приближения к трехмерному представлению того, что видят. Они могут быть эффективны для обнаружения жестов рук из-за их короткого действия.
  • Стереокамеры . Используя две камеры, отношение которых друг к другу известно, можно аппроксимировать трехмерное представление по выходным сигналам камер. Чтобы получить соотношение камер, можно использовать ссылку позиционирования, такую ​​как лексическая полоса или инфракрасные излучатели. В сочетании с прямым измерением движения ( 6D-Vision ) можно напрямую обнаруживать жесты.
  • Контроллеры на основе жестов. Эти контроллеры действуют как продолжение тела, поэтому при выполнении жестов часть их движения может быть удобно зафиксирована программным обеспечением. Примером зарождающегося захвата движения на основе жестов является отслеживание движения руки скелета , которое разрабатывается для приложений виртуальной и дополненной реальности. Пример этой технологии демонстрируют компании отслеживания uSens и Gestigon , которые позволяют пользователям взаимодействовать со своим окружением без контроллеров.
  • Обнаружение Wi-Fi

Другим примером этого является отслеживание жестов мыши , когда движение мыши соотносится с символом, нарисованным рукой человека, который может изучать изменения ускорения с течением времени для представления жестов. Программное обеспечение также компенсирует тремор человека и непреднамеренное движение. Датчики этих интеллектуальных светоизлучающих кубов могут использоваться для обнаружения рук и пальцев, а также других объектов поблизости и могут использоваться для обработки данных. Большинство приложений относятся к музыке и синтезу звука, но могут применяться и в других областях.

  • Одиночная камера . Стандартная 2D-камера может использоваться для распознавания жестов, если ресурсы / среда не подходят для других форм распознавания на основе изображений. Ранее считалось, что одиночная камера может быть не так эффективна, как стереокамера или камеры с функцией определения глубины, но некоторые компании оспаривают эту теорию. Программная технология распознавания жестов с использованием стандартной 2D-камеры, которая может обнаруживать надежные жесты рук.

Алгоритмы

Существуют различные способы отслеживания и анализа жестов, и на диаграмме выше дана некоторая базовая схема. Например, объемные модели передают информацию, необходимую для тщательного анализа, однако они оказываются очень интенсивными с точки зрения вычислительной мощности и требуют дальнейших технологических разработок для реализации для анализа в реальном времени. С другой стороны, модели, основанные на внешнем виде, легче обрабатывать, но им обычно не хватает универсальности, необходимой для взаимодействия человека с компьютером.

В зависимости от типа входных данных подход к интерпретации жеста может быть различным. Однако большинство методов полагаются на ключевые указатели, представленные в трехмерной системе координат. На основе их относительного движения жест может быть обнаружен с высокой точностью, в зависимости от качества ввода и подхода алгоритма.
Чтобы интерпретировать движения тела, нужно классифицировать их в соответствии с общими свойствами и сообщениями, которые движения могут выражать. Например, на языке жестов каждый жест представляет собой слово или фразу.

В некоторой литературе различают 2 разных подхода к распознаванию жестов: на основе 3D-модели и на основе внешнего вида. Самый передовой метод использует трехмерную информацию о ключевых элементах частей тела, чтобы получить несколько важных параметров, таких как положение ладони или углы суставов. С другой стороны, системы, основанные на внешнем виде, используют изображения или видео для прямой интерпретации.

Настоящая рука (слева) интерпретируется как набор вершин и линий в версии 3D-сетки (справа), и программное обеспечение использует их относительное положение и взаимодействие, чтобы сделать вывод о жесте.

Алгоритмы на основе 3D-моделей

Подход с использованием трехмерных моделей может использовать объемные или скелетные модели или даже их комбинацию. Объемные подходы широко используются в индустрии компьютерной анимации и для целей компьютерного зрения. Модели обычно создаются из сложных трехмерных поверхностей, таких как NURBS или полигональные сетки.

Недостатком этого метода является то, что он требует больших вычислительных ресурсов, а системы для анализа в реальном времени еще не разработаны. На данный момент более интересным подходом было бы сопоставление простых примитивных объектов с наиболее важными частями тела человека (например, цилиндры для рук и шеи, сфера для головы) и анализ их взаимодействия друг с другом. Более того, некоторые абстрактные структуры, такие как суперквадрики и обобщенные цилиндры, могут быть даже более подходящими для аппроксимации частей тела.

Скелетная версия (справа) эффективно моделирует руку (слева). У него меньше параметров, чем у объемной версии, и его легче вычислить, что делает его пригодным для систем анализа жестов в реальном времени.

Скелетные алгоритмы

Вместо интенсивной обработки 3D-моделей и работы с множеством параметров можно просто использовать упрощенную версию параметров угла сочленения вместе с длинами сегментов. Это известно как скелетное представление тела, где вычисляется виртуальный скелет человека и части тела сопоставляются с определенными сегментами. Анализ здесь выполняется с использованием положения и ориентации этих сегментов и отношения между каждым из них (например, угла между суставами и относительного положения или ориентации).

Преимущества использования скелетных моделей:

  • Алгоритмы работают быстрее, потому что анализируются только ключевые параметры.
  • Возможно сопоставление шаблонов с базой данных шаблонов
  • Использование ключевых точек позволяет программе обнаружения сосредоточиться на значительных частях тела.
Эти двоичные изображения силуэта (слева) или контура (справа) представляют собой типичные входные данные для алгоритмов, основанных на внешнем виде. Они сравниваются с разными шаблонами рук, и если они совпадают, делается вывод о соответствующем жесте.

Модели на основе внешнего вида

Эти модели больше не используют пространственное представление тела, потому что они получают параметры непосредственно из изображений или видео с использованием базы данных шаблонов. Некоторые из них основаны на деформируемых 2D-шаблонах частей тела человека, особенно рук. Деформируемые шаблоны - это наборы точек на контуре объекта, используемые в качестве узлов интерполяции для аппроксимации контура объекта. Одна из простейших функций интерполяции - линейная, которая выполняет усреднение формы на основе наборов точек, параметров изменчивости точек и внешних деформаторов. Эти модели на основе шаблонов в основном используются для отслеживания рук, но также могут быть полезны для простой классификации жестов.

Второй подход к обнаружению жестов с использованием моделей на основе внешнего вида использует последовательности изображений в качестве шаблонов жестов. Параметрами для этого метода являются либо сами изображения, либо определенные функции, полученные на их основе. В большинстве случаев используются только один (моноскопический) или два (стереоскопический) вид.

Электромиографические модели

Электромиография (ЭМГ) касается изучения электрических сигналов, производимых мышцами тела. Посредством классификации данных, полученных от мышц руки, можно классифицировать действие и, таким образом, ввести жест во внешнее программное обеспечение. Потребительские устройства EMG позволяют использовать неинвазивные методы, такие как повязка на руку или ногу, и подключаются через Bluetooth. В связи с этим ЭМГ имеет преимущество перед визуальными методами, поскольку пользователю не нужно смотреть в камеру для ввода данных, что обеспечивает большую свободу движений.

Вызовы

Есть много проблем, связанных с точностью и полезностью программного обеспечения для распознавания жестов. Для распознавания жестов на основе изображений существуют ограничения по используемому оборудованию и шуму на изображении . Изображения или видео могут быть не при постоянном освещении или в одном и том же месте. Элементы на заднем плане или отличительные особенности пользователей могут затруднить распознавание.

Разнообразие реализаций распознавания жестов на основе изображений также может вызвать проблемы с жизнеспособностью технологии для общего использования. Например, алгоритм, откалиброванный для одной камеры, может не работать для другой камеры. Уровень фонового шума также вызывает трудности с отслеживанием и распознаванием, особенно при возникновении окклюзии (частичной и полной). Кроме того, расстояние до камеры, разрешение и качество камеры также влияют на точность распознавания.

Чтобы фиксировать человеческие жесты с помощью визуальных датчиков, также требуются надежные методы компьютерного зрения, например, для отслеживания рук и распознавания положения рук или для фиксации движений головы, мимики или направления взгляда.

Социальная приемлемость

Одна из серьезных проблем, связанных с внедрением жестовых интерфейсов на потребительские мобильные устройства, такие как смартфоны и умные часы, проистекает из последствий жестов для социальной приемлемости. Хотя жесты могут способствовать быстрому и точному вводу на многих компьютерах с новым форм-фактором, их внедрение и полезность часто ограничиваются социальными факторами, а не техническими. С этой целью разработчики методов ввода с помощью жестов могут стремиться уравновесить как технические соображения, так и готовность пользователя выполнять жесты в различных социальных контекстах. Кроме того, различное оборудование устройства и механизмы распознавания поддерживают различные типы распознаваемых жестов.

Мобильное устройство

Интерфейсы жестов на мобильных устройствах и устройствах малого форм-фактора часто поддерживаются наличием датчиков движения, таких как инерциальные измерительные блоки (IMU). На этих устройствах распознавание жестов полагается на то, что пользователи выполняют жесты, основанные на движении, которые могут быть распознаны этими датчиками движения. Это потенциально может затруднить захват сигнала от незаметных жестов или жестов с низким движением, поскольку их может стать трудно отличить от естественных движений или шума. Проведя опрос и изучив удобство использования жестов, исследователи обнаружили, что жесты, которые включают в себя легкие движения, которые кажутся похожими на существующие технологии, выглядят или ощущаются одинаково для всех действий и которые доставляют удовольствие, с большей вероятностью будут приняты пользователями, в то время как жесты, которые выглядят странно, неудобно выполнять, мешает общению или связано с необычным движением, из-за которого пользователи с большей вероятностью откажутся от их использования. Социальная приемлемость жестов на мобильных устройствах во многом зависит от естественности жеста и социального контекста.

Накладные и носимые компьютеры

Носимые компьютеры обычно отличаются от традиционных мобильных устройств тем, что их место использования и взаимодействия происходит на теле пользователя. В этих контекстах жестовые интерфейсы могут стать предпочтительнее традиционных методов ввода, поскольку их небольшой размер делает сенсорные экраны или клавиатуры менее привлекательными. Тем не менее, когда дело доходит до жестового взаимодействия, они сталкиваются с теми же проблемами социальной приемлемости, что и мобильные устройства. Однако возможность скрытия носимых компьютеров от глаз или их интеграции с другими повседневными предметами, такими как одежда, позволяет вводить жесты для имитации обычных взаимодействий с одеждой, таких как регулировка воротника рубашки или потирание переднего кармана брюк. Основным фактором при взаимодействии с носимым компьютером является место размещения устройства и взаимодействия с ним. Исследование отношения сторонних лиц к взаимодействию с носимыми устройствами, проведенное в США и Южной Корее, выявило различия в восприятии использования носимых компьютеров у мужчин и женщин, отчасти из-за того, что разные участки тела считаются социально уязвимыми. Другое исследование, посвященное социальной приемлемости проецируемых на тело интерфейсов, показало аналогичные результаты: в обоих исследованиях отмечены области вокруг талии, паха и верхней части тела (для женщин) как наименее приемлемые, а области вокруг предплечья и запястья - как наиболее приемлемые.

Общественные установки

Общедоступные установки , такие как интерактивные публичные дисплеи, позволяют получить доступ к информации и отображать интерактивные средства массовой информации в общественных местах, таких как музеи, галереи и театры. В то время как сенсорные экраны являются частой формой ввода для публичных дисплеев, интерфейсы жестов обеспечивают дополнительные преимущества, такие как улучшенная гигиена, взаимодействие на расстоянии, улучшенная видимость и могут способствовать перформативному взаимодействию. Важным моментом при жестовом взаимодействии с публичными дисплеями является высокая вероятность или ожидания зрительской аудитории.

"Рука гориллы"

«Рука гориллы» была побочным эффектом использования вертикально ориентированного сенсорного экрана или светового пера. В периоды длительного использования руки пользователей начали чувствовать усталость и / или дискомфорт. Этот эффект способствовал упадку сенсорного ввода, несмотря на первоначальную популярность в 1980-х годах.

Чтобы измерить утомляемость руки и побочный эффект руки гориллы, исследователи разработали метод под названием «Потребляемая выносливость».

Смотрите также

использованная литература

внешние ссылки