Зрительное восприятие - Visual perception

Визуальное восприятие - это способность интерпретировать окружающую среду с помощью цветового зрения , скотопического зрения и мезопического зрения , используя свет в видимом спектре, отраженный объектами в окружающей среде . Это отличается от остроты зрения , которая относится к тому, насколько ясно человек видит (например, «зрение 20/20»). У человека могут быть проблемы с обработкой зрительного восприятия, даже если у него зрение 20/20.

Возникающее в результате восприятие также известно как зрение , зрение или зрение (соответствующая форма прилагательного : визуальный , оптический или окулярный ). Различные физиологические компоненты, участвующие в зрении, вместе называются зрительной системой и являются предметом многих исследований в лингвистике , психологии , когнитивной науке , нейробиологии и молекулярной биологии , которые вместе именуются наукой о зрении .

Визуальная система

У людей и ряда других млекопитающих свет проникает в глаз через роговицу и фокусируется линзой на сетчатке , светочувствительной мембране в задней части глаза. Сетчатка служит преобразователем для преобразования света в нейронные сигналы . Это преобразование достигается с помощью специализированных фоторецептивных клеток сетчатки, также известных как палочки и колбочки, которые обнаруживают фотоны света и реагируют, производя нервные импульсы . Эти сигналы передаются с помощью зрительного нерва , от сетчатки глаза вверх по течению к центральным ганглиям в головном мозге . Боковое коленчатое ядро , который передает информацию в зрительной коре . Сигналы от сетчатки также проходят непосредственно от сетчатки к верхнему бугорку .

Боковое коленчатое ядро ​​посылает сигналы в первичную зрительную кору , также называемую полосатой корой. Экстрастриатная кора , также называемая корой визуальных ассоциаций, представляет собой набор корковых структур, которые получают информацию от полосатой коры, а также друг от друга. Недавние описания зрительной ассоциации коры описывают разделение на два функциональных пути, вентральный и дорсальный . Эта гипотеза известна как гипотеза двух потоков .

Обычно считается, что зрительная система человека чувствительна к видимому свету в диапазоне длин волн от 370 до 730 нанометров (от 0,00000037 до 0,00000073 метра) электромагнитного спектра . Однако некоторые исследования показывают, что люди, особенно молодые, могут воспринимать свет с длинами волн до 340 нанометров (УФ-А). В оптимальных условиях эти пределы человеческого восприятия могут простираться от 310 нм ( УФ ) до 1100 нм ( БИК ).

Учиться

Основная проблема зрительного восприятия заключается в том, что то, что видят люди, - это не просто перевод стимулов сетчатки (т. Е. Изображения на сетчатке). Таким образом, люди, интересующиеся восприятием, долгое время изо всех сил пытались объяснить, что делает визуальная обработка для создания того, что на самом деле видно.

Ранние исследования

Показаны визуальный дорсальный поток (зеленый) и вентральный поток (фиолетовый). Большая часть коры головного мозга человека задействована в зрении.

Существовали две основные древнегреческие школы, дававшие примитивное объяснение того, как работает зрение.

Первой была « эмиссионная теория » зрения, которая утверждала, что зрение возникает, когда лучи исходят из глаз и перехватываются визуальными объектами. Если объект был виден прямо, это происходило «посредством лучей», выходящих из глаз и снова падающих на объект. Однако преломленное изображение также можно было увидеть с помощью `` лучей '', которые выходили из глаз, проходили по воздуху и после преломления падали на видимый объект, который был замечен в результате движения лучей. из глаз. Эта теория была отстаивали учеными , которые были последователями Евклида «s Оптика и Птолемей » ы оптики .

Вторая школа отстаивала так называемый подход «интромиссии», согласно которому зрение исходит от чего-то, входящего в глаза, представляющего объект. Со своими основными пропагандистами Аристотелем ( De Sensu ), Галеном ( De Usu Partium Corporis Humani ) и их последователями эта теория, кажется, имеет некоторый контакт с современными теориями о том, что такое зрение на самом деле, но это оставалось лишь предположением, не имеющим какого-либо экспериментального основания. (В Англии восемнадцатого века Исаак Ньютон , Джон Локк и другие продвинули теорию интромиссии видения, настаивая на том, что видение включает процесс, в котором лучи, состоящие из реальной материальной материи, исходят от видимых объектов и проникают в сознание видящего / сенсориум через отверстие глаза.)

Обе школы мысли основывались на принципе, что «подобное познается только подобным», и, таким образом, на представлении о том, что глаз состоит из некоего «внутреннего огня», который взаимодействует с «внешним огнем» видимого света и делает возможным зрение. Платон делает это утверждение в своем диалоге « Тимей» (45b и 46b), как и Эмпедокл (как сообщает Аристотель в его De Sensu , DK frag. B17).

Леонардо да Винчи : У глаза есть центральная линия, и все, что достигает глаза через эту центральную линию, можно увидеть отчетливо.

Альхазен (965 - ок. 1040) провел множество исследований и экспериментов по зрительному восприятию, расширил работы Птолемея по бинокулярному зрению и прокомментировал анатомические работы Галена. Он был первым, кто объяснил, что зрение возникает, когда свет отражается от объекта, а затем направляется в глаза.

Леонардо да Винчи (1452–1519) считается первым, кто распознал особые оптические качества глаза. Он писал: «Функция человеческого глаза ... определенным образом описывалась многими авторами. Но я обнаружил, что это совершенно другое». Его главное экспериментальное открытие заключалось в том, что есть только отчетливое и ясное зрение на линии взгляда - оптической линии, которая заканчивается в ямке . Хотя он не использовал эти слова буквально, он фактически является отцом современного различия между фовеальным и периферическим зрением .

Исаак Ньютон (1642–1726 / 27) был первым, кто экспериментально обнаружил, выделив отдельные цвета спектра света, проходящего через призму , что визуально воспринимаемый цвет объектов появляется из-за характера света, который отражаются объектами, и что эти разделенные цвета нельзя было изменить на какой-либо другой, что противоречит научным ожиданиям того времени.

Бессознательный вывод

Герману фон Гельмгольцу часто приписывают первое современное исследование визуального восприятия. Гельмгольц исследовал человеческий глаз и пришел к выводу, что он неспособен производить высококачественное изображение. Недостаток информации, казалось, делал видение невозможным. Поэтому он пришел к выводу, что зрение может быть только результатом некоторой формы «бессознательного вывода», придумав этот термин в 1867 году. Он предположил, что мозг делает предположения и выводы из неполных данных, основанных на предыдущем опыте.

Для вывода требуется предварительный опыт мира.

Примеры хорошо известных предположений, основанных на визуальном опыте:

  • свет идет сверху
  • объекты обычно не просматриваются снизу
  • лица видны (и распознаются) в вертикальном положении.
  • более близкие объекты могут блокировать обзор более удаленных объектов, но не наоборот
  • фигуры (например, объекты переднего плана) имеют выпуклые границы

Изучение визуальных иллюзий (случаев, когда процесс вывода идет не так, как надо) дало много понимания того, какие предположения делает зрительная система.

Другой тип гипотезы бессознательного вывода (основанный на вероятностях) недавно был возрожден в так называемых байесовских исследованиях зрительного восприятия. Сторонники этого подхода считают, что зрительная система выполняет некоторую форму байесовского вывода, чтобы получить восприятие на основе сенсорных данных. Однако неясно, как сторонники этой точки зрения в принципе выводят соответствующие вероятности, требуемые уравнением Байеса. Модели, основанные на этой идее, использовались для описания различных функций зрительного восприятия, таких как восприятие движения , восприятие глубины и восприятие фигуры и фона . « Полностью эмпирическая теория восприятия » - это связанный и более новый подход, который рационализирует визуальное восприятие без явного обращения к байесовским формализмам.

Гештальт-теория

Гештальт-психологи, работавшие в основном в 1930-х и 1940-х годах, подняли многие исследовательские вопросы, которые сегодня изучаются зрительными учеными.

Гештальт-законы организации руководили исследованием того, как люди воспринимают визуальные компоненты как организованные паттерны или целые, а не как множество различных частей. «Гештальт» - это немецкое слово, которое частично переводится как «конфигурация или образец» вместе с «цельной или возникающей структурой». Согласно этой теории, существует восемь основных факторов, которые определяют, как зрительная система автоматически группирует элементы в шаблоны: Близость, Сходство, Замыкание, Симметрия, Общая судьба (то есть общее движение), Непрерывность, а также Хороший Гештальт (шаблон, который является регулярным, простой и упорядоченный) и прошлый опыт.

Анализ движения глаз

Движение глаз первые 2 секунды ( Ярбус , 1967)

В течение 1960-х годов технические разработки позволили непрерывно регистрировать движение глаз во время чтения, просмотра изображений, а затем и при решении проблем со зрением, а когда стали доступны камеры с гарнитурой, также во время вождения.

На картинке справа показано, что может произойти в течение первых двух секунд визуального осмотра. В то время как фон не в фокусе, представляя периферийное зрение , первое движение глаз идет на ботинки человека (просто потому, что они находятся очень близко к начальной фиксации и имеют разумный контраст). Движение глаз выполняет функцию выделения внимания , т. Е. Отбирает часть всех визуальных входов для более глубокой обработки мозгом.

Следующие фиксации перескакивают с лица на лицо. Они могут даже позволить сравнения лиц.

Можно сделать вывод, что лицо значка является очень привлекательным значком для поиска в периферийном поле зрения. Фовеальное видение добавляет подробную информацию периферического первого впечатление .

Также можно отметить, что существуют различные типы движений глаз: фиксирующие движения глаз ( микросаккады , смещение глаз и тремор), движения вергентности, саккадические движения и движения преследования. Фиксация - это сравнительно статичные точки, на которых отдыхает глаз. Однако глаз никогда не бывает полностью неподвижным, а позиция взгляда будет дрейфовать. Эти отклонения, в свою очередь, корректируются микросаккадами, очень небольшими фиксирующими движениями глаз. Вергентные движения включают взаимодействие обоих глаз, чтобы изображение попадало на одну и ту же область обеих сетчаток. В результате получается одно сфокусированное изображение. Саккадические движения - это тип движения глаз, который совершает прыжки из одной позиции в другую и используется для быстрого сканирования конкретной сцены / изображения. Наконец, движение преследования - это плавное движение глаз, которое используется для отслеживания движущихся объектов.

Распознавание лиц и объектов

Существует множество свидетельств того, что распознавание лиц и объектов осуществляется разными системами. Например, пациенты с прозопагнозом демонстрируют недостатки в обработке лица, но не в обработке объектов, в то время как пациенты, страдающие объектной агнозией (в первую очередь, пациент CK ), демонстрируют недостатки в обработке объектов при сохранении обработки лица. С точки зрения поведения было показано, что лица, но не объекты, подвержены эффектам инверсии, что приводит к утверждению, что лица «особенные». Кроме того, обработка лиц и объектов задействует разные нейронные системы. Примечательно, что некоторые утверждали, что очевидная специализация человеческого мозга для обработки лиц не отражает истинную специфику предметной области, а скорее является более общим процессом различения на уровне эксперта в рамках данного класса стимулов, хотя последнее утверждение является предметом существенных дебаты . Используя фМРТ и электрофизиологию, Дорис Цао и его коллеги описали области мозга и механизм распознавания лиц у макак.

Нижневисочной коры головного мозга играет ключевую роль в задаче распознавания и дифференциации различных объектов. Исследование Массачусетского технологического института показывает, что подмножество областей ИТ-коры отвечает за разные объекты. Избирательно отключая нейронную активность многих небольших участков коры, животное поочередно становится неспособным различать определенные пары объектов. Это показывает, что ИТ-кора разделена на области, которые реагируют на различные и определенные визуальные функции. Точно так же определенные участки и области коры головного мозга в большей степени участвуют в распознавании лиц, чем в распознавании других объектов.

Некоторые исследования, как правило, показывают, что, когда мозгу необходимо распознать объект на изображении, ключевыми элементами являются не единое глобальное изображение, а некоторые конкретные особенности и интересующие области объектов. Таким образом, человеческое зрение уязвимо для небольших конкретных изменений изображения, таких как нарушение границ объекта, изменение текстуры или любое небольшое изменение в важной области изображения.

Исследования людей, чье зрение было восстановлено после долгой слепоты, показывают, что они не обязательно могут узнавать предметы и лица (в отличие от цвета, движения и простых геометрических форм). Некоторые предполагают, что слепота в детстве препятствует правильному развитию какой-то части зрительной системы, необходимой для выполнения этих высокоуровневых задач. Общее мнение о том, что критический период длится до 5 или 6 лет, было опровергнуто исследованием 2007 года, которое показало, что пожилые пациенты могут улучшить эти способности с годами воздействия.

Когнитивный и вычислительный подходы

В 1970-х Дэвид Марр разработал многоуровневую теорию зрения, которая анализировала процесс зрения на разных уровнях абстракции. Чтобы сосредоточиться на понимании конкретных проблем зрения, он выделил три уровня анализа: вычислительный , алгоритмический и реализационный . Многие специалисты по зрению, в том числе Томазо Поджио , приняли эти уровни анализа и использовали их для дальнейшей характеристики зрения с вычислительной точки зрения.

В вычислительном уровне адрес, на высоком уровне абстракции, проблемы, зрительная система должны преодолеть. На алгоритмических уровне попытки определить стратегию , которая может быть использована для решения этих проблем. Наконец, на уровне реализации делается попытка объяснить, как решения этих проблем реализуются в нейронных схемах.

Марр предположил, что можно независимо исследовать зрение на любом из этих уровней. Марр описал зрение как переход от двухмерного визуального массива (на сетчатке глаза) к трехмерному описанию мира в качестве результата. Его стадии видения включают:

  • 2D или первобытный эскиз сцены, на основе выделения признаков основных компонентов сцены, в том числе краев, областей и т.д. Обратите внимание на сходство в концепции с карандашом эскиза нарисованного быстро художником как впечатление.
  • 2 1 / 2 D эскиз сцены, где текстуры признаваемая и т.д. Обратите внимание на сходство в концепции на этап в рисунке , где художник выдвигает на первый план или оттенки участков сцены, чтобы обеспечить глубину.
  • Модель 3 Д , где сцена визуализируется в непрерывном, 3-мерной карте.

Набросок Марра 2 12 D предполагает, что карта глубины построена, и что эта карта является основой восприятия трехмерной формы. Однако как стереоскопическое, так и графическое восприятие, а также монокулярный просмотр ясно показывают, что восприятие трехмерной формы предшествует восприятию глубины точек, а не зависит от него. Неясно, как в принципе может быть построена предварительная карта глубины, и как она решит вопрос об организации или группировке фигурного фона. Роль организационных ограничений восприятия, на которые не обращал внимания Марр, в создании восприятий трехмерных форм из трехмерных объектов, наблюдаемых в бинокль, была продемонстрирована эмпирически на примере трехмерных проволочных объектов, например, для более подробного обсуждения см. Pizlo (2008).

Более поздняя, ​​альтернативная структура предлагает, чтобы видение состояло из следующих трех этапов: кодирования, выбора и декодирования. Кодирование предназначено для выборки и представления визуальных входов (например, для представления визуальных входов как нейронных активностей в сетчатке глаза). Выбор, или выбор внимания , заключается в выборе крошечной части входной информации для дальнейшей обработки, например, путем перемещения взгляда на объект или визуальное местоположение, чтобы лучше обрабатывать визуальные сигналы в этом месте. Декодирование заключается в том, чтобы сделать вывод или распознать выбранные входные сигналы, например, чтобы распознать объект в центре взгляда как чье-то лицо. В этой структуре выбор внимания начинается с первичной зрительной коры вдоль зрительного пути, а ограничения внимания накладывают дихотомию между центральными и периферическими полями зрения для визуального распознавания или декодирования.

Трансдукция

Трансдукция - это процесс, посредством которого энергия стимулов окружающей среды преобразуется в нейронную активность. Сетчатка содержит три различных клеточных слоев: слой фоторецептора, биполярное слой клеток и ганглиозных клеток слоя. Слой фоторецепторов, в котором происходит трансдукция, находится дальше всего от линзы. Он содержит фоторецепторы с разной чувствительностью, называемые палочками и колбочками. Колбочки отвечают за восприятие цвета и бывают трех различных типов: красного, зеленого и синего. Жезлы отвечают за восприятие предметов при слабом освещении. Фоторецепторы содержат в себе особое химическое вещество, называемое фотопигментом, которое встроено в мембрану ламелей; в одном человеческом жезле их примерно 10 миллионов. Молекулы фотопигмента состоят из двух частей: опсина (протеина) и ретиналя (липида). Есть 3 определенных фотопигмента (каждый со своей чувствительностью к длине волны), которые реагируют в спектре видимого света. Когда подходящие длины волн (те, к которым чувствителен конкретный фотопигмент) попадают на фоторецептор, фотопигмент разделяется на два, которые посылают сигнал слою биполярных клеток, который, в свою очередь, посылает сигнал ганглиозным клеткам, аксоны которых образуют зрительного нерва и передают информацию в мозг. Если определенный тип колбочек отсутствует или является ненормальным из-за генетической аномалии, возникает дефицит цветового зрения , иногда называемый дальтонизмом.

Противник процесс

Трансдукция включает в себя химические сообщения, отправляемые от фоторецепторов биполярным клеткам к ганглиозным клеткам. Несколько фоторецепторов могут отправлять свою информацию в одну ганглиозную клетку. Есть два типа ганглиозных клеток: красные / зеленые и желтые / синие. Эти нейроны постоянно возбуждаются, даже если их не стимулировать. Мозг интерпретирует разные цвета (и с большим количеством информации, изображение), когда изменяется скорость возбуждения этих нейронов. Красный свет стимулирует красный конус, который, в свою очередь, стимулирует красно-зеленые ганглиозные клетки. Точно так же зеленый свет стимулирует зеленый конус, который стимулирует зеленую / красную ганглиозную клетку, а синий свет стимулирует синий конус, который стимулирует синюю / желтую ганглиозную клетку. Скорость возбуждения ганглиозных клеток увеличивается, когда это сигнализируется одним конусом, и снижается (подавляется), когда это сигнализируется другим конусом. Первый цвет в названии ганглиозной клетки - это цвет, который ее возбуждает, а второй - цвет, который ее подавляет. то есть: красный конус будет возбуждать красную / зеленую ганглиозную клетку, а зеленый конус будет подавлять красную / зеленую ганглиозную клетку. Это процесс оппонента . Если скорость активации красно-зеленой ганглиозной клетки увеличится, мозг будет знать, что свет был красным, если скорость была уменьшена, мозг узнал бы, что цвет света был зеленым.

Искусственное зрительное восприятие

Теории и наблюдения визуального восприятия были основным источником вдохновения для компьютерного зрения (также называемого машинным зрением или вычислительным зрением). Специальные аппаратные структуры и программные алгоритмы предоставляют машинам возможность интерпретировать изображения, поступающие с камеры или датчика.

Например, Toyota 86 2022 года использует систему Subaru EyeSight для технологии помощи водителю .

Смотрите также

Недостатки или нарушения зрения

Связанные дисциплины

использованная литература

дальнейшее чтение

внешние ссылки