Анализ слуховых сцен

Материал из wikixw
Перейти к навигации Перейти к поиску

В области восприятия и психофизики , анализ слуховых сцен (ASA) является предложенной моделью для основы слухового восприятия. Это понимается как процесс, посредством которого слуховая система человека организует звук в перцептивно значимые элементы. Этот термин был придуман психологом Альбертом Брегманом .[1] родственным понятием в машинном восприятии является вычислительный слуховой анализ сцены (Каса), который тесно связан с разделением источника и разделением слепого сигнала .

Три ключевых аспекта модели ASA Брегмана: сегментация, интеграция и сегрегация.

Фон[править]

Звук достигает уха, и барабанная перепонка вибрирует как единое целое. Этот сигнал должен быть проанализирован (каким-то образом). Модель ASA Брегмана предполагает, что звуки будут либо слышаться как "интегрированные" (слышимые в целом – во многом как гармония в музыке), либо "сегрегированные" на отдельные компоненты (что приводит к контрапункту). Например, колокол можно услышать как "единый" звук (интегрированный), или некоторые люди могут слышать отдельные компоненты – они могут разделить звук. Это может быть сделано с аккордами, где он может быть услышан как "цвет", или как отдельные ноты. Естественные звуки, такие как человеческий голос , музыкальные инструменты или автомобили, проезжающие по улице, состоят из многих частот, которые способствуют воспринимаемому качеству (например, тембру) звуков. Когда одновременно возникают два или более естественных звука, все составляющие одновременно активных звуков воспринимаются ушами слушателей одновременно или перекрываются во времени. Это ставит их слуховые системы перед проблемой: какие части звука должны быть сгруппированы вместе и рассматриваться как части одного и того же источника или объекта? Группировка их неправильно может привести к тому, что слушатель услышит несуществующие звуки, построенные из неправильных комбинаций исходных компонентов.

Во многих случаях отдельные элементы могут быть соединены вместе во времени, производя слуховой поток. Эту способность аудиального стриминга можно продемонстрировать с помощью так называемого эффекта коктейльной вечеринки . До определенного момента, с несколькими голосами, говорящими одновременно или с фоновыми звуками, один из них может следовать за определенным голосом, даже если присутствуют другие голоса и фоновые звуки.[2] В этом примере ухо отделяет этот голос от других звуков (которые интегрированы), и ум "перетекает" эти отделенные звуки в слуховой поток. Это умение высоко развито музыкантами, в частности дирижерами, которые способны слушать один, два, три или более инструментов одновременно (разделяя их) и следовать за каждым в качестве независимой линии через слуховой поток .

Группировка и потоки[править]

В основе ASA, по-видимому, лежит ряд группирующих принципов, многие из которых связаны с принципами перцептивной организации, обнаруженными школой гештальтпсихологии . Они могут быть широко классифицированы на последовательные механизмы группировки (те, которые работают во времени) и одновременные механизмы группировки (те, которые работают по частоте):

  • Ошибки в одновременной группировке могут привести к смешиванию звуков, которые должны быть услышаны как отдельные, смешанные звуки, имеющие различные воспринимаемые качества (такие как высота тона или тембр) к любому из фактически полученных звуков. Например, два гласных, представленных одновременно, не могут быть идентифицированы, если они разделены.
  • Ошибки в последовательной группировке могут привести, например, к прослушиванию слова, созданного из слогов, происходящих из двух разных голосов.

Сегрегация может основываться главным образом на перцептивных сигналах или опираться на распознавание усвоенных паттернов ("схема на основе").

Работа ASA заключается в том, чтобы сгруппировать входящую сенсорную информацию для формирования точного ментального представления отдельных звуков. Когда звуки группируются слуховой системой в воспринимаемую последовательность, отличную от других сопутствующих последовательностей, каждая из этих воспринимаемых последовательностей называется "слуховым потоком". В реальном мире, если ASA успешен, поток соответствует определенному источнику звука окружающей среды, производящему шаблон, который сохраняется во времени, таком как человек, говорящий, играющий на пианино или лающая собака. Однако в лаборатории, манипулируя акустическими параметрами звуков, можно вызвать восприятие одного или нескольких слуховых потоков.

Одним из примеров этого является явление потоковой передачи, также называемое "сегрегацией потока"."[6] Если два звука, А и в, быстро чередуются во времени, то через несколько секунд восприятие может показаться "расщепленным" так, что слушатель слышит два, а не один поток звука, причем каждый поток соответствует повторению одного из двух звуков, например, А-А-А-А и т. д. в сопровождении B-B-B-и т.д. Тенденция к сегрегации на отдельные потоки поддерживается различиями в акустических свойствах звуков A и B. Среди различий, которые классически показывают, что способствуют сегрегации, есть различия в частоте (для чистых тонов ), основной частоте (для сложных тонов), частотный состав, местоположение источника. Но было высказано предположение, что около любой систематической перцептивной разницы между двумя последовательностями может возникнуть потоковая передача , Если скорость последовательности достаточна.

Интерактивная веб-страница, иллюстрирующая эту потоковую передачу и важность частотного разделения и скорости, может быть найдена здесь.

Экспериментальная база[править]

Многие эксперименты изучали сегрегацию более сложных паттернов звука, таких как последовательность высоких нот различных тонов, перемежающихся с низкими. В таких последовательностях разделение сопутствующих звуков на отдельные потоки оказывает глубокое влияние на то, как они слышатся. Восприятие мелодии формируется легче, если все ее ноты попадают в один и тот же слуховой поток. Мы склонны слышать ритмы среди нот, которые находятся в одном потоке, исключая те, которые находятся в других потоках. Суждения о времени более точны между нотами в одном потоке, чем между нотами в отдельных потоках. Даже воспринимаемое пространственное расположение и воспринимаемая громкость могут быть затронуты последовательной группировкой.

Хотя первоначальные исследования по этой теме были проведены на взрослых людях, недавние исследования показали, что некоторые возможности ASA присутствуют у новорожденных детей, показывая, что они встроены, а не изучены через опыт. Другие исследования показали, что нечеловеческие животные также показывают ASA. В настоящее время ученые изучают активность нейронов в слуховых областях коры головного мозга, чтобы выявить механизмы, лежащие в основе АСК.

Смотрите также[править]