Эффект коктейльной вечеринки

Как человек распознает нужный ему голос в оживленной обстановке

Способность узнавать голоса среди шума и сосредотачиваться на одном диалоге в оживленной обстановке известна как «эффект коктейльной вечеринки»: слушатель способен разделять разные стимулы на отдельные потоки информации и решать, какие из них ему нужны, а какие — нет. Анализируя звуковую информацию, мы определяем, сколько вокруг источников звука, каковы их характеристики, и где находится каждый из них.

Известно, что в шумной обстановке активируется верхняя височная извилина в левом полушарии, где находится основная слуховая кора, а также лобно-теменная область, которая отвечает за обработку речи и контроль внимания и включает нижнюю лобную и верхнюю теменную извилины и внутрипариетальную борозду. Кроме того, было выявлено, что эффект коктейльной вечеринки — бинауральный: люди в наушниках, которым транслируют сигнал и шум только в один канал, хуже распознают сигнал, чем те, кто получает эту информацию через оба канала. Это отчасти связано с тем, что два уха определяют расположение источника звука гораздо точнее; фокусируясь на локализованном в пространстве источнике звука, слуховая система может определять сигналы, исходящие от него. Однако основное преимущество бинауральности состоит в том, что человек способен выбирать лучшее из двух соотношений «сигнал — шум», доступных каждому уху, и использовать его (англ. better-ear listening) либо комбинировать информацию, поступившую в оба уха, и вычленять сигнал из шума.

В начале 1950-х годов эта проблема была актуальна для авиадиспетчеров. В то время они получали сообщения от пилотов через динамики в диспетчерской вышке, и выделить в общем миксе голосов один нужный было чрезвычайно трудной задачей. В 1953 году британский когнитивист Эдвард Колин Черри впервые поднял эту проблему в своих исследованиях, обозначив ее как «проблему коктейльной вечеринки». Его работа показала, что на способность отделять звуки от шума влияют многие переменные, такие как пол говорящего, расположение источника звука, высота и скорость речи. Ученый надевал на испытуемого наушники и передавал разные сообщения в левое и правое ухо, сопровождая их шумами. Участник должен был повторить вслух то, что он слышал в определенном ухе (канале). Оказалось, что испытуемый мог услышать свое имя в канале, за которым он не следил. Этот эксперимент позже воспроизвел Невилл Морей, который обнаружил, что кроме субъективно важных сообщений из другого канала не проникает ничего.

Более поздние исследования показали, что на селективное внимание влияет возраст. С младенчества дети начинают поворачивать голову на знакомые им звуки, такие как голоса их родителей. Способность отфильтровывать шумовые стимулы достигает своего пика в молодом возрасте и затем начинает угасать. Пожилым людям труднее, чем молодым, сосредоточиться на разговоре, если конкурирующие стимулы, такие как субъективно важные сообщения, создают фоновый шум. Кроме того, пожилым людям требуется больше времени на обработку и различение отдельных потоков информации.

Одно из объяснений феномена селективного внимания известно как «модель фильтра». Ее предложил Дональд Бродбент. В его экспериментах большинство участников с точностью воспроизводили информацию, к которой они прислушивались специально, но у них возникали сложности с воспроизведением информации, на которую они не обращали внимания. Исследователь предположил, что в мозге есть механизм фильтра, блокирующий такую информацию. Когда информация поступает в мозг через органы чувств (в данном случае в уши), она сохраняется в сенсорной памяти. Перед дальнейшей обработкой фильтр пропускает только необходимую информацию, которая может выбираться на основе ее физических характеристик, таких как местоположение и громкость. Однако в этой модели не учитывается то, что слова семантической важности, например собственное имя человека, могут мгновенно обрабатываться, несмотря на то что они поступают из канала, на который испытуемый не обращает внимания.

Энн Трейсман предложила теорию ослабления. В этой модели механизм фильтрации не полностью блокирует шумовую информацию, а лишь ослабляет ее, что позволяет ей проходить через все этапы обработки на бессознательном уровне. Трейсман также предположила существование порогового механизма, посредством которого некоторые слова из «шумового потока», исходя из смысловой важности, могут привлечь внимание человека. Например, имя человека имеет высокий уровень смысла и, соответственно, низкое пороговое значение, поэтому распознается легче. Другая модель, предложенная Дианой Дойч, предполагает существование второго механизма, который фильтрует информацию на основе ее значения. Даниэль Канеман рассматривает внимание как ресурс, который распределяется между различными стимулами и концентрируется не на том, когда внимание сфокусировано, а как именно оно сфокусировано. Согласно его идее, внимание определяется возбуждением, то есть когда фоновые шумы слишком многочисленные и сложные, человеку становится трудно распознавать слуховые раздражители. Это говорит о негативном влиянии чрезмерного возбуждения на внимание.

Создание системы, способной вычленять важную информацию в шуме, — одна из задач, которую ставят перед собой разработчики искусственного интеллекта.