как мозг обманывает нас при восприятии речи на HSE Design

Голос, который я слышу, когда говорю, — это совсем не тот голос, который слышат другие. Мой собственный голос доносится до меня изнутри, из костей моего черепа, из глубин моего тела. Это самый интимный звук на свете, и именно поэтому его запись всегда кажется нам чужой

— Эдвард Йердж (Edward Yeager)

Концепция

В современном мире мы окружены цифровым звуком: общаемся голосовыми сообщениями, записываем подкасты, созваниваемся в зуме и отправляем аудиосообщения в мессенджерах. Наш голос стал главным инструментом взаимодействия с цифровой средой. Однако почти каждый человек сталкивается с удивительным парадоксом: когда мы слышим запись собственного голоса на диктофоне, мы испытываем сильный дискомфорт и отторжение. Нам кажется, что этот голос чужой, плоский, неприятный и «вообще не мой».

В психологии этот феномен даже получил официальное название — «голосовая конфронтация»

Исходный размер 670x377

Голосовая конфронтация — явление, при котором люди испытывают дискомфорт от звука собственного голоса.

Я выбрал тему «Как мозг обманывает нас при восприятии речи» неслучайно. Помимо учебы на саунд-дизайне, я преподаю вокал. На занятиях мои ученики постоянно сталкиваются с этой проблемой: они часто говорят, что им физически сложно воспринимать свой голос на диктофоне во время исполнения — в записи он звучит для них совсем по-другому, непривычно и часто даже отталкивающе. Наблюдая за этим изо дня в день, я решил глубоко разобраться в природе этого явления.

Как музыканту, мне важно понимать, как человек воспринимает звуки, как устроена психоакустика и почему возникает этот когнитивный диссонанс между «внутренним» и «внешним» аудиообразом. Также я захотел разобраться, как мозг обрабатывает речь и почему реальный физический звук может так сильно отличаться от наших ментальных ожиданий.

Концепция исследования заключается в том, чтобы проанализировать этот невидимый конфликт между биологическими иллюзиями нашего тела и объективной цифровой фиксацией звука.

Исходный размер 400x400

Диктофон обнажает «голосовую конфронтацию»

Введение. Архитектура синестезии: от физической волны к ментальному образу.

Чтобы понять, почему запись собственного голоса вызывает у нас когнитивный диссонанс, необходимо разрушить главный миф психоакустики: человеческое ухо — это не микрофон, а мозг — не линейный диктофон.

В физическом мире звука в привычном понимании нет. Есть лишь невидимые колебания воздуха (Стретт, 1877). А вот саму «речь» и «смысл» конструирует наш мозг. Наше восприятие работает по принципу «нисходящего процесса» (Грегори, 1970). Это значит, что мозг не просто пассивно слушает то, что приходит снаружи. Он работает как активный прогнозист: собирает звуки и накладывает на них наши ожидания, прошлый опыт и то, что мы видим глазами в этот момент.

Исходный размер 0x0

Джон Уильям Стретт — англ.физик. Он первым математически и физически описал, как звуковая волна ведёт себя в воздухе, как она огибает препятствия (например, человеческую голову) и затухает.

Исходный размер 1200x630

Ричард Грегори — британский психолог, который всю жизнь изучал иллюзии и то, как мы видим и слышим мир.

Наш мозг, словно саунд-дизайнер, постоянно занимается «апскейлингом» и чисткой звука, каждую секунду сглаживает окружающие шумы и адаптирует входящую аудиоволну под наши внутренние стандарты (создавая иллюзию идеального слуха).

Глава 1. История экранного монтажа

Эффект Мак-Гурка

Как преподаватель вокала, я постоянно повторяю ученикам, что артикуляция — это неотъемлемая часть пения. Но самое интересное начинается тогда, когда в игру вступает зрение постороннего наблюдателя. Оказывается, наши глаза могут буквально переписать то, что слышат наши уши.

В психоакустике этот феномен называется эффектом Мак-Гурка (McGurk & MacDonald, 1976).

Эксперимент: эффект Мак-Гурка

Эксперимент, который они провели, до гениальности прост, но его результаты сносят крышу. Испытуемому включают аудиозапись, где диктор четко произносит слог «БА-БА». Одновременно с этим на экране показывают видеоряд, где тот же диктор беззвучно артикулирует губами совершенно другой слог — «ГА-ГА».

Тут происходит магия восприятия. Мозг получает два конфликтующих сигнала: уши слышат «БА», глаза видят «ГА». Вместо того чтобы выбрать что-то одно или сойти с ума от когнитивного диссонанса, мозг мгновенно синтезирует компромисс — и человек абсолютно четко слышит третий слог: «ДА-ДА». Но стоит испытуемому закрыть глаза — он снова слышит исходное «БА-БА». Открывает — и зрение вновь диктует ушами.

Зрительная кора просто берет и перепрошивает фонетику физического звука (см. видео выше).

Эффект Кулешова

Саунд-дизайнерам и режиссерам монтажа этот баг восприятия знаком на интуитивном уровне уже очень давно. За полвека до официального открытия эффекта Мак-Гурка советские киноавангардисты во главе со Львом Кулешовым открыли фундаментальный закон кинематографа. Эффект Кулешова (1929) доказал: смысл кадра полностью меняется в зависимости от того, с каким следующим кадром он склеен (лицо актера + тарелка супа = голод; лицо актера + гроб = скорбь).

Исходный размер 1042x1280

Лев Владимирович Кулешов (1899–1970). Крёстный отец всего мирового киномонтажа.

Когда в кино пришел звук, этот принцип моментально масштабировался на аудиовизуальный ряд. Режиссер Дзига Вертов в своей работе «Человек с киноаппаратом» (1929) начал экспериментировать с радио-ухом и монтажом звука, создавая концепцию «слышу-вижу». Выяснилось, что склейка кадров способна полностью переписать интонацию, подтекст и даже само значение произнесенного на экране слова.

Исходный размер 882x1280

Реж. Дзига Вертов (1929)

Если мы видим на экране крупный план яростного, сжатого кулака, а за кадром звучит спокойный вздох — мозг считает этот вздох затаенной обидой или сдерживаемой агрессией. Но если тот же самый вздох наложить на кадр с бескрайним полем и закатом — ухо мгновенно «услышит» в нем облегчение и умиротворение. Физический аудиофайл один и тот же, но оптический контекст выступает в роли главного эквалайзера и редактора смысла.

Глава 2. Анатомический микшер

Если в первой главе мы рассматривали, как внешние медиа (киноэкран и монтажная склейка) способны подчинить себе наш слух, то во второй главе мы спустимся на уровень чистой физиологии. Самый близкий и интимный пример того, как сильно ментальный аудиообраз отличается от реальной звуковой волны, скрыт внутри нашей собственной головы.

Исходный размер 1199x768

«Наш собственный голос — единственный звук, который мы слышим одновременно изнутри и снаружи. Он укоренен в костях нашего черепа, и когда техника отделяет его от тела, мы чувствуем жуткое одиночество»

— Ги Скарпетта, французский писатель и критик

Как я и говорил ранее, в своей практике преподавания я сталкиваюсь с этим постоянно: когда студент впервые слышит свою рабочую запись на диктофоне, его лицо искажает гримаса отторжения. Нам физически неприятен собственный голос со стороны, он кажется нам чужим, слишком высоким и звенящим.

Причина этого диссонанса кроется в том, что человеческое ухо — это не стерильный студийный микрофон…

Наше восприятие — это кастомный анатомический микшер, который собирает звук по двум абсолютно разным каналам:

1. Воздушная проводимость (Air Conduction):

Звуковая волна выходит изо рта, рассеивается в пространстве, летит по воздуху, залетает в ушную раковину и бьет по барабанной перепонке. Так наш голос слышат друзья, коллеги и мембрана диктофона.

Исходный размер 736x414

2. Костная проводимость (Bone Conduction):

Когда мы поем или говорим, наши голосовые связки и гортань вибрируют. Эта механическая вибрация передается напрямую через тяжелые кости черепа к внутреннему уху — улитке, полностью минуя барабанную перепонку (Békésy, 1949).

Для наглядности обратимся к графику клинической аудиограммы, которая фиксирует пороги слышимости для обоих каналов:

Исходный размер 700x700

Аудиограмма: костная и воздушная проводимость

Обратите внимание на разрыв между двумя кривыми (в аудиологии это называется костно-воздушным интервалом или Air-Bone Gap). Плотные кости нашего черепа работают как культовый аналоговый эквалайзер в хорошей студии: они выступают в роли природного фильтра низких частот (Low-pass filter). Они гасят высокие, свистящие частоты, но идеально проводят и даже резонансно усиливают суб-басовый, глубокий спектр нашего голоса.

Когда мы разговариваем, наш мозг суммирует эти каналы. Мы привыкаем воспринимать себя «акустически богатыми», с приятным объемом внизу. Но стоит включить запись, как костный канал мгновенно отключается. Мы остаемся один на один с оголенной «воздушной» копией. Мозг моментально считывает это как ошибку восприятия: «Это что, мой голос?»

От анатомии к саунд-дизайну

Для медиадизайнера этот костно-воздушный разрыв — важнейший инструмент для программирования эмоций зрителя. Понимая, как мозг разделяет внешние и внутренние звуки, мы можем искусственно управлять дистанцией между контентом и пользователем.

Когда звукорежиссеру в кино, рекламе или подкастах нужно создать у зрителя ощущение, что закадровый голос — это внутренний монолог персонажа, его интимные мысли или голос его совести, он намеренно имитирует эффект костной проводимости.

Исходный размер 500x280

Диктора записывают на ультра-близком расстоянии к чувствительному микрофону (используя так называемый «эффект близости» или proximity effect), а затем на постпродакшене эквалайзером жестко срезают верхний «воздушный» звон и искусственно завышают частоты в районе 100 — 200 { Гц}.

Мозг зрителя ловит этот аудиосигнал, обрабатывает его через свой нисходящий процесс и, распознавая паттерны «внутричерепного» звука, моментально начинает подсознательно доверять этому голосу как своему собственному. Мы обманываем ухо, заставляя его поверить, что звук рождается внутри нашей головы, хотя он идет из плоского динамика смартфона.

Глава 3. Принципы заполнения пустоты в графике и звуке

Как вокалист, я знаю, что для связного пропевания фразы (на легато) необязательно маниакально пропевать каждую букву. Наш артикуляционный аппарат ленив. В реальной быстрой речи мы постоянно «проглатываем» окончания, усекаем согласные и размываем гласные. Но почему тогда мы идеально понимаем друг друга?

В психоакустике за это отвечает поразительный феномен — эффект фонематической реставрации (Phonemic Restoration Effect) (Warren, 1970).

Американский ученый Ричард Уоррен провел эксперимент, ставший классикой. Он записал на пленку простую фразу. Затем взял акустические ножницы и физически вырезал из аудиофайла один единственный звук «с» в середине слова. Вместо него он вставил точно такой же по длительности кусок громкого кашля.

Исходный размер 500x281

Логично предположить, что слушатели должны были заметить дыру или споткнуться об оборванное слово. Но произошло обратное. Испытуемые не просто без проблем поняли контекст — они физически услышали вырезанный звук «с» сквозь кашель! Более того, никто из них не смог точно определить, в какой именно момент диктор закашлялся. Мозг не просто замазал дефект, он провел полноценный аудиомонтаж в подсознании и заново сгенерировал звук, которого физически не было на записи.

Но самое безумное в опытах Уоррена открылось позже: если этот же звук вырезать, а на его месте оставить абсолютную тишину, магия исчезает (Warren & Sherman, 1974). Мозг мгновенно фиксирует пустоту, спотыкается об нее, и реставрация ломается. Мозгу как воздух нужен посторонний шум — акустическая стена, за которой он сможет спрятать свою подтасовку.

Как мозг слышит прошлое через будущее?

Еще точнее Уоррен доказал этот трюк в своем следующем эксперименте, где испытуемым включали четыре абсолютно одинаковые аудиозаписи. В каждой из них первое слово было искусственно повреждено шумом: ученый вырезал первую букву, и физически на пленке оставался лишь огрызок слова: «…*eel».

Исходный размер 1024x768

Вся магия зависела от того, какими словами заканчивались эти предложения:

«The *eel was on the axle» (мозг ловил контекст «ось» и дополнял первый слог до слова Wheel — колесо).

«The *eel was on the orange» (контекст «апельсин» заставлял ухо услышать Peel — кожура).

«The *eel was on the shoe» (контекст «обувь» мгновенно выдавал результат Heel — каблук).

Этот опыт раскрыл пугающую вещь:

Наш мозг принимает окончательное решение о том, что он «услышал» в самом начале предложения, только после того, как дослушает фразу до самого конца! Он задерживает сырой, непонятный звук в буфере памяти, ждет финального визуального или смыслового контекста, а затем, как опытный редактор задним числом, вшивает нужную фонему в прошлое.

Исходный размер 1080x1571

Заключение

Психоакустика и когнитивная психология доказывают: человеческий мозг никогда не воспринимает «сырую» физическую реальность. Наш слух — это не пассивный микрофон, а фабрика по производству прогнозов, склеек и ментальных допущений.

В этом исследовании мы разобрали три уровня этого обмана:

Первая глава (история) показала, как визуальный монтаж и глаза тотально диктуют ушам, что им слышать.

Глава 2 (анатомия) обнажила костно-воздушный разрыв внутри нашей головы и объяснила, как саунд-дизайн использует этот баг для имитации «внутреннего голоса».

Глава 3 (Уоррен) доказала, что мозг готов конструировать звуки из ничего сквозь маскирующий шум.

Библиография

McGurk H., MacDonald J. Hearing lips and seeing voices [Электронный ресурс] // nature.com: [сайт]. — URL: https://www.nature.com/articles/264746a0 (дата обращения: 25.05.2026).

Warren R. M. Perceptual Restoration of Missing Speech Sounds [Электронный ресурс] // science.org: [сайт]. — URL: https://www.science.org/doi/10.1126/science.167.3917.392 (дата обращения: 25.05.2026).

Warren R. M., Sherman G. L. Phonemic restorations based on subsequent context [Электронный ресурс] // psycnet.apa.org: [сайт]. — URL: https://psycnet.apa.org/record/1975-04533-001 (дата обращения: 26.05.2026).

Эффект Кулешова [Электронный ресурс] // ru.wikipedia.org: [сайт]. — URL: https://ru.wikipedia.org/wiki/Эффект_Кулешова (дата обращения: 26.05.2026).

Hughes S. M., Harrison M. A. Your face is a mess and your voice’s too loud: Vocal confrontation [Электронный ресурс] // sciencedirect.com: [сайт]. — URL: https://www.sciencedirect.com/science/article/abs/pii/S016726811300234X (дата обращения: 27.05.2026).

Békésy G. von. The Moon Illusion and Similar Auditory Phenomena [Электронный ресурс] // aja.org: [сайт]. — URL: https://asa.scitation.org/doi/10.1121/1.1917120 (дата обращения: 27.05.2026).

Закон замыкания в гештальт-психологии [Электронный ресурс] // britannica.com: [сайт]. — URL: https://www.britannica.com/science/Gestalt-psychology (дата обращения: 27.05.2026).

Том Р. Проектирование звука в кино [Электронный ресурс] // filmsound.org: [сайт]. — URL: https://filmsound.org/randythom/designing.htm (дата обращения: 27.05.2026).

Источники изображений

https://easy-peasy.ai/ai-image-generator/images/understanding-audiogram-air-bone-gap-graph

https://pin.it/37dairVu2

https://www.timeshighereducation.com/news/people/obituaries/richard-gregory-1923-2010/411837.article

https://tunnel.ru/post-kuleshov-lev-vladimirovich?full_version

https://pin.it/17dl5nVGK

https://pin.it/5Mv3q4a5V