Голос, который я слышу, когда говорю, — это совсем не тот голос, который слышат другие. Мой собственный голос доносится до меня изнутри, из костей моего черепа, из глубин моего тела. Это самый интимный звук на свете, и именно поэтому его запись всегда кажется нам чужой
Концепция
В современном мире мы окружены цифровым звуком: общаемся голосовыми сообщениями, записываем подкасты, созваниваемся в зуме и отправляем аудиосообщения в мессенджерах. Наш голос стал главным инструментом взаимодействия с цифровой средой. Однако почти каждый человек сталкивается с удивительным парадоксом: когда мы слышим запись собственного голоса на диктофоне, мы испытываем сильный дискомфорт и отторжение. Нам кажется, что этот голос чужой, плоский, неприятный и «вообще не мой».
В психологии этот феномен даже получил официальное название — «голосовая конфронтация»
Голосовая конфронтация — явление, при котором люди испытывают дискомфорт от звука собственного голоса.
Я выбрал тему «Как мозг обманывает нас при восприятии речи» неслучайно. Помимо учебы на саунд-дизайне, я преподаю вокал. На занятиях мои ученики постоянно сталкиваются с этой проблемой: они часто говорят, что им физически сложно воспринимать свой голос на диктофоне во время исполнения — в записи он звучит для них совсем по-другому, непривычно и часто даже отталкивающе. Наблюдая за этим изо дня в день, я решил глубоко разобраться в природе этого явления.
Как музыканту, мне важно понимать, как человек воспринимает звуки, как устроена психоакустика и почему возникает этот когнитивный диссонанс между «внутренним» и «внешним» аудиообразом. Также я захотел разобраться, как мозг обрабатывает речь и почему реальный физический звук может так сильно отличаться от наших ментальных ожиданий.
Концепция исследования заключается в том, чтобы проанализировать этот невидимый конфликт между биологическими иллюзиями нашего тела и объективной цифровой фиксацией звука.
Диктофон обнажает «голосовую конфронтацию»
Введение. Архитектура синестезии: от физической волны к ментальному образу.
Чтобы понять, почему запись собственного голоса вызывает у нас когнитивный диссонанс, необходимо разрушить главный миф психоакустики: человеческое ухо — это не микрофон, а мозг — не линейный диктофон.
В физическом мире звука в привычном понимании нет. Есть лишь невидимые колебания воздуха (Стретт, 1877). А вот саму «речь» и «смысл» конструирует наш мозг. Наше восприятие работает по принципу «нисходящего процесса» (Грегори, 1970). Это значит, что мозг не просто пассивно слушает то, что приходит снаружи. Он работает как активный прогнозист: собирает звуки и накладывает на них наши ожидания, прошлый опыт и то, что мы видим глазами в этот момент.
Джон Уильям Стретт — англ.физик. Он первым математически и физически описал, как звуковая волна ведёт себя в воздухе, как она огибает препятствия (например, человеческую голову) и затухает.
Ричард Грегори — британский психолог, который всю жизнь изучал иллюзии и то, как мы видим и слышим мир.
Наш мозг, словно саунд-дизайнер, постоянно занимается «апскейлингом» и чисткой звука, каждую секунду сглаживает окружающие шумы и адаптирует входящую аудиоволну под наши внутренние стандарты (создавая иллюзию идеального слуха).
Глава 1. История экранного монтажа
Эффект Мак-Гурка
Как преподаватель вокала, я постоянно повторяю ученикам, что артикуляция — это неотъемлемая часть пения. Но самое интересное начинается тогда, когда в игру вступает зрение постороннего наблюдателя. Оказывается, наши глаза могут буквально переписать то, что слышат наши уши.
В психоакустике этот феномен называется эффектом Мак-Гурка (McGurk & MacDonald, 1976).
Эксперимент, который они провели, до гениальности прост, но его результаты сносят крышу. Испытуемому включают аудиозапись, где диктор четко произносит слог «БА-БА». Одновременно с этим на экране показывают видеоряд, где тот же диктор беззвучно артикулирует губами совершенно другой слог — «ГА-ГА».
Тут происходит магия восприятия. Мозг получает два конфликтующих сигнала: уши слышат «БА», глаза видят «ГА». Вместо того чтобы выбрать что-то одно или сойти с ума от когнитивного диссонанса, мозг мгновенно синтезирует компромисс — и человек абсолютно четко слышит третий слог: «ДА-ДА». Но стоит испытуемому закрыть глаза — он снова слышит исходное «БА-БА». Открывает — и зрение вновь диктует ушами.
Зрительная кора просто берет и перепрошивает фонетику физического звука (см. видео выше).
Эффект Кулешова
Саунд-дизайнерам и режиссерам монтажа этот баг восприятия знаком на интуитивном уровне уже очень давно. За полвека до официального открытия эффекта Мак-Гурка советские киноавангардисты во главе со Львом Кулешовым открыли фундаментальный закон кинематографа. Эффект Кулешова (1929) доказал: смысл кадра полностью меняется в зависимости от того, с каким следующим кадром он склеен (лицо актера + тарелка супа = голод; лицо актера + гроб = скорбь).
Лев Владимирович Кулешов (1899–1970). Крёстный отец всего мирового киномонтажа.
Когда в кино пришел звук, этот принцип моментально масштабировался на аудиовизуальный ряд. Режиссер Дзига Вертов в своей работе «Человек с киноаппаратом» (1929) начал экспериментировать с радио-ухом и монтажом звука, создавая концепцию «слышу-вижу». Выяснилось, что склейка кадров способна полностью переписать интонацию, подтекст и даже само значение произнесенного на экране слова.
Реж. Дзига Вертов (1929)
Если мы видим на экране крупный план яростного, сжатого кулака, а за кадром звучит спокойный вздох — мозг считает этот вздох затаенной обидой или сдерживаемой агрессией. Но если тот же самый вздох наложить на кадр с бескрайним полем и закатом — ухо мгновенно «услышит» в нем облегчение и умиротворение. Физический аудиофайл один и тот же, но оптический контекст выступает в роли главного эквалайзера и редактора смысла.
Глава 2. Анатомический микшер
Если в первой главе мы рассматривали, как внешние медиа (киноэкран и монтажная склейка) способны подчинить себе наш слух, то во второй главе мы спустимся на уровень чистой физиологии. Самый близкий и интимный пример того, как сильно ментальный аудиообраз отличается от реальной звуковой волны, скрыт внутри нашей собственной головы.
«Наш собственный голос — единственный звук, который мы слышим одновременно изнутри и снаружи. Он укоренен в костях нашего черепа, и когда техника отделяет его от тела, мы чувствуем жуткое одиночество»
— Ги Скарпетта, французский писатель и критик
Как я и говорил ранее, в своей практике преподавания я сталкиваюсь с этим постоянно: когда студент впервые слышит свою рабочую запись на диктофоне, его лицо искажает гримаса отторжения. Нам физически неприятен собственный голос со стороны, он кажется нам чужим, слишком высоким и звенящим.
Причина этого диссонанса кроется в том, что человеческое ухо — это не стерильный студийный микрофон…
Наше восприятие — это кастомный анатомический микшер, который собирает звук по двум абсолютно разным каналам:
1. Воздушная проводимость (Air Conduction):
Звуковая волна выходит изо рта, рассеивается в пространстве, летит по воздуху, залетает в ушную раковину и бьет по барабанной перепонке. Так наш голос слышат друзья, коллеги и мембрана диктофона.
2. Костная проводимость (Bone Conduction):
Когда мы поем или говорим, наши голосовые связки и гортань вибрируют. Эта механическая вибрация передается напрямую через тяжелые кости черепа к внутреннему уху — улитке, полностью минуя барабанную перепонку (Békésy, 1949).
Для наглядности обратимся к графику клинической аудиограммы, которая фиксирует пороги слышимости для обоих каналов:
Аудиограмма: костная и воздушная проводимость
Обратите внимание на разрыв между двумя кривыми (в аудиологии это называется костно-воздушным интервалом или Air-Bone Gap). Плотные кости нашего черепа работают как культовый аналоговый эквалайзер в хорошей студии: они выступают в роли природного фильтра низких частот (Low-pass filter). Они гасят высокие, свистящие частоты, но идеально проводят и даже резонансно усиливают суб-басовый, глубокий спектр нашего голоса.
Когда мы разговариваем, наш мозг суммирует эти каналы. Мы привыкаем воспринимать себя «акустически богатыми», с приятным объемом внизу. Но стоит включить запись, как костный канал мгновенно отключается. Мы остаемся один на один с оголенной «воздушной» копией. Мозг моментально считывает это как ошибку восприятия: «Это что, мой голос?»
От анатомии к саунд-дизайну
Для медиадизайнера этот костно-воздушный разрыв — важнейший инструмент для программирования эмоций зрителя. Понимая, как мозг разделяет внешние и внутренние звуки, мы можем искусственно управлять дистанцией между контентом и пользователем.
Когда звукорежиссеру в кино, рекламе или подкастах нужно создать у зрителя ощущение, что закадровый голос — это внутренний монолог персонажа, его интимные мысли или голос его совести, он намеренно имитирует эффект костной проводимости.
Диктора записывают на ультра-близком расстоянии к чувствительному микрофону (используя так называемый «эффект близости» или proximity effect), а затем на постпродакшене эквалайзером жестко срезают верхний «воздушный» звон и искусственно завышают частоты в районе 100 — 200 { Гц}.
Мозг зрителя ловит этот аудиосигнал, обрабатывает его через свой нисходящий процесс и, распознавая паттерны «внутричерепного» звука, моментально начинает подсознательно доверять этому голосу как своему собственному. Мы обманываем ухо, заставляя его поверить, что звук рождается внутри нашей головы, хотя он идет из плоского динамика смартфона.
Глава 3. Принципы заполнения пустоты в графике и звуке
Как вокалист, я знаю, что для связного пропевания фразы (на легато) необязательно маниакально пропевать каждую букву. Наш артикуляционный аппарат ленив. В реальной быстрой речи мы постоянно «проглатываем» окончания, усекаем согласные и размываем гласные. Но почему тогда мы идеально понимаем друг друга?
В психоакустике за это отвечает поразительный феномен — эффект фонематической реставрации (Phonemic Restoration Effect) (Warren, 1970).
Американский ученый Ричард Уоррен провел эксперимент, ставший классикой. Он записал на пленку простую фразу. Затем взял акустические ножницы и физически вырезал из аудиофайла один единственный звук «с» в середине слова. Вместо него он вставил точно такой же по длительности кусок громкого кашля.
Логично предположить, что слушатели должны были заметить дыру или споткнуться об оборванное слово. Но произошло обратное. Испытуемые не просто без проблем поняли контекст — они физически услышали вырезанный звук «с» сквозь кашель! Более того, никто из них не смог точно определить, в какой именно момент диктор закашлялся. Мозг не просто замазал дефект, он провел полноценный аудиомонтаж в подсознании и заново сгенерировал звук, которого физически не было на записи.
Но самое безумное в опытах Уоррена открылось позже: если этот же звук вырезать, а на его месте оставить абсолютную тишину, магия исчезает (Warren & Sherman, 1974). Мозг мгновенно фиксирует пустоту, спотыкается об нее, и реставрация ломается. Мозгу как воздух нужен посторонний шум — акустическая стена, за которой он сможет спрятать свою подтасовку.
Как мозг слышит прошлое через будущее?
Еще точнее Уоррен доказал этот трюк в своем следующем эксперименте, где испытуемым включали четыре абсолютно одинаковые аудиозаписи. В каждой из них первое слово было искусственно повреждено шумом: ученый вырезал первую букву, и физически на пленке оставался лишь огрызок слова: «…*eel».
Вся магия зависела от того, какими словами заканчивались эти предложения:
«The *eel was on the axle» (мозг ловил контекст «ось» и дополнял первый слог до слова Wheel — колесо).
«The *eel was on the orange» (контекст «апельсин» заставлял ухо услышать Peel — кожура).
«The *eel was on the shoe» (контекст «обувь» мгновенно выдавал результат Heel — каблук).
Этот опыт раскрыл пугающую вещь:
Наш мозг принимает окончательное решение о том, что он «услышал» в самом начале предложения, только после того, как дослушает фразу до самого конца! Он задерживает сырой, непонятный звук в буфере памяти, ждет финального визуального или смыслового контекста, а затем, как опытный редактор задним числом, вшивает нужную фонему в прошлое.
Заключение
Психоакустика и когнитивная психология доказывают: человеческий мозг никогда не воспринимает «сырую» физическую реальность. Наш слух — это не пассивный микрофон, а фабрика по производству прогнозов, склеек и ментальных допущений.
В этом исследовании мы разобрали три уровня этого обмана:
Первая глава (история) показала, как визуальный монтаж и глаза тотально диктуют ушам, что им слышать.
Глава 2 (анатомия) обнажила костно-воздушный разрыв внутри нашей головы и объяснила, как саунд-дизайн использует этот баг для имитации «внутреннего голоса».
Глава 3 (Уоррен) доказала, что мозг готов конструировать звуки из ничего сквозь маскирующий шум.
McGurk H., MacDonald J. Hearing lips and seeing voices [Электронный ресурс] // nature.com: [сайт]. — URL: https://www.nature.com/articles/264746a0 (дата обращения: 25.05.2026).
Warren R. M. Perceptual Restoration of Missing Speech Sounds [Электронный ресурс] // science.org: [сайт]. — URL: https://www.science.org/doi/10.1126/science.167.3917.392 (дата обращения: 25.05.2026).
Warren R. M., Sherman G. L. Phonemic restorations based on subsequent context [Электронный ресурс] // psycnet.apa.org: [сайт]. — URL: https://psycnet.apa.org/record/1975-04533-001 (дата обращения: 26.05.2026).
Эффект Кулешова [Электронный ресурс] // ru.wikipedia.org: [сайт]. — URL: https://ru.wikipedia.org/wiki/Эффект_Кулешова (дата обращения: 26.05.2026).
Hughes S. M., Harrison M. A. Your face is a mess and your voice’s too loud: Vocal confrontation [Электронный ресурс] // sciencedirect.com: [сайт]. — URL: https://www.sciencedirect.com/science/article/abs/pii/S016726811300234X (дата обращения: 27.05.2026).
Békésy G. von. The Moon Illusion and Similar Auditory Phenomena [Электронный ресурс] // aja.org: [сайт]. — URL: https://asa.scitation.org/doi/10.1121/1.1917120 (дата обращения: 27.05.2026).
Закон замыкания в гештальт-психологии [Электронный ресурс] // britannica.com: [сайт]. — URL: https://www.britannica.com/science/Gestalt-psychology (дата обращения: 27.05.2026).
Том Р. Проектирование звука в кино [Электронный ресурс] // filmsound.org: [сайт]. — URL: https://filmsound.org/randythom/designing.htm (дата обращения: 27.05.2026).




