Ученые опровергли теорию о том, как человек определяет источник звука

Исследователи из Университета Маккуори развенчали 75-летнюю теорию о том, как люди определяют, откуда исходят звуки. Это может послужить для создания следующего поколения более адаптируемых слуховых аппаратов и систем распознавания речи.
В 1940-х годах была разработана инженерная модель, объясняющая, как люди могут определять местонахождение источника звука, основываясь на разнице всего в несколько десятков миллионных долей секунды. Эта модель основывалась на теории, что у нас должен быть набор специализированных детекторов, единственная функция которых — определять, откуда исходит звук. При этом, для каждой точки в пространстве должен существовать отдельный нейрон. С тех пор это предположение влияет на исследования, а также на разработку аудиотехнологий.
Новая научная работа, опубликованная исследователями слуха из Университета Маккуори, наконец, показала, что идея нейронной сети, предназначенной для пространственного слуха, неверна.
Четверть века упорной работы
Ведущий автор, заслуженный профессор Университета Маккуори Дэвид Макэлпайн, на протяжении последних 25 лет на примере разных животных последовательно доказывал, что на самом деле за определение звука в пространстве отвечает гораздо более простая нейронная сеть, в которой нет специализированных нервных клеток, предназначенных только для определения направления.
Четверть века назад против его теории решительно выступала старая гвардия, но он продолжал собирать доказательства. Ему удалось показать, что старая модель не применима ко многим видам, даже к сипухе, чей пространственный слух всегда считался образцовым. Однако люди оставались в стороне, потому что было гораздо труднее показать этот процесс в действии в человеческом мозге.
В новом исследовании профессор Макэлпайн и его команда описывают, что человек с точки зрения определения звука в пространстве устроен примерно так же, как и другие млекопитающие. Совместив специализированный тест на слух, расширенную визуализацию мозга и сравнение с мозгом других млекопитающих, включая макак-резус, ученые впервые доказали, что люди также используют более простые нейронные сети. "Нам удалось показать, что в этом отношении песчанки похожи на морских свинок, морские свинки — на макак-резус, а макаки-резус — на людей", — объясняет профессор. — Эту функцию выполняет редкая, энергоэффективная форма нейронных цепей — наш мозг песчанки, если хотите".
"Нам нравится думать, что наш мозг должен быть во всех отношениях гораздо более развитым, чем у других животных, но это просто высокомерие, — говорит Макэлпайн. — Мне было ясно, что эта функция не требует сложного мозга, потому что животные бывают разных форм и размеров".
Ключом к доказательству стала разработка метода оценки слуха, в ходе которого участникам исследования предлагалось определить, были ли звуки, которые они слышали, сфокусированными (например, на переднем плане) или нечеткими (больше похожими на фоновый шум). Также во время экспериментов люди проходили электро- и магнитоэнцефалографию.
Революция в распознавании речи
Это же исследование позволило обнаружить, что одна и та же нейронная сеть мозга отделяет речь от фоновых звуков – открытие, которое важно для проектирования как слуховых аппаратов, так и электронных помощников в наших телефонах.
Все типы машинного слуха сталкиваются с проблемой распознавания отдельных источников звука при наличии фонового шума, известной как "проблема коктейльной вечеринки". Людям со слуховыми аппаратами сложно выделить один голос в многолюдном пространстве, а нашим интеллектуальным устройствам — понять, когда мы с ними разговариваем.
Профессор Макэлпайн говорит, что последние результаты его команды показывают, что вместо того, чтобы сосредотачиваться на лежащих в основе чат-ботов больших языковых моделях (LLM), которые используются в настоящее время, нам следует применять гораздо более простой подход.
"LLM великолепно предсказывают следующее слово в предложении, но они пытаются сделать слишком много, — говорит он. — Здесь очень важно найти источник звука, и для этого нам не нужен языковой мозг "глубокого разума". Другие животные могут это делать, хотя у них нет языка".
По словам профессора, когда мы слушаем, наш мозг не постоянно отслеживает звук, как это пытаются делать LLM. "Вместо этого мы и другие животные используем наш "поверхностный мозг", чтобы выделять очень короткие фрагменты звука, включая речь, и использовать их, чтобы отметить местоположение и, возможно, даже личность источника, — объясняет он. — Для этого нам не нужно реконструировать сигнал с высокой точностью, достаточно лишь понять, как наш мозг представляет этот сигнал нейронно, задолго до того, как он достигнет языкового центра в коре головного мозга".
Исходя из этого, Макэлпайн считает, что машину для того, чтобы она могла эффективно распознавать источник звука, не нужно обучать языку — требуется только тот самый "мозг песчанки", то есть гораздо более простая система. Следующим шагом для команды является определение минимального количества информации, которое можно передать в звуке, но при этом получить максимальное количество информации о местоположении источника.
Исследование опубликовано в Current Biology.
Редактор: Юлия Тислер