Наушники с ИИ позволяют слушать человека в толпе, лишь взглянув на него

Сегодня наушники со звукоподавлением очень хорошо справляются с полным заглушением шума окружающего мира, а вот стирание или выделение конкретных звуков по-прежнему остается сложной задачей для ученых. В новом исследовании описывается система искусственного интеллекта, которая позволяет пользователю слышать голос конкретного человека в толпе.
Попытки создать наушники, выделяющие голос, ведутся очень активно. Например, последняя версия Apple AirPods Pro автоматически регулирует уровни звука, определяя, когда люди разговаривают, — но пользователь практически не контролирует, кого слушать и когда это происходит.
Разработанные командой из Вашингтонского университета наушники с ИИ работают так: сперва нужно посмотреть на говорящего человека в течение трех-пяти секунд, и тогда система зарегистрирует его и станет передавать голос в реальном времени, подавляя остальные шумы. При этом слушатель может перемещаться и больше не смотреть на говорящего.
"Сейчас мы склонны думать об искусственном интеллекте как о чат-ботах, которые отвечают на вопросы, — говорит старший автор исследования Шьям Голлакота. — Но в этом проекте мы разрабатываем ИИ, который изменит слуховое восприятие любого, кто носит наушники, с учетом его предпочтений. Благодаря нашим устройствам вы теперь сможете четко слышать одного говорящего, даже если находитесь в шумной обстановке, где разговаривает много других людей".
Чтобы воспользоваться системой, человек, носящий готовые наушники с микрофонами, нажимает кнопку поворачивая голову в сторону говорящего. Звуковые волны голоса должны одновременно достигать микрофонов на обеих сторонах гарнитуры; погрешность составляет 16 градусов. Наушники отправляют этот сигнал на встроенный компьютер, где программное обеспечение машинного обучения изучает вокальные образцы конкретного человека. Система фиксирует голос и продолжает воспроизводить его слушателю, даже когда он перемещается. Способность фокусироваться на зарегистрированном голосе улучшается по мере того, как говорящий продолжает речь, предоставляя устройству больше обучающих данных.
Команда протестировала свою систему на 21 испытуемом, которые в среднем оценили четкость голоса почти в два раза выше, чем в случае с неизмененным звуком.
Эта работа основана на предыдущем исследовании "семантического слуха", проведенном командой. Оно позволило пользователям выбирать определенные классы звуков — например, пение птиц или голоса людей — которые они хотели услышать, и отменяло другие шумы в окружающей среде.
В настоящее время новая система может зарегистрировать только одного говорящего одновременно, и только в том случае, если с того же направления нет другого громкого голоса.
Теперь команда работает над расширением системы на наушники и слуховые аппараты в будущем.
Исследование было представлено на конференции ACM CHI Conference on Human Factors in Computing Systems.
Редактор: Юлия Тислер