Мозговые импланты и нейросети позволяют все лучше "читать мысли"

Люди с неврологическими расстройствами, в том числе с инсультом ствола мозга или боковым амиотрофическим склерозом, часто сталкиваются с потерей речи из-за паралича мышц. Существуют технологии, позволяющие декодировать речь из деятельности мозга — недавно в журнале Nature опубликовали сразу два исследования, в которых ученые описывают прорывы в этой сфере. Для портала "Наука" тему прокомментировал научный сотрудник Университета Турку Дмитрий Филимонов.
Речь идет о технологии под названием интерфейс мозг-компьютер (ИМК), которая позволяет расшифровывать мозговую активность и переводить ее в речь. Такие ИМК — не новость в науке, но в предыдущих исследованиях описывались системы, которые могут расшифровывать речь только в виде текста и с ограниченной скоростью, точностью и словарным запасом. На днях вышло сразу две работы, в которых ученые описали ИМК, работающие быстрее и точнее, и способные охватить больший словарный запас, чем существующие технологии.
"Действительно, интерфейсы мозг-компьютер для декодирования речи — большой тренд в когнитивных нейронауках, призванный вернуть голос тем, кто утратил возможность говорить ввиду той или иной болезни. Успех здесь зависит не столько от революционных научных открытий, сколько от серьезных инженерных достижений. Можно привести метафору парадигмы из "Структуры научных революций" Томаса Куна: прорывное открытие дает начало целому направлению будущих исследований, использующих тот же принцип; геолог находит золото и начинается разработка месторождения. В любом случае, результат достоин внимания", — говорит Дмитрий Филимонов.
Исследователи из Стэндфордского университета разработали интерфейс мозг-компьютер, который собирает нейронную активность отдельных клеток с помощью множества тонких электродов, вставленных в мозг, и обучили искусственную нейронную сеть декодировать предполагаемые вокализации.
С помощью устройства пациент с боковым амиотрофическим склерозом смог общаться со средней скоростью 62 слова в минуту, что в 3,4 раза быстрее предыдущего рекорда для аналогичного устройства и приближается к скорости естественной беседы (около 160 слов в минуту). ИМК достиг коэффициента ошибок в словах 9,1% при словаре из 50 слов, что в 2,7 раза меньше, чем в предыдущем современном речевом ИМК. Коэффициент ошибок в 23,8% был достигнут при словаре из 125 000 слов.
В исследовании, которое проводили ученые из Калифорнийского университета, описывается интерфейс, основанный на другом методе доступа к активности мозга: с использованием непроникающих электродов, располагающихся на поверхности мозга и способных обнаруживать активность множества клеток на разных участках по всей речевой коре.
Исследователи натренировали модель глубокого обучения расшифровывать нейронные данные, собранные у пациентки с тяжелым параличом, вызванным инсультом ствола мозга, когда она пыталась молча произносить полные предложения. Медианная скорость перевода активности мозга в текст составила 78 слов в минуту, что в 4,3 раза быстрее предыдущего рекорда и еще ближе к скорости естественного разговора.
Интерфейс достиг коэффициента ошибок в словах 4,9% при декодировании 50 фраз, что в 5 раз меньше, чем предыдущий современный речевой ИМК. Коэффициент ошибок в словах 25% был достигнут при декодировании предложений в реальном времени со словарным запасом более 1000 слов.
"Упрощенно говоря, ИМК для распознавания речи = имплант + нейросеть. Имплант — это набор электродов, вживляемых в мозг. Известны исследования, пытавшиеся обойтись без импланта, например, заменяя его на электроэнцефалографию (ЭЭГ), неинвазивную процедуру, когда электрическую активность мозга считывают с поверхности головы, но в таком случае качество сигнала сильно ниже, чем непосредственно из мозга. Проблемы многих имплантов в том, что электроды рано или поздно выходят из строя, а иногда отторгаются мозгом. Создать долговечный имплант — нетривиальная задача", — объясняет Филимонов.
Помимо имплантов большую роль играет и нейросеть, составляющая основу известного многим искусственного интеллекта. "Развитие машинного обучения толкает многие области прогресса вперед. Нейросеть способна выделить из сигнала скрытые свойства и математические закономерности, заметить которые человеку трудно или невозможно. Искусственные нейросети были вдохновлены биологическими и сейчас находят сходства в их работе: так, активность одной из нейросетей для обработки речи сильно напомнила активность в соответствующих участках коры мозга у человека. Неудивительно, что производительность таких нейросетей выше. Хорошая новость в том, что нейросети, как и импланты можно совершенствовать, что и приводит к улучшению качества распознавания речи", — говорит научный сотрудник.
По словам Филимонова, наиболее тесно с нейронаукой связан третий фактор, а именно — какую активность мозга расшифровывать. "В мозге одновременно происходит множество процессов и различные системы по-разному кодируют информацию. Здесь приходится экспериментировать и настраивать алгоритмы, проверяя различные гипотезы. Но расположение самих центров, отвечающих за речь, давно известно — это знаменитые зоны Брока и Вернике — туда и ставится имплант. Главная трудность же состоит в индивидуальных различиях: часто такие исследования проводятся на одном пациенте и решения могут либо не работать для других, либо требовать доводки и повторной тренировки алгоритма, что сильно тормозит серийное производство".
Редактор: Юлия Тислер