Искусственный интеллект определяет эмоции по голосу не хуже людей
Слова важны для самовыражения. Однако то, что мы не говорим, может сыграть еще большую роль в передаче эмоций. Люди часто способны понять, что чувствуют окружающие, с помощью невербальных сигналов, встроенных в наш голос. В новом исследовании описывается, что искусственный интеллект не хуже людей может определять эмоциональную окраску речи.
Ученые из Германии решили выяснить, могут ли три модели машинного обучения выявить эмоциональный подтекст во фрагментах голосовых записей длительностью всего 1,5 секунды.
Исследователи извлекли бессмысленные предложения из двух наборов данных — канадского и немецкого — что позволило им определить, могут ли модели точно распознавать эмоции независимо от языка, культурных нюансов и семантического содержания. Каждый клип был сокращен до 1,5 секунды, поскольку именно столько времени нужно человеку для распознавания оттенков речи. Эмоции, которые предстояло определить искусственному интеллекту, включали радость, гнев, печаль, страх, отвращение и нейтральное отношение.
На основе данных обучения исследователи создали модели машинного обучения, которые работали одним из трех способов: Глубокие нейронные сети (DNN) подобны сложным фильтрам, которые анализируют компоненты звука, такие как частота или высота тона (например, когда голос становится громче из-за того, что говорящий злится), чтобы выявить скрытые эмоции; Сверточные нейронные сети (CNN) сканируют закономерности в визуальном представлении аудио, подобно тому, как определяют настроение по ритму и текстуре голоса; Гибридная модель (C-DNN) объединяет оба метода, используя как аудио, так и визуальную спектрограмму. Затем модели были протестированы на эффективность на обоих наборах данных.
"Мы обнаружили, что DNN и C-DNN достигают большей точности, чем CNN, которая использует только спектрограммы, — говорит первый автор статьи Ханнес Димерлинг, исследователь Центра психологии продолжительности жизни Института развития человека Макса Планка. — Независимо от модели, классификация эмоций была правильной с более высокой вероятностью, чем можно было бы достичь путем угадывания, и была сопоставима с точностью людей".
Если бы искусственный интеллект превзошел человека, то, по словам Димерлинга, это могло бы означать, что могут существовать закономерности, которые мы не распознаем. По мнению исследователей, тот факт, что неподготовленные люди и модели действуют одинаково, может означать, что и те, и другие полагаются на схожие шаблоны распознавания.
Полученные результаты также показывают, что возможно разработать системы, которые смогут мгновенно интерпретировать эмоциональные сигналы и обеспечивать немедленную и интуитивную обратную связь в широком диапазоне ситуаций. Это может привести к созданию масштабируемых и экономически эффективных приложений в различных областях, где понимание эмоционального контекста имеет решающее значение, таких как терапия и технологии межличностного общения.
Исследователи также указали на некоторые ограничения в своем исследовании, например, на то, что образцы фраз, произнесенные актером, могут не передать весь спектр реальных, спонтанных эмоций. Они также заявили, что будущая работа должна исследовать аудиофрагменты, которые длятся дольше или меньше 1,5 секунды, чтобы выяснить, какая продолжительность оптимальна для распознавания эмоций.
Исследование опубликовано в Frontiers in Psychology.
Редактор: Юлия Тислер