Эстонскому речевому роботу еще предстоит поработать над беглостью
Благодаря стремительному развитию лингвистических технологий синтез эстонской речи за последние 15 лет стал гораздо более естественным. Однако, по мнению Кадри Варе, руководителя отделения языковых и речевых технологий в Институте эстонского языка, эстоноязычному роботу еще нужно поработать, чтобы добиться беглости речи англоговорящего "коллеги".
"Если мы посмотрим, каким был голос нашего робота 15 лет назад и каким он стал сейчас, то увидим, что синтез речи на эстонском значительно улучшился. Он стал гораздо более выразительным, естественным и значительно больше похожим на человеческий", – сказала Варе в программе Terevisioon.
Речевой робот учится составлять разговор на основе большого количества данных. По словам Варе, для тренировки его искусственного интеллекта нужна разговорная речь, то есть аудиозаписи, начитанные разными людьми. "Для качественного синтеза, человек, который читает текст, должен обладать хорошим голосом и дикцией", – пояснила она.
Институт эстонского языка недавно провел пилотный проект со своим собственным речевым роботом, в котором искусственный голос должен был зачитывать различные рекламные тексты. "Мы воспользовались банками голосов из рекламы, где были образцы как спокойной, так и энергичной речи", – рассказала Варе. Таким образом, существующий синтезированный голос обучался тому, как произносить текст в разном темпе.
При прослушивании звуковых образцов стало ясно, что реклама, прочитанная взрослым искусственным голосом, все равно кажется нескладной. По словам Варе, эстоноязычный робот использует самые передовые нейронные сети, но все же не способен говорить бегло. "На данный момент это вполне возможно для английского языка, но эстонский, к счастью или к сожалению, для этого слишком маленький. Нам еще предстоит развить выразительность этого синтеза", – заметила она. Оказалось также, что слушатели предпочитают более спокойный тон энергичному.
Напротив, робот с детским голосом с большей вероятностью обманет слушателя. По мнению Варе, это может быть связано с тем, что он уже подкреплен новым поколением синтезированной речи. Наиболее естественно звучит энергичный детский голос, поскольку, как предполагает Варе, дети также говорят более эмоционально.
"Синтезированный голос, в первую очередь, предназначен для улучшения доступной среды. Его используют слепые и слабовидящие люди, для того, чтобы понимать потребительские тексты", – пояснила Варе, объясняя главную идею исследования. Кроме того, по ее словам, искусственный голос можно использовать для объявлений в общественных местах и для изучения эстонского языка.
Редактор: Софья Люттер
Источник: Novaator; "Terevisioon", вопросы задавал Реймо Сийдвеэ.