Языковые технологии помогут вести протоколы заседаний и спасут эстонский
Если в прошлом жизнеспособность языка обеспечивалась возможностью распространения печатного слова, то сегодня язык нуждается еще и в технологической поддержке. Исследователи Таллиннского технического университета разрабатывают технологии распознавания речи и автоматического составления резюме встречи, которые могут в корне изменить работу с информацией и защитить язык от вымирания.
"Эстонский язык – совершенно средний с точки зрения обработки речи. Недавно вышло исследование, в котором, среди прочего, рассматривалось количество ошибок в распознавании речи на разных языках. Выяснилось, что эстонский язык в этом отношении не слишком сложный и не слишком простой", – говорит Танель Алумяэ, доцент Таллиннского технического университета и руководитель лаборатории языковых технологий. Вместе с коллегами Алумяэ разрабатывает различные технологические решения для эстонского языка. Например, у них уже есть система, позволяющая распознавать устную речь, а в разработке находится программа, которая будет составлять краткие резюме разговоров на основе распознанной речи. Они также работают над идентификацией известных спикеров и определением языка говорящего, а также над программным обеспечением, которое может ответить на вопрос человека на основе информации из нескольких источников.
Пять содержательных минут часового совещания
"Насчет системы автоматического составления резюме встречи , я всегда говорю, что я буду доволен, когда ее можно будет использовать для создания протокола собрания квартирного товарищества", – говорит Танел Алумяэ. Он добавляет, что на любом собрании много неуместных разговоров, криков и часто разговор идет на нескольких языках.
"Вести протоколы этих встреч крайне утомительно, но какой-то бедный помощник должен это делать. Кроме того, их очень скучно потом читать", – отмечает Алумяэ. Одна из целей его команды – разработать программное обеспечение, которое сможет сделать разговор между людьми в пять раз короче и лаконичнее. В идеале это резюме должно быть еще и легко читаемым.
В настоящее время, по словам Алумяэ, проблема заключается в том, что трудно найти данные для программы машинного обучения. "Для обучения программе нужны такие данные, где есть оригинальный документ и резюме этого документа, сделанное человеком-аннотатором", – объясняет он. Поскольку в свободном доступе нет стенограмм рабочих встреч или частных бесед, программа обучается в основном по расшифровкам и резюме программ Эстонского национального телерадиовещания. Собственно, готовая программа сможет автоматически создавать тексты по итогам теле- и радиопередач. При этом структура оригинальной беседы будет сохранена. "Если человек пропустил вчерашнюю программу, но хочет узнать, что там было, он сможет ознакомиться с ее кратким содержанием всего за одну минуту. Конечно, что-то будет утеряно, но основные идеи сохранятся ", – говорит Алумяэ.
Распознать речь уже можно
Еще одно лингвистическое решение, разработанное Танелем Алумяэ и коллегами, – распознавание речи на эстонском языке. По словам доцента, программа уже очень хорошо распознает речь, если качество записи высокое, а произношение четкое. "Новостные программы, такие как "Актуальная камера" или "Päevakaja", – самый простой материал для распознавания речи", – говорит доцент. Как и в случае с программой создания резюме встреч, большая часть обучения распознаванию речи была проведена на основе радио- и телепередач.
В настоящее время распознавание речи все еще испытывает трудности, например, с именами иностранного происхождения или цитатами на других языках. Плохое качество звука и спонтанная устная речь также затрудняют распознавание. "Когда вы проводите совещание, записанное на один телефон в центре большого стола, а за столом пять человек, которые могут что-то бормотать или перебивать друг друга, распознать речь непросто. Обязательно будут ошибки, особенно если люди говорят одновременно", – объясняет Алумяэ.
Для поиска и оценки допущенных программой распознавания речи ошибок команда использует небольшой набор тестов. "Есть десяток случайно выбранных загруженных файлов, которые мы расшифровали вручную, и на основе которых мы постоянно измеряем качество нашей системы, чтобы понять, движемся ли мы в правильном направлении", – говорит доцент.
Другие интеллектуальные решения
В разработке команды Танеля Алумяэ есть и другие проекты. Например, около пяти лет они работали над моделью, с помощью которой можно распознать говорящего по голосу – в случае, если это какой-то известный общественный деятель.
Кроме того, одной из целей команды является автоматическое определение языка, на котором говорит спикер. По словам Алумяэ, это необходимо, потому что некоторые люди могут вставить фразу на английском или русском языке посреди длинного разговора на эстонском. "Это не должно обрабатываться с помощью модели распознавания эстонского языка, потому что тогда получится какая-то чушь. Нам пришлось бы просто пропустить эту часть", – говорит он, объясняя необходимость создания отдельной модели.
По словам Алумяэ, камнем преткновения модели распознавания языка говорящего в настоящее время является акцент. Если эстонец говорит по-эстонски, машина понимает его с точностью 99%. "Однако если я сейчас начну говорить на немецком языке, который я знаю относительно хорошо, машина скорее всего скажет, что это эстонский или вообще баскский, то есть совершенно запутается", – объясняет доцент. По его словам, было бы полезно, если бы машина не определяла язык по нескольким отдельным звукам, а искала слова, принадлежащие определенному языку.
Помимо улучшения распознавания речи, Алумяэ хотел бы найти решение, которое позволило бы обобщать информацию из нескольких документов и предоставлять ее в виде ответа на вопрос пользователя. "Например, меня интересует, когда полицейская машина может парковаться на тротуаре. Если я введу этот вопрос в Google, я получу несколько различных статей и законов", – говорит он. В идеале, будущее решение могло бы просматривать все эти законы и, основываясь на различных разделах, выдавать краткий ответ на конкретный вопрос.
По мнению Алумяэ, все эти решения настолько же важны для будущего эстонского языка, как много веков назад письменный язык и печатный станок. "Если сегодня у языка нет поддержки языковых технологий, можно опасаться, что он просто вымрет. Мы уже привыкаем использовать английский или другие языки. Сначала на компьютере, а потом и друг с другом", – говорит он.
Танель Алумяэ и его коллеги описали свою работу в Baltic Journal of Modern Computing.
Редактор: Софья Люттер
Источник: Novaator