Финский аналог ChatGPT начнет думать и на эстонском языке
Совместно с зарубежными партнерами Университет Турку в Финляндии развивает искусственный интеллект, владеющий всеми европейскими языками, включая эстонский. Цель в том, чтобы обеспечить сохранение малых языков в эпоху после ChatGPT. Институт эстонского языка (EKI) считает эту инициативу важной и предупреждает, что для создания языковой модели высшего уровня необходимо оцифровать гораздо больше эстонских текстов, чем раньше.
"Англоязычный ChatGPT ошеломил мир способностью понимать обычную речь как человек и адекватно реагировать на него. Однако за этим стояла не какая-то чудо-технология, а прежде всего тот факт, что программе было предоставлено беспрецедентное количество текстов, в которых можно было искать закономерности и учиться имитировать человеческое общение", — говорит языковой технолог EKI Элери Аедмаа.
По ее словам, в начавшуюся эпоху массив текстов имеет значение. "Чтобы достичь такой критической массы для эстонского языка, мы должны оцифровать и сделать общедоступными все возможные тексты. Вся Национальная библиотека, все архивы, как можно больше новых и старых новостей и онлайн-общения. Чем больше эстонского языка будет свободно доступно в сети, тем более определенным будет его будущее", — подчеркивает Аедмаа.
Разработку новой, крупнейшей в мире открытой языковой модели возглавляют Университет Турку и компания SiloGen. Модель, охватывающая все европейские языки, реализована на третьем по величине в мире европейском суперкомпьютере LUMI. По мнению Аедмаа, для эстонского языка ключевое значение имеет то, сколько специальных и оригинальных цифровых текстов на нем можно предоставить для обучения этой и будущих моделей.
ChatGPT думает только на английском языке
По мнению Аедмаа, одним из недостатков популярных сейчас больших языковых моделей является то, что они практически полностью обучены на основе английского языка. Это значит, что хотя GPT-4 и понимает эстонский, это всего лишь перевод. Образно говоря, машина думает по-английски и в последний момент переводит текст.
"Однако в долгосрочной перспективе это очень опасно для эстонского языка, — поясняет Аедмаа. — Ценность новых инструментов заключается в том, что они, так сказать, понимают не только узкий список слов и предложений, но и более широкий культурный контекст. Если языковая модель обучается только на основе англоязычного материала, она неизбежно не знает эстонской культуры".
"Ситуация сравнима с тем, когда был изобретен печатный станок — что стало бы с эстонским, если бы книги печатались только на основных языках, а не на нем?" — говорит Аедмаа. По ее словам, это касается большинства языков мира.
Языковая модель, инициированная финнами, представляет собой цифровую машину, подобную GPT, с самого начала обученную на разных языках. "Цель — суверенитет европейских языков и демократизация языковых технологий. Новая модель, в отличие от большинства предыдущих, также имеет открытый исходный код — ее логика прозрачна и любой желающий может использовать ее для новых технологий", — объясняет специалист.
Проект финнов поддерживается Business Finland, учреждением, аналогичным эстонскому Фонду предпринимательства и инноваций (EISA). Его также поддерживает организация Horizon of the European Union. Наконец, разработчики языковой модели получили для тестирования большое количество бесплатных обучающих занятий от LUMI.
На эстонском языке мало источников для обучения
Кадри Варе, руководитель отдела языка и речевых технологий Института эстонского языка, говорит, что EKI в настоящее время ищет дополнительные способы помощи финнам: "Мы хотим с ними сотрудничать, мы сделали для этого первые шаги. Позднее мы сможем точнее сказать, что именно и в каком объеме мы можем сделать для этого проекта. А сейчас мы предоставили им все данные, которые законно передавать".
Прежде всего, по мнению Варе, успеху инициативы может способствовать оцифровка и раскрытие еще большего объема информации. "На данный момент мы точно не знаем, что и откуда они взяли. Большие языковые модели используют весь интернет и каждое написанное слово. Мы не знаем, получили ли они где-то доступ, возможно, к чуть более закрытым данным. Это было бы важно выяснить", — считает она.
Однако в настоящее время доступного материала на эстонском языке, скорее всего, недостаточно для создания большой модели. "Мы знаем, что в основных языковых корпусах общедоступных данных на эстонском содержится примерно три миллиарда слов. В то же время на английском их более 800 миллиардов. Может показаться, что три миллиарда — это много, но на самом деле этого все еще недостаточно. На этой базе невозможно обучить искусственный интеллект, который понимает эстонский язык и культуру", — признает Варе.
В настоящее время EKI работает над созданием большого сводного корпуса эстонского языка. "Эти наборы данных открыты, и мы рады ими поделиться. Я думаю, что одной из важнейших целей Эстонии в области сохранения языка является участие в крупных открытых языковых моделях и сбор данных для них", — говорит она.
Редактор: Юлия Тислер