Ученые ищут способ выявлять плагиат в работе генераторов текста

Стоит ли доверять чат-ботам в вопросах здоровья?
Стоит ли доверять чат-ботам в вопросах здоровья? Автор: Pexels

Студентам, возможно, стоит дважды подумать, прежде чем использовать чат-бота для выполнения своего следующего задания. Свежее исследование показало, что языковые модели, которые генерируют текст в ответ на запросы пользователя, тоже "плагиатят", причем делают это разными способами.

Группа ученых под руководством Пинсельванского университета провела первое исследование, касающееся плагиата и языковых моделях. По мнению Донгвона Ли, профессора информационных наук и технологий в Университете штата Пенсильвания, плагиат бывает разных видов. Вопрос в том, могут ли языковые модели не только копировать и вставлять, но и прибегать к более изощренным формам плагиата, не осознавая этого.

Исследователи сосредоточились на выявлении трех форм плагиата: дословное или прямое копирование и вставка контента; перефразирование и реструктурирование содержания без ссылки на первоисточник; и использование основной идеи из текста без надлежащей атрибуции. Они создали систему для автоматического обнаружения плагиата и протестировали ее на GPT-2 OpenAI, поскольку данные обучения языковой модели доступны в интернете, что позволяет исследователям сравнивать сгенерированные тексты с восьмью миллионами документов, используемых для предварительного обучения GPT-2.

Для проверки на плагиат, ученые использовали 210 000 сгенерированных текстов, а в роли проверяемых выступили три группы языковых моделей: предварительно обученные, прошедшие дополнительную настройку и сфокусированные на конкретных темах. 

Команда точно настроила языковые модели, чтобы сосредоточиться на научных документах, статьях, связанных с COVID-19, и патентных заявках. Ученые использовали поисковую систему с открытым исходным кодом, чтобы найти десять лучших документов, наиболее похожих на каждый сгенерированный текст, и модифицировали существующий алгоритм выравнивания, чтобы лучше обнаруживать случаи дословного, перефразированного и идейного плагиата.

Оказалось, что языковые модели допускают все три типа плагиата, и чем больше набор данных и параметры, используемые для обучения модели, тем чаще происходит плагиат. Они также отметили, что в случае с точно настроенными языковыми моделями дословного плагиата было меньше, но увеличилось количество случаев перефразирования и плагиата идей. Кроме того, они выявили случаи, когда языковая модель раскрывала личную информацию людей посредством всех трех форм плагиата. Исследователи представят свои выводы на веб-конференции ACM, которая пройдет с 30 апреля по 4 мая.

"Люди используют большие языковые модели, потому что у них больше возможности генерации — говорит ведущий автор Джуён Ли, докторант Колледжа информационных наук и технологий в Пенсильвании. — В то же время они ставят под угрозу оригинальность и креативность содержания корпуса обучения (информации на базе которой учится алгоритм — прим.ред) . Это важный вывод".

По словам ученых, исследование подчеркивает необходимость дополнительного изучения текстовых генераторов и этических и философских вопросов, которые с ними связаны.

"Даже несмотря на то, что результат может быть привлекательным, а языковые модели — забавными в использовании и казаться продуктивными для определенных задач, это не означает, что они практичны, — утверждает Тай Ле, доцент кафедры компьютерных и информационных наук Университета Миссисипи, который начал работать над проектом в качестве докторанта в Penn State. — На практике нам нужно позаботиться об этических проблемах и вопросах авторского права, которые возникают в случае использования текстовых генераторов".

Хотя результаты исследования применимы только к GPT-2, установленный исследователями процесс автоматического обнаружения плагиата можно использовать и в отношении более новых языковых моделей, таких как ChatGPT. Однако, итоги проверки зависят от того, сделают ли разработчики общедоступными обучающие данные, говорят исследователи.

По словам ученых, результаты их работы могут помочь в будущем создавать более надежные и ответственные языковые модели. На данный момент они призывают людей проявлять осторожность при использовании текстовых генераторов.

Редактор: Илья Дочар

Источник: Пинсельванский университет

Hea lugeja, näeme et kasutate vanemat brauseri versiooni või vähelevinud brauserit.

Parema ja terviklikuma kasutajakogemuse tagamiseks soovitame alla laadida uusim versioon mõnest meie toetatud brauserist: