Ученые ищут способ выявлять плагиат в работе генераторов текста
Студентам, возможно, стоит дважды подумать, прежде чем использовать чат-бота для выполнения своего следующего задания. Свежее исследование показало, что языковые модели, которые генерируют текст в ответ на запросы пользователя, тоже "плагиатят", причем делают это разными способами.
Группа ученых под руководством Пинсельванского университета провела первое исследование, касающееся плагиата и языковых моделях. По мнению Донгвона Ли, профессора информационных наук и технологий в Университете штата Пенсильвания, плагиат бывает разных видов. Вопрос в том, могут ли языковые модели не только копировать и вставлять, но и прибегать к более изощренным формам плагиата, не осознавая этого.
Исследователи сосредоточились на выявлении трех форм плагиата: дословное или прямое копирование и вставка контента; перефразирование и реструктурирование содержания без ссылки на первоисточник; и использование основной идеи из текста без надлежащей атрибуции. Они создали систему для автоматического обнаружения плагиата и протестировали ее на GPT-2 OpenAI, поскольку данные обучения языковой модели доступны в интернете, что позволяет исследователям сравнивать сгенерированные тексты с восьмью миллионами документов, используемых для предварительного обучения GPT-2.
Для проверки на плагиат, ученые использовали 210 000 сгенерированных текстов, а в роли проверяемых выступили три группы языковых моделей: предварительно обученные, прошедшие дополнительную настройку и сфокусированные на конкретных темах.
Команда точно настроила языковые модели, чтобы сосредоточиться на научных документах, статьях, связанных с COVID-19, и патентных заявках. Ученые использовали поисковую систему с открытым исходным кодом, чтобы найти десять лучших документов, наиболее похожих на каждый сгенерированный текст, и модифицировали существующий алгоритм выравнивания, чтобы лучше обнаруживать случаи дословного, перефразированного и идейного плагиата.
Оказалось, что языковые модели допускают все три типа плагиата, и чем больше набор данных и параметры, используемые для обучения модели, тем чаще происходит плагиат. Они также отметили, что в случае с точно настроенными языковыми моделями дословного плагиата было меньше, но увеличилось количество случаев перефразирования и плагиата идей. Кроме того, они выявили случаи, когда языковая модель раскрывала личную информацию людей посредством всех трех форм плагиата. Исследователи представят свои выводы на веб-конференции ACM, которая пройдет с 30 апреля по 4 мая.
"Люди используют большие языковые модели, потому что у них больше возможности генерации — говорит ведущий автор Джуён Ли, докторант Колледжа информационных наук и технологий в Пенсильвании. — В то же время они ставят под угрозу оригинальность и креативность содержания корпуса обучения (информации на базе которой учится алгоритм — прим.ред) . Это важный вывод".
По словам ученых, исследование подчеркивает необходимость дополнительного изучения текстовых генераторов и этических и философских вопросов, которые с ними связаны.
"Даже несмотря на то, что результат может быть привлекательным, а языковые модели — забавными в использовании и казаться продуктивными для определенных задач, это не означает, что они практичны, — утверждает Тай Ле, доцент кафедры компьютерных и информационных наук Университета Миссисипи, который начал работать над проектом в качестве докторанта в Penn State. — На практике нам нужно позаботиться об этических проблемах и вопросах авторского права, которые возникают в случае использования текстовых генераторов".
Хотя результаты исследования применимы только к GPT-2, установленный исследователями процесс автоматического обнаружения плагиата можно использовать и в отношении более новых языковых моделей, таких как ChatGPT. Однако, итоги проверки зависят от того, сделают ли разработчики общедоступными обучающие данные, говорят исследователи.
По словам ученых, результаты их работы могут помочь в будущем создавать более надежные и ответственные языковые модели. На данный момент они призывают людей проявлять осторожность при использовании текстовых генераторов.
Редактор: Илья Дочар
Источник: Пинсельванский университет