Определить сгенерированный текст будет возможно с помощью специальных водяных знаков

Детекторы ИИ не способны качественно определять сгенерированный текст. Проблема в том, что качество текста, сгенерированного ИИ, постоянно улучшается, а детекторы, скорее всего, обучаются на множестве примеров старых поколений. Если их не переобучать на почти постоянной основе, модели классификаторов со временем обязательно станут менее точными.

OpenAI разрабатывает метод нанесения водяных знаков на текст, но он сопряжен с серьезными рисками, которые мы взвешиваем, пока изучаем альтернативы, включая подверженность обходу со стороны злоумышленников и возможность непропорционально сильного воздействия на группы людей, которые плохо говорят на английском языке — сказал представитель OpenAI.

Метод будет работать только для текстов, полученных из ChatGPT. Это будет сделано путем внесения небольших изменений в то, как ChatGPT выбирает слова, по сути, создавая невидимый водяной знак в письме, который впоследствии может быть обнаружен отдельным инструментом.

В обновленном исследовании OpenAI говорится, что водяные знаки в тексте оказались «высокоточным и даже эффективным средством против локального вмешательства, такого как перефразирование», но оказались «менее надежными против глобального вмешательства; например, использования систем перевода, перефразирования с помощью другой генеративной модели или просьбы к модели вставить специальный символ между каждым словом и затем удалить этот символ».

В результате OpenAI пишет, что этот метод легко обойти злоумышленникам. Также водяные знаки могут стать преградой для людей, которые не являются носителями английского языка и используют ChatGPT в качестве помощника для написания текстов.