Исследователи нашли простой способ отличить текст, созданный ИИ, от авторского
Специалисты из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных организаций предложили инновационный метод, который не только выявляет разницу между текстами, написанными человеком и нейросетью, но и объясняет, на основе каких критериев принимается решение. Ученые проанализировали внутренние процессы в глубинных слоях языковой модели, выделив числовые параметры, которые определяют стиль, сложность и даже «уверенность» текста.

Результаты исследования представлены на конференции Findings of ACL 2025. Бурное развитие крупных языковых моделей (LLM), включая ChatGPT, Gemma и LLaMA, привело к тому, что созданные ими тексты заполонили интернет, образовательные материалы и научные публикации. Это породило серьезную проблему: как отличить оригинальный контент от машинного? Современные детекторы зачастую работают по принципу «черного ящика» — они выдают результат без объяснений, что снижает их надежность. Если система ошибается, понять причину ошибки практически невозможно.
Ученые решили изменить подход. Вместо создания очередного необъяснимого алгоритма они сосредоточились на изучении внутренних механизмов нейросетей, преобразуя их скрытые состояния в понятные и измеримые характеристики текста. Для этого они применили метод разреженных автокодировщиков (Sparse Autoencoders, SAE). Если представить работу нейросети как сложную смесь сигналов, то SAE действует как фильтр, разделяющий их на отдельные компоненты, каждый из которых отвечает за определенный аспект текста — например, за сложность синтаксиса или специфику лексики.
Лаида Кушнарева, старший научный консультант Huawei, отметила:
«Люди, часто сталкивающиеся с текстами от ChatGPT, могут опознать их по характерным признакам — излишней формальности, многословию, повторяющимся фразам и низкой информативности. Однако большинство детекторов не объясняют, какие именно особенности выдают ИИ-генерацию. Наш метод на основе SAE позволяет разложить текст на числовые параметры, многие из которых можно интерпретировать. Кроме того, он превосходит существующие аналоги в тестах и даже выявляет попытки маскировки, такие как намеренное добавление лишних пробелов или символов. По сути, мы можем детально проанализировать текст и обосновать решение, опираясь на конкретные признаки».
В ходе эксперимента исследователи загружали в модель Gemma-2-2B различные тексты, фиксируя внутренние состояния на глубоких слоях. С помощью SAE они выделили тысячи параметров, на основе которых обучили классификатор. Затем начался этап интерпретации: ученые обнаружили как общие черты, свойственные большинству ИИ, так и специфические, характерные для отдельных моделей или жанров. Например, в научных статьях нейросети склонны к усложненному синтаксису, а в финансовых текстах — к избыточным пояснениям простых понятий.
Так, «параметр №3608» из 16-го слоя SAE оказался связан с синтаксической сложностью. Его искусственное усиление приводило к появлению громоздких предложений, а ослабление — к упрощению текста. Другой показатель, №4645, отражал «уверенность» изложения, а №6587 — склонность к пространным вступлениям.
Анастасия Вознюк, студентка МФТИ, дополнила:
«Мы не только анализировали признаки, но и экспериментировали с управлением генерацией. Изменяя определенные параметры, например, уровень «академичности», мы наблюдали соответствующие сдвиги в стиле текста. Это подтверждает, что стандартные запросы к ChatGPT часто приводят к шаблонным результатам, которые легко обнаружить. Однако если задать модели нестандартные условия, характерные признаки могут исчезнуть, что усложнит детекцию».
Исследование объединило автоматический анализ, ручную интерпретацию и методы управления генерацией, заложив основу для прозрачных детекторов. Такие инструменты помогут преподавателям, редакторам и борцам с дезинформацией. В долгосрочной перспективе работа приближает нас к пониманию того, как ИИ создает тексты, и поможет избежать необоснованных обвинений в использовании нейросетей.
Дальнейшие изыскания будут направлены на изучение более сложных моделей и скрытых признаков, чтобы оставаться на шаг впереди от злоупотребляющих технологиями и минимизировать ошибки в определении авторства.