Почему LLM «крадут» наше длинное тире (em-dash)?

В статье утверждается, что длинное тире «—» становится узнаваемым символом текста, созданного ИИ.
Автор Лия Эриссон рассказывает, что после запуска ChatGPT от OpenAI в 2022 году она заметила сходство своего стиля с ИИ: длинные предложения, предсказуемые структуры и частое использование тире.
Появление инструментов «детекции ИИ» в школах и издательствах заставило многих изменить манеру письма, чтобы избежать подозрений в использовании ИИ.
Детекторы ИИ оценивают текст на основе сложности предсказания слов («perplexity»), вариативности структуры предложений («burstiness») и других статистических признаков.
Автор начала избегать слишком длинных предложений, точек с запятой, перечислений из трех пунктов и длинных тире из страха быть помеченной.
Согласно статье, LLM часто используют тире по двум причинам: данные для обучения и оптимизация ответов.
Более 60% данных для обучения GPT-3 получены из веб-скрейпинга (web crawls) — систем сбора общедоступных текстов из интернета.
LLM учатся, предсказывая следующее слово в лингвистической последовательности, тем самым впитывая стили письма и грамматические структуры.
Если структура, такая как тире, встречается в данных достаточно часто и не корректируется после обучения, она становится «инстинктом» модели.
Автор Брент Ксуторас пытался просить ChatGPT, Claude и другие модели перестать использовать тире, но безуспешно, так как эта привычка глубоко укоренилась в выводах ИИ.
Исследование Freeburg показывает, что GPT-4.1 использует тире в 3,28 раза чаще, чем обычный писатель в стандартных эссе.
Согласно этому исследованию, запрет или ограничение тире через промпты почти неэффективны.
Одна из гипотез предполагает влияние модерации контента чат-ботов в Африке, где в английском языке чаще используются слова вроде «delve».
Однако в статье отмечается, что модераторы в основном сосредоточены на удалении вредоносного контента, а не на прямой корректировке языкового стиля.
Автор сравнивает данные COCA (современного корпуса текстов СМИ) и OpenWebText (набора данных, имитирующего данные для обучения ИИ).
В OpenWebText частота использования тире крайне высока — около 1621,88 раз на миллион слов.
Другая гипотеза связана с неявным предубеждением: тире популярно в литературе и длинных эссе, но редко встречается в повседневном общении (email, сообщения).
Поскольку LLM обучаются в основном на длинных и академических статьях, они впитывают использование тире больше, чем обычный человек.
Помимо факторов данных, такие модели, как Claude или ChatGPT, оптимизированы для создания «ясных» ответов, а тире идеально подходит для объяснения и разделения сложных идей.
Автор считает, что по мере того, как люди будут всё чаще избегать тире, чтобы их не приняли за ИИ, будущие LLM также могут сократить его использование.
Однако в статье выражается обеспокоенность тем, что страх быть «пойманным ИИ» меняет саму суть письма: чтобы звучать «по-человечески», многим приходится писать менее творчески.

📌 Заключение: Интересный парадокс эпохи ИИ: языковые модели обучаются на человеческом письме, но теперь заставляют людей менять свой стиль, чтобы их не приняли за ИИ. Длинное тире стало типичным примером: GPT-4.1 использует его в 3,28 раза чаще нормы, и это почти невозможно полностью устранить через промпты. Что еще важнее, автор полагает, что страх перед детекторами ИИ обедняет свободу самовыражения, заставляя писателей избегать структур, которые когда-то считались признаком изысканного и творческого стиля.

What's Hot

Китай ограничит открытый ИИ: автор призывает США ответить открытостью, а не запретом китайского ИИ

Moonshot AI обвиняют в использовании чипов Nvidia вопреки запрету: гонка ИИ между США и Китаем продолжает обостряться

Япония тестирует «ИИ-сотрудников»: ИИ не просто помогает, а начинает работать как коллега

Почему LLM «крадут» наше длинное тире (em-dash)?

Китай ограничит открытый ИИ: автор призывает США ответить открытостью, а не запретом китайского ИИ

Moonshot AI обвиняют в использовании чипов Nvidia вопреки запрету: гонка ИИ между США и Китаем продолжает обостряться

Япония тестирует «ИИ-сотрудников»: ИИ не просто помогает, а начинает работать как коллега

Китай ограничит открытый ИИ: автор призывает США ответить открытостью, а не запретом китайского ИИ

Moonshot AI обвиняют в использовании чипов Nvidia вопреки запрету: гонка ИИ между США и Китаем продолжает обостряться

Япония тестирует «ИИ-сотрудников»: ИИ не просто помогает, а начинает работать как коллега

Лихорадка ИИ создает неожиданных победителей в Японии: производители унитазов, стекловолокна и глутамата натрия получают прибыль от ИИ-чипов

KONTAKT

What's Hot

Почему LLM «крадут» наше длинное тире (em-dash)?

Related Posts

KONTAKT