- В статье утверждается, что длинное тире «—» становится узнаваемым символом текста, созданного ИИ.
- Автор Лия Эриссон рассказывает, что после запуска ChatGPT от OpenAI в 2022 году она заметила сходство своего стиля с ИИ: длинные предложения, предсказуемые структуры и частое использование тире.
- Появление инструментов «детекции ИИ» в школах и издательствах заставило многих изменить манеру письма, чтобы избежать подозрений в использовании ИИ.
- Детекторы ИИ оценивают текст на основе сложности предсказания слов («perplexity»), вариативности структуры предложений («burstiness») и других статистических признаков.
- Автор начала избегать слишком длинных предложений, точек с запятой, перечислений из трех пунктов и длинных тире из страха быть помеченной.
- Согласно статье, LLM часто используют тире по двум причинам: данные для обучения и оптимизация ответов.
- Более 60% данных для обучения GPT-3 получены из веб-скрейпинга (web crawls) — систем сбора общедоступных текстов из интернета.
- LLM учатся, предсказывая следующее слово в лингвистической последовательности, тем самым впитывая стили письма и грамматические структуры.
- Если структура, такая как тире, встречается в данных достаточно часто и не корректируется после обучения, она становится «инстинктом» модели.
- Автор Брент Ксуторас пытался просить ChatGPT, Claude и другие модели перестать использовать тире, но безуспешно, так как эта привычка глубоко укоренилась в выводах ИИ.
- Исследование Freeburg показывает, что GPT-4.1 использует тире в 3,28 раза чаще, чем обычный писатель в стандартных эссе.
- Согласно этому исследованию, запрет или ограничение тире через промпты почти неэффективны.
- Одна из гипотез предполагает влияние модерации контента чат-ботов в Африке, где в английском языке чаще используются слова вроде «delve».
- Однако в статье отмечается, что модераторы в основном сосредоточены на удалении вредоносного контента, а не на прямой корректировке языкового стиля.
- Автор сравнивает данные COCA (современного корпуса текстов СМИ) и OpenWebText (набора данных, имитирующего данные для обучения ИИ).
- В OpenWebText частота использования тире крайне высока — около 1621,88 раз на миллион слов.
- Другая гипотеза связана с неявным предубеждением: тире популярно в литературе и длинных эссе, но редко встречается в повседневном общении (email, сообщения).
- Поскольку LLM обучаются в основном на длинных и академических статьях, они впитывают использование тире больше, чем обычный человек.
- Помимо факторов данных, такие модели, как Claude или ChatGPT, оптимизированы для создания «ясных» ответов, а тире идеально подходит для объяснения и разделения сложных идей.
- Автор считает, что по мере того, как люди будут всё чаще избегать тире, чтобы их не приняли за ИИ, будущие LLM также могут сократить его использование.
- Однако в статье выражается обеспокоенность тем, что страх быть «пойманным ИИ» меняет саму суть письма: чтобы звучать «по-человечески», многим приходится писать менее творчески.
📌 Заключение: Интересный парадокс эпохи ИИ: языковые модели обучаются на человеческом письме, но теперь заставляют людей менять свой стиль, чтобы их не приняли за ИИ. Длинное тире стало типичным примером: GPT-4.1 использует его в 3,28 раза чаще нормы, и это почти невозможно полностью устранить через промпты. Что еще важнее, автор полагает, что страх перед детекторами ИИ обедняет свободу самовыражения, заставляя писателей избегать структур, которые когда-то считались признаком изысканного и творческого стиля.

