• В статье утверждается, что длинное тире «—» становится узнаваемым символом текста, созданного ИИ.
  • Автор Лия Эриссон рассказывает, что после запуска ChatGPT от OpenAI в 2022 году она заметила сходство своего стиля с ИИ: длинные предложения, предсказуемые структуры и частое использование тире.
  • Появление инструментов «детекции ИИ» в школах и издательствах заставило многих изменить манеру письма, чтобы избежать подозрений в использовании ИИ.
  • Детекторы ИИ оценивают текст на основе сложности предсказания слов («perplexity»), вариативности структуры предложений («burstiness») и других статистических признаков.
  • Автор начала избегать слишком длинных предложений, точек с запятой, перечислений из трех пунктов и длинных тире из страха быть помеченной.
  • Согласно статье, LLM часто используют тире по двум причинам: данные для обучения и оптимизация ответов.
  • Более 60% данных для обучения GPT-3 получены из веб-скрейпинга (web crawls) — систем сбора общедоступных текстов из интернета.
  • LLM учатся, предсказывая следующее слово в лингвистической последовательности, тем самым впитывая стили письма и грамматические структуры.
  • Если структура, такая как тире, встречается в данных достаточно часто и не корректируется после обучения, она становится «инстинктом» модели.
  • Автор Брент Ксуторас пытался просить ChatGPT, Claude и другие модели перестать использовать тире, но безуспешно, так как эта привычка глубоко укоренилась в выводах ИИ.
  • Исследование Freeburg показывает, что GPT-4.1 использует тире в 3,28 раза чаще, чем обычный писатель в стандартных эссе.
  • Согласно этому исследованию, запрет или ограничение тире через промпты почти неэффективны.
  • Одна из гипотез предполагает влияние модерации контента чат-ботов в Африке, где в английском языке чаще используются слова вроде «delve».
  • Однако в статье отмечается, что модераторы в основном сосредоточены на удалении вредоносного контента, а не на прямой корректировке языкового стиля.
  • Автор сравнивает данные COCA (современного корпуса текстов СМИ) и OpenWebText (набора данных, имитирующего данные для обучения ИИ).
  • В OpenWebText частота использования тире крайне высока — около 1621,88 раз на миллион слов.
  • Другая гипотеза связана с неявным предубеждением: тире популярно в литературе и длинных эссе, но редко встречается в повседневном общении (email, сообщения).
  • Поскольку LLM обучаются в основном на длинных и академических статьях, они впитывают использование тире больше, чем обычный человек.
  • Помимо факторов данных, такие модели, как Claude или ChatGPT, оптимизированы для создания «ясных» ответов, а тире идеально подходит для объяснения и разделения сложных идей.
  • Автор считает, что по мере того, как люди будут всё чаще избегать тире, чтобы их не приняли за ИИ, будущие LLM также могут сократить его использование.
  • Однако в статье выражается обеспокоенность тем, что страх быть «пойманным ИИ» меняет саму суть письма: чтобы звучать «по-человечески», многим приходится писать менее творчески.

📌 Заключение: Интересный парадокс эпохи ИИ: языковые модели обучаются на человеческом письме, но теперь заставляют людей менять свой стиль, чтобы их не приняли за ИИ. Длинное тире стало типичным примером: GPT-4.1 использует его в 3,28 раза чаще нормы, и это почти невозможно полностью устранить через промпты. Что еще важнее, автор полагает, что страх перед детекторами ИИ обедняет свободу самовыражения, заставляя писателей избегать структур, которые когда-то считались признаком изысканного и творческого стиля.

Share.
VIET NAM CONSULTING AND MEASUREMENT JOINT STOCK COMPANY
KONTAKT

Электронная почта: info@vietmetric.vn
Адрес: Дом 34, переулок 91, улица Чан Зуй Хынг, район Йен Хоа, город Ханой

© 2026 Vietmetric
Exit mobile version