Pourquoi les LLM nous « volent-ils » le tiret cadratin (em-dash) ?

L’article suggère que le tiret cadratin « — » devient un signe distinctif des textes générés par l’IA.
L’auteure Lia Erisson raconte qu’après le lancement d’OpenAI ChatGPT en 2022, elle a réalisé que son style d’écriture ressemblait à celui de l’IA : phrases longues, structures prévisibles et usage fréquent du tiret cadratin.
L’émergence des « détecteurs d’IA » dans les écoles et l’édition pousse de nombreuses personnes à changer leur façon d’écrire pour éviter d’être soupçonnées d’utiliser l’IA.
Les détecteurs d’IA évaluent les textes en fonction de l’imprévisibilité des mots (« perplexité »), de la variation de la structure des phrases (« burstiness ») et d’autres marqueurs statistiques.
L’auteure a commencé à éviter les phrases trop longues, les points-virgules, les groupes de trois idées et les tirets cadratins par peur d’être signalée.
Selon l’article, les LLM utilisent beaucoup de tirets cadratins pour deux raisons principales : les données d’entraînement et l’optimisation des réponses.
Plus de 60 % des données d’entraînement de GPT-3 proviennent de web crawls — des systèmes collectant des textes publics sur Internet.
Les LLM apprennent en prédisant le mot suivant dans une séquence linguistique, absorbant ainsi les styles d’écriture et les structures grammaticales.
Si una structure comme le tiret cadratin apparaît suffisamment dans les données et n’est pas ajustée après l’entraînement, elle devient un « instinct » du modèle.
L’auteur Brent Csutoras a tenté de demander à ChatGPT, Claude et d’autres modèles d’arrêter d’utiliser le tiret cadratin, mais sans succès car cette habitude est ancrée dans les sorties de l’IA.
Une étude de Freeburg montre que GPT-4.1 utilise le tiret cadratin 3,28 fois plus qu’un rédacteur humain normal dans des essais standards.
Selon cette étude, interdire ou limiter le tiret cadratin via des prompts est presque inefficace.
Une hypothèse suggère une influence de la modération des contenus des chatbots en Afrique, où l’anglais a tendance à utiliser plus souvent des mots comme « delve ».
Cependant, l’article note que les modérateurs se concentrent principalement sur la suppression de contenus toxiques plutôt que sur l’ajustement du style linguistique.
L’auteure compare les données entre COCA — un corpus de textes médiatiques modernes — et OpenWebText, un ensemble de données simulant les données d’entraînement de l’IA.
OpenWebText présente une fréquence de tirets cadratins extrêmement élevée, environ 1 621,88 fois par million de mots.
Une autre hypothèse concerne un biais implicite : le tiret cadratin est courant dans la littérature et les longs essais, mais rare dans les communications quotidiennes comme les e-mails ou les SMS.
Étant donné que les LLM sont formés massivement sur des articles longs et académiques, ils absorbent l’usage du tiret cadratin plus qu’une personne ordinaire.
Outre les facteurs de données, les modèles comme Claude ou ChatGPT sont optimisés pour générer des réponses « claires », et le tiret cadratin est particulièrement adapté pour expliquer et décomposer des idées complexes.
L’auteure pense que le fait que les humains évitent le tiret cadratin pour ne pas paraître être une IA pourrait amener les futurs LLM à en réduire l’usage.
Cependant, l’article s’inquiète du fait que la peur d’être « démasqué par l’IA » change la nature même de l’écriture : pour paraître « humain », beaucoup doivent écrire de manière moins créative.

📌 Conclusion : Un paradoxe intéressant de l’ère de l’IA : les modèles de langage sont formés à partir de l’écriture humaine, mais poussent désormais les humains à changer de style pour ne pas être confondus avec l’IA. Le tiret cadratin en est l’exemple type, avec GPT-4.1 qui l’utilise 3,28 fois plus que la normale, et l’impossibilité quasi totale de l’éliminer via des prompts. Plus important encore, l’auteure estime que la peur des détecteurs d’IA appauvrit la liberté d’expression, poussant les rédacteurs à éviter des structures autrefois considérées comme des signes de style raffiné et créatif.

What's Hot

La Chine s’apprête à restreindre l’IA open-source : l’auteur appelle les États-Unis à riposter par l’ouverture, non par l’interdiction de l’IA chinoise

Moonshot AI accusé d’utiliser des puces Nvidia malgré l’interdiction : la course à l’IA entre les États-Unis et la Chine continue de s’intensifier

Le Japon teste les « employés IA » : l’IA ne se contente plus d’assister, elle commence à travailler comme un collègue

Pourquoi les LLM nous « volent-ils » le tiret cadratin (em-dash) ?

La Chine s’apprête à restreindre l’IA open-source : l’auteur appelle les États-Unis à riposter par l’ouverture, non par l’interdiction de l’IA chinoise

Moonshot AI accusé d’utiliser des puces Nvidia malgré l’interdiction : la course à l’IA entre les États-Unis et la Chine continue de s’intensifier

Le Japon teste les « employés IA » : l’IA ne se contente plus d’assister, elle commence à travailler comme un collègue

La Chine s’apprête à restreindre l’IA open-source : l’auteur appelle les États-Unis à riposter par l’ouverture, non par l’interdiction de l’IA chinoise

Moonshot AI accusé d’utiliser des puces Nvidia malgré l’interdiction : la course à l’IA entre les États-Unis et la Chine continue de s’intensifier

Le Japon teste les « employés IA » : l’IA ne se contente plus d’assister, elle commence à travailler comme un collègue

La fièvre de l’IA crée des gagnants inattendus au Japon : les fabricants de toilettes, de fibre de verre et de glutamate profitent des puces IA

Contact

What's Hot

Pourquoi les LLM nous « volent-ils » le tiret cadratin (em-dash) ?

Related Posts

Contact