Perché i LLM ci stanno “rubando” il trattino lungo (em-dash)?

L’articolo sostiene che il trattino lungo “—” stia diventando un simbolo riconoscibile dei testi generati dall’IA.
L’autrice Lia Erisson racconta che, dopo il lancio di ChatGPT nel 2022, si è resa conto che il suo stile di scrittura somigliava all’IA: frasi lunghe, strutture prevedibili e uso frequente di em-dash.
L’emergere di strumenti di “rilevamento IA” nelle scuole e nell’editoria ha spinto molti a cambiare modo di scrivere per evitare di essere sospettati di usare l’IA.
I rilevatori di IA valutano i testi in base alla difficoltà di prevedere le parole (“perplessità”), alla variazione della struttura delle frasi (“burstiness”) e ad altri indicatori statistici.
L’autrice ha iniziato a evitare frasi troppo lunghe, punti e virgola, gruppi di tre idee ed em-dash per paura di essere segnalata.
Secondo l’articolo, i LLM usano molti em-dash per due motivi principali: i dati di addestramento e l’ottimizzazione delle risposte.
Oltre il 60% dei dati di addestramento di GPT-3 proviene da web crawl — sistemi che raccolgono testi pubblici su Internet.
I LLM imparano predicendo la parola successiva in una sequenza linguistica, assorbendo così stili di scrittura e strutture grammaticali.
Se una struttura come l’em-dash appare a sufficienza nei dati e non viene corretta dopo l’addestramento, diventa un “istinto” del modello.
L’autore Brent Csutoras ha provato a chiedere a ChatGPT, Claude e altri modelli di smettere di usare l’em-dash, ma senza successo perché l’abitudine è radicata nell’output dell’IA.
Una ricerca di Freeburg mostra che GPT-4.1 usa l’em-dash 3,28 volte più spesso di un normale scrittore in saggi standard.
Secondo questo studio, vietare o limitare l’em-dash tramite prompt è quasi inefficace.
Un’ipotesi suggerisce un’influenza dalla moderazione dei contenuti dei chatbot in Africa, dove l’inglese tende a usare più spesso parole come “delve”.
Tuttavia, l’articolo osserva che i moderatori si concentrano principalmente sulla rimozione di contenuti tossici piuttosto che sulla regolazione dello stile linguistico.
L’autrice confronta i dati tra COCA — un archivio di testi dei media moderni — e OpenWebText, un dataset che simula i dati di addestramento dell’IA.
OpenWebText ha una frequenza di em-dash estremamente alta, circa 1.621,88 volte ogni milione di parole.
Un’altra ipotesi riguarda un pregiudizio implicito: l’em-dash è comune nella letteratura e nei saggi lunghi, ma raro nelle comunicazioni quotidiane come email o messaggi.
Poiché i LLM sono addestrati pesantemente su articoli lunghi e accademici, assorbono l’uso dell’em-dash più di una persona comune.
Oltre ai fattori dei dati, modelli come Claude o ChatGPT sono ottimizzati per generare risposte “chiare”, e l’em-dash è particolarmente adatto per spiegare e scomporre idee complesse.
L’autrice crede che il fatto che gli umani evitino l’em-dash per non sembrare IA potrebbe portare i futuri LLM a ridurne l’uso di conseguenza.
Tuttavia, l’articolo teme che la paura di essere “scoperti dall’IA” stia cambiando la natura della scrittura: per sembrare “umani”, molti devono scrivere in modo meno creativo.

📌 Conclusione: Un interessante paradosso dell’era dell’IA: i modelli linguistici vengono addestrati sullo stile umano, ma ora spingono gli umani a cambiare stile per non essere scambiati per IA. Il trattino lungo em-dash è l’esempio tipico, con GPT-4.1 che lo usa 3,28 volte più del normale e l’impossibilità quasi totale di eliminarlo tramite prompt. Ancora più importante, l’autrice ritiene che la paura dei rilevatori IA stia impoverendo la libertà di espressione, portando gli scrittori a evitare persino strutture un tempo considerate segni di uno stile raffinato e creativo.

What's Hot

La Cina sta per restringere l’AI open-source: l’autore invita gli USA a rispondere aprendo l’AI, non vietando quella cinese

Moonshot AI accusata di utilizzare chip Nvidia nonostante il divieto: la corsa all’IA tra USA e Cina continua a intensificarsi

Il Giappone sperimenta l'”impiegato IA”: l’IA non solo assiste, ma inizia a lavorare come un collega

Perché i LLM ci stanno “rubando” il trattino lungo (em-dash)?

La Cina sta per restringere l’AI open-source: l’autore invita gli USA a rispondere aprendo l’AI, non vietando quella cinese

Moonshot AI accusata di utilizzare chip Nvidia nonostante il divieto: la corsa all’IA tra USA e Cina continua a intensificarsi

Il Giappone sperimenta l'”impiegato IA”: l’IA non solo assiste, ma inizia a lavorare come un collega

CONTATTI

What's Hot

La Cina sta per restringere l’AI open-source: l’autore invita gli USA a rispondere aprendo l’AI, non vietando quella cinese

Moonshot AI accusata di utilizzare chip Nvidia nonostante il divieto: la corsa all’IA tra USA e Cina continua a intensificarsi

Il Giappone sperimenta l'”impiegato IA”: l’IA non solo assiste, ma inizia a lavorare come un collega

Perché i LLM ci stanno “rubando” il trattino lungo (em-dash)?

Related Posts

La Cina sta per restringere l’AI open-source: l’autore invita gli USA a rispondere aprendo l’AI, non vietando quella cinese

Moonshot AI accusata di utilizzare chip Nvidia nonostante il divieto: la corsa all’IA tra USA e Cina continua a intensificarsi

Il Giappone sperimenta l'”impiegato IA”: l’IA non solo assiste, ma inizia a lavorare come un collega

CONTATTI