Warum „stehlen“ uns die LLMs den Gedankenstrich (Em-Dash)?

Der Artikel argumentiert, dass der Gedankenstrich „—“ zu einem erkennbaren Symbol für KI-generierte Texte wird.
Die Autorin Lia Erisson berichtet, dass sie nach dem Start von OpenAI ChatGPT im Jahr 2022 feststellte, dass ihr Schreibstil der KI ähnelte: lange Sätze, vorhersehbare Strukturen und häufige Verwendung des Em-Dash.
Das Aufkommen von „KI-Detektoren“ in Schulen und im Verlagswesen führt dazu, dass viele Menschen ihren Schreibstil ändern, um nicht der KI-Nutzung verdächtigt zu werden.
KI-Detektoren bewerten Texte basierend auf der Unvorhersehbarkeit von Wörtern („Perplexity“), der Variabilität der Satzstruktur („Burstiness“) und anderen statistischen Merkmalen.
Aus Angst, markiert zu werden, mied die Autorin lange Sätze, Semikolons, Dreiergruppen von Ideen und den Em-Dash.
Dem Artikel zufolge verwenden LLMs den Em-Dash aus zwei Hauptgründen häufig: Trainingsdaten und Antwortoptimierung.
Über 60 % der Trainingsdaten von GPT-3 stammen aus Web-Crawls – Systemen, die öffentliche Texte aus dem Internet sammeln.
LLMs lernen, indem sie das nächste Wort in einer Sprachsequenz vorhersagen und dabei Schreibstile und grammatikalische Strukturen absorbieren.
Wenn eine Struktur wie der Em-Dash in den Daten oft genug vorkommt und nach dem Training nicht angepasst wird, wird sie zum „Instinkt“ des Modells.
Der Autor Brent Csutoras versuchte, ChatGPT, Claude und andere Modelle anzuweisen, den Em-Dash nicht mehr zu verwenden, scheiterte jedoch, da diese Gewohnheit tief im Output der KI verwurzelt ist.
Untersuchungen von Freeburg zeigen, dass GPT-4.1 den Em-Dash in Standard-Essays 3,28-mal häufiger verwendet als ein durchschnittlicher menschlicher Schreiber.
Laut dieser Studie ist das Verbot oder die Einschränkung des Em-Dash über Prompts fast wirkungslos.
Eine Hypothese besagt, dass der Einfluss von der Inhaltsmoderation von Chatbots in Afrika stammt, wo im Englischen Wörter wie „delve“ häufiger verwendet werden.
Der Artikel stellt jedoch fest, dass sich Moderatoren primär auf die Entfernung toxischer Inhalte konzentrieren und nicht direkt den Sprachstil anpassen.
Die Autorin vergleicht Daten zwischen COCA – einem modernen Medienkorpus – und OpenWebText, einem Datensatz, der KI-Trainingsdaten simuliert.
OpenWebText weist eine extrem hohe Em-Dash-Frequenz auf, etwa 1.621,88 Mal pro Million Wörter.
Eine weitere Hypothese betrifft implizite Bias: Der Em-Dash ist in der Literatur und in langen Essays verbreitet, taucht aber in der Alltagskommunikation wie E-Mails oder Nachrichten selten auf.
Da LLMs stark mit langen und akademischen Artikeln trainiert werden, absorbieren sie die Verwendung des Em-Dash mehr als ein normaler Mensch.
Neben Datenfaktoren sind Modelle wie Claude oder ChatGPT darauf optimiert, „klare“ Antworten zu geben, wobei der Em-Dash besonders geeignet ist, um komplexe Ideen zu erklären und aufzuteilen.
Die Autorin glaubt, dass die Tatsache, dass Menschen den Em-Dash meiden, um nicht für eine KI gehalten zu werden, dazu führen könnte, dass zukünftige LLMs ihn ebenfalls seltener verwenden.
Der Artikel äußert jedoch die Sorge, dass die Angst, „als KI enttarnt“ zu werden, das Wesen des Schreibens verändert: Um „menschlich“ zu klingen, müssen viele weniger kreativ schreiben.

📌 Fazit: Ein interessantes Paradoxon des KI-Zeitalters: Sprachmodelle werden auf menschlicher Schreibweise trainiert, bringen Menschen nun aber dazu, ihren Stil zu ändern, um nicht mit einer KI verwechselt zu werden. Der Gedankenstrich Em-Dash ist das Paradebeispiel, da GPT-4.1 ihn 3,28-mal häufiger als üblich verwendet und er fast nicht per Prompt zu eliminieren ist. Wichtiger noch ist die Ansicht der Autorin, dass die Angst vor KI-Detektoren die Ausdrucksfreiheit verarmt und Schreiber dazu bringt, selbst Strukturen zu meiden, die einst als Zeichen eines raffinierten und kreativen Stils galten.

What's Hot

China plant Verschärfung für Open-Source-KI: Autor fordert USA auf, mit offener KI zu reagieren, statt chinesische KI zu verbieten

Moonshot AI soll trotz Verbots Nvidia-Chips verwendet haben: Der KI-Wettlauf zwischen den USA und China eskaliert weiter

Japan testet „KI-Mitarbeiter“: KI unterstützt nicht nur, sondern beginnt als Kollege zu arbeiten

Warum „stehlen“ uns die LLMs den Gedankenstrich (Em-Dash)?

China plant Verschärfung für Open-Source-KI: Autor fordert USA auf, mit offener KI zu reagieren, statt chinesische KI zu verbieten

Moonshot AI soll trotz Verbots Nvidia-Chips verwendet haben: Der KI-Wettlauf zwischen den USA und China eskaliert weiter

Japan testet „KI-Mitarbeiter“: KI unterstützt nicht nur, sondern beginnt als Kollege zu arbeiten

KONTAKT

What's Hot

China plant Verschärfung für Open-Source-KI: Autor fordert USA auf, mit offener KI zu reagieren, statt chinesische KI zu verbieten

Moonshot AI soll trotz Verbots Nvidia-Chips verwendet haben: Der KI-Wettlauf zwischen den USA und China eskaliert weiter

Japan testet „KI-Mitarbeiter“: KI unterstützt nicht nur, sondern beginnt als Kollege zu arbeiten

Warum „stehlen“ uns die LLMs den Gedankenstrich (Em-Dash)?

Related Posts

China plant Verschärfung für Open-Source-KI: Autor fordert USA auf, mit offener KI zu reagieren, statt chinesische KI zu verbieten

Moonshot AI soll trotz Verbots Nvidia-Chips verwendet haben: Der KI-Wettlauf zwischen den USA und China eskaliert weiter

Japan testet „KI-Mitarbeiter“: KI unterstützt nicht nur, sondern beginnt als Kollege zu arbeiten

KONTAKT