- Der Artikel argumentiert, dass der Gedankenstrich „—“ zu einem erkennbaren Symbol für KI-generierte Texte wird.
- Die Autorin Lia Erisson berichtet, dass sie nach dem Start von OpenAI ChatGPT im Jahr 2022 feststellte, dass ihr Schreibstil der KI ähnelte: lange Sätze, vorhersehbare Strukturen und häufige Verwendung des Em-Dash.
- Das Aufkommen von „KI-Detektoren“ in Schulen und im Verlagswesen führt dazu, dass viele Menschen ihren Schreibstil ändern, um nicht der KI-Nutzung verdächtigt zu werden.
- KI-Detektoren bewerten Texte basierend auf der Unvorhersehbarkeit von Wörtern („Perplexity“), der Variabilität der Satzstruktur („Burstiness“) und anderen statistischen Merkmalen.
- Aus Angst, markiert zu werden, mied die Autorin lange Sätze, Semikolons, Dreiergruppen von Ideen und den Em-Dash.
- Dem Artikel zufolge verwenden LLMs den Em-Dash aus zwei Hauptgründen häufig: Trainingsdaten und Antwortoptimierung.
- Über 60 % der Trainingsdaten von GPT-3 stammen aus Web-Crawls – Systemen, die öffentliche Texte aus dem Internet sammeln.
- LLMs lernen, indem sie das nächste Wort in einer Sprachsequenz vorhersagen und dabei Schreibstile und grammatikalische Strukturen absorbieren.
- Wenn eine Struktur wie der Em-Dash in den Daten oft genug vorkommt und nach dem Training nicht angepasst wird, wird sie zum „Instinkt“ des Modells.
- Der Autor Brent Csutoras versuchte, ChatGPT, Claude und andere Modelle anzuweisen, den Em-Dash nicht mehr zu verwenden, scheiterte jedoch, da diese Gewohnheit tief im Output der KI verwurzelt ist.
- Untersuchungen von Freeburg zeigen, dass GPT-4.1 den Em-Dash in Standard-Essays 3,28-mal häufiger verwendet als ein durchschnittlicher menschlicher Schreiber.
- Laut dieser Studie ist das Verbot oder die Einschränkung des Em-Dash über Prompts fast wirkungslos.
- Eine Hypothese besagt, dass der Einfluss von der Inhaltsmoderation von Chatbots in Afrika stammt, wo im Englischen Wörter wie „delve“ häufiger verwendet werden.
- Der Artikel stellt jedoch fest, dass sich Moderatoren primär auf die Entfernung toxischer Inhalte konzentrieren und nicht direkt den Sprachstil anpassen.
- Die Autorin vergleicht Daten zwischen COCA – einem modernen Medienkorpus – und OpenWebText, einem Datensatz, der KI-Trainingsdaten simuliert.
- OpenWebText weist eine extrem hohe Em-Dash-Frequenz auf, etwa 1.621,88 Mal pro Million Wörter.
- Eine weitere Hypothese betrifft implizite Bias: Der Em-Dash ist in der Literatur und in langen Essays verbreitet, taucht aber in der Alltagskommunikation wie E-Mails oder Nachrichten selten auf.
- Da LLMs stark mit langen und akademischen Artikeln trainiert werden, absorbieren sie die Verwendung des Em-Dash mehr als ein normaler Mensch.
- Neben Datenfaktoren sind Modelle wie Claude oder ChatGPT darauf optimiert, „klare“ Antworten zu geben, wobei der Em-Dash besonders geeignet ist, um komplexe Ideen zu erklären und aufzuteilen.
- Die Autorin glaubt, dass die Tatsache, dass Menschen den Em-Dash meiden, um nicht für eine KI gehalten zu werden, dazu führen könnte, dass zukünftige LLMs ihn ebenfalls seltener verwenden.
- Der Artikel äußert jedoch die Sorge, dass die Angst, „als KI enttarnt“ zu werden, das Wesen des Schreibens verändert: Um „menschlich“ zu klingen, müssen viele weniger kreativ schreiben.
📌 Fazit: Ein interessantes Paradoxon des KI-Zeitalters: Sprachmodelle werden auf menschlicher Schreibweise trainiert, bringen Menschen nun aber dazu, ihren Stil zu ändern, um nicht mit einer KI verwechselt zu werden. Der Gedankenstrich Em-Dash ist das Paradebeispiel, da GPT-4.1 ihn 3,28-mal häufiger als üblich verwendet und er fast nicht per Prompt zu eliminieren ist. Wichtiger noch ist die Ansicht der Autorin, dass die Angst vor KI-Detektoren die Ausdrucksfreiheit verarmt und Schreiber dazu bringt, selbst Strukturen zu meiden, die einst als Zeichen eines raffinierten und kreativen Stils galten.
