Vì sao LLM “đánh cắp” dấu gạch ngang dài em-dash của chúng ta?

Bài viết cho rằng dấu em-dash “—” đang trở thành biểu tượng dễ nhận biết của văn bản do AI tạo ra.
Tác giả Lia Erisson kể rằng sau khi OpenAI ChatGPT ra mắt năm 2022, cô nhận ra phong cách viết của mình giống AI: câu dài, cấu trúc dễ đoán và dùng nhiều em-dash.
Sự xuất hiện của các công cụ “AI detector” trong trường học và xuất bản khiến nhiều người thay đổi cách viết để tránh bị nghi ngờ dùng AI.
Các AI detector đánh giá văn bản dựa trên độ khó dự đoán từ ngữ (“perplexity”), mức độ biến đổi cấu trúc câu (“burstiness”) và nhiều dấu hiệu thống kê khác.
Tác giả bắt đầu tránh dùng câu quá dài, dấu chấm phẩy, nhóm ba ý và em-dash vì sợ bị gắn cờ.
Theo bài viết, LLM dùng nhiều em-dash do hai nguyên nhân chính: dữ liệu huấn luyện và quá trình tối ưu hóa phản hồi.
Hơn 60% dữ liệu huấn luyện của GPT-3 đến từ web crawls — các hệ thống thu thập văn bản công khai trên Internet.
Các LLM học bằng cách dự đoán từ tiếp theo trong chuỗi ngôn ngữ, từ đó hấp thụ luôn cả phong cách viết và cấu trúc ngữ pháp.
Nếu một cấu trúc như em-dash xuất hiện đủ nhiều trong dữ liệu và không bị điều chỉnh sau huấn luyện, nó trở thành “bản năng” của mô hình.
Tác giả Brent Csutoras từng thử yêu cầu ChatGPT, Claude và các mô hình khác ngừng dùng em-dash nhưng thất bại vì thói quen này đã ăn sâu vào đầu ra của AI.
Nghiên cứu của Freeburg cho thấy GPT-4.1 dùng em-dash nhiều gấp 3,28 lần người viết bình thường trong các bài luận tiêu chuẩn.
Theo nghiên cứu này, việc cấm hoặc hạn chế em-dash qua prompt gần như không hiệu quả.
Một giả thuyết cho rằng ảnh hưởng đến từ việc kiểm duyệt nội dung chatbot tại châu Phi, nơi tiếng Anh có xu hướng dùng các từ như “delve” thường xuyên hơn.
Tuy nhiên, bài viết nhận định các moderator chủ yếu tập trung loại bỏ nội dung độc hại chứ không trực tiếp điều chỉnh phong cách ngôn ngữ.
Tác giả so sánh dữ liệu giữa COCA — kho văn bản đại diện truyền thông đại chúng hiện đại — và OpenWebText, bộ dữ liệu mô phỏng dữ liệu huấn luyện AI.
OpenWebText có tần suất em-dash cực cao, khoảng 1.621,88 lần trên mỗi triệu từ.
Một giả thuyết khác liên quan đến thiên kiến ngầm: em-dash phổ biến trong văn học và bài luận dài nhưng ít xuất hiện trong giao tiếp hàng ngày như email hoặc tin nhắn.
Vì LLM được huấn luyện nhiều bằng bài viết dài và học thuật, chúng hấp thụ cách dùng em-dash nhiều hơn người bình thường.
Ngoài yếu tố dữ liệu, các mô hình như Claude hay ChatGPT còn được tối ưu để tạo phản hồi “rõ ràng”, trong khi em-dash đặc biệt phù hợp để giải thích và chia nhỏ ý tưởng phức tạp.
Tác giả tin rằng việc con người ngày càng né em-dash để tránh bị coi là dùng AI có thể khiến LLM tương lai giảm dùng dấu này theo.
Tuy nhiên, bài viết lo ngại nỗi sợ bị “bắt AI” đang làm thay đổi bản chất của việc viết: để nghe có vẻ “con người”, nhiều người phải viết kém sáng tạo hơn.

📌 Một nghịch lý thú vị của thời đại AI: các mô hình ngôn ngữ được huấn luyện từ cách viết của con người nhưng giờ lại khiến con người thay đổi phong cách để tránh bị nhầm là AI. Dấu em-dash trở thành ví dụ điển hình khi GPT-4.1 dùng nó nhiều gấp 3,28 lần bình thường và gần như không thể loại bỏ hoàn toàn bằng prompt. Quan trọng hơn, tác giả cho rằng nỗi sợ AI detector đang làm nghèo đi sự tự do biểu đạt trong viết lách, khiến người viết né tránh cả những cấu trúc từng được xem là dấu hiệu của văn phong tinh tế và sáng tạo.

Tổng hợp

What's Hot

Trung Quốc sắp siết AI nguồn mở: Tác giả kêu gọi Mỹ đáp trả bằng cách mở AI, không phải cấm AI Trung Quốc

Moonshot AI bị cáo buộc sử dụng chip Nvidia dù bị cấm: Cuộc đua AI Mỹ – Trung tiếp tục leo thang

Nhật Bản thử nghiệm “nhân viên AI”: AI không chỉ hỗ trợ mà bắt đầu làm việc như một đồng nghiệp

Vì sao LLM “đánh cắp” dấu gạch ngang dài em-dash của chúng ta?

Trung Quốc sắp siết AI nguồn mở: Tác giả kêu gọi Mỹ đáp trả bằng cách mở AI, không phải cấm AI Trung Quốc

Moonshot AI bị cáo buộc sử dụng chip Nvidia dù bị cấm: Cuộc đua AI Mỹ – Trung tiếp tục leo thang

Nhật Bản thử nghiệm “nhân viên AI”: AI không chỉ hỗ trợ mà bắt đầu làm việc như một đồng nghiệp

Liên hệ:

What's Hot

Trung Quốc sắp siết AI nguồn mở: Tác giả kêu gọi Mỹ đáp trả bằng cách mở AI, không phải cấm AI Trung Quốc

Moonshot AI bị cáo buộc sử dụng chip Nvidia dù bị cấm: Cuộc đua AI Mỹ – Trung tiếp tục leo thang

Nhật Bản thử nghiệm “nhân viên AI”: AI không chỉ hỗ trợ mà bắt đầu làm việc như một đồng nghiệp

Vì sao LLM “đánh cắp” dấu gạch ngang dài em-dash của chúng ta?

Related Posts

Trung Quốc sắp siết AI nguồn mở: Tác giả kêu gọi Mỹ đáp trả bằng cách mở AI, không phải cấm AI Trung Quốc

Moonshot AI bị cáo buộc sử dụng chip Nvidia dù bị cấm: Cuộc đua AI Mỹ – Trung tiếp tục leo thang

Nhật Bản thử nghiệm “nhân viên AI”: AI không chỉ hỗ trợ mà bắt đầu làm việc như một đồng nghiệp

Liên hệ: