- Một xu hướng mới đang lan rộng trong giới startup AI: tự thu thập dữ liệu độc quyền, thay vì quét Internet hoặc thuê lao động giá rẻ để gắn nhãn dữ liệu như trước đây.
- Hè 2025, Taylor – một nghệ sĩ tự do – cùng bạn cùng phòng đeo camera GoPro trên trán để quay lại cảnh vẽ tranh, nấu ăn, dọn nhà… nhằm tạo dữ liệu huấn luyện cho mô hình thị giác AI của công ty Turing.
- Mỗi ngày họ phải tạo 5 giờ video đồng bộ, nhưng thực tế mất 7 giờ làm việc do cần nghỉ giải lao và phục hồi. Taylor nói việc đeo camera liên tục “gây đau đầu và để lại vết hằn đỏ trên trán.”
- Turing thuê hàng trăm người lao động thủ công — từ đầu bếp, thợ xây, thợ điện — để thu thập video thực tế từ nhiều góc quay, giúp AI học tư duy trình tự và lý luận trực quan.
- Sudarshan Sivaraman, Giám đốc AGI của Turing, cho biết: “Chúng tôi cần dữ liệu đa dạng từ các công việc tay chân, vì chỉ vậy mô hình mới hiểu cách con người thực sự làm việc.”
- 75–80% dữ liệu của Turing là dữ liệu tổng hợp (synthetic), được mở rộng từ video thật. Tuy nhiên, chất lượng dữ liệu gốc quyết định độ chính xác của toàn hệ thống: “Nếu dữ liệu đầu vào kém, dữ liệu tổng hợp cũng sẽ kém.”
- Fyxer, startup AI chuyên xử lý email, cũng đi theo hướng này. Thay vì dùng dữ liệu đại trà, họ huấn luyện mô hình bằng nhóm trợ lý điều hành chuyên nghiệp, hiểu rõ khi nào nên phản hồi email — một nhiệm vụ “rất con người.”
- Nhà sáng lập Richard Hollingsworth nói: “Chính chất lượng dữ liệu, không phải số lượng, mới quyết định hiệu suất.” Ông gọi đây là lợi thế cạnh tranh (moat) mà đối thủ khó sao chép.
- Các startup như Turing và Fyxer cho thấy sự chuyển dịch: AI giờ không chỉ là thuật toán mạnh, mà là dữ liệu chuẩn xác được con người tinh chỉnh, với độ trung thực cao và tính ứng dụng thực tế.
📌 Một xu hướng mới đang lan rộng trong giới startup AI: tự thu thập dữ liệu độc quyền, thay vì quét Internet hoặc thuê lao động giá rẻ để gắn nhãn dữ liệu như trước đây. Chính chất lượng dữ liệu, không phải số lượng, mới quyết định hiệu suất.” Đây là lợi thế cạnh tranh mà đối thủ khó sao chép. Xu hướng này đánh dấu cuộc cách mạng chất lượng dữ liệu — nơi những mô hình hiệu quả nhất được xây từ dữ liệu thật, người thật, và hành động thật.
