- OpenAI công bố hệ thống an toàn mới giúp ChatGPT nhận biết rủi ro phát sinh dần theo thời gian thay vì chỉ dựa vào một tin nhắn đơn lẻ.
- Hệ thống mới tập trung vào các tình huống nguy cơ cao như tự tử, tự gây hại và gây hại cho người khác.
- ChatGPT giờ có thể kết nối các tín hiệu nhỏ hoặc mơ hồ xuất hiện xuyên suốt nhiều đoạn hội thoại để đánh giá mức độ nguy hiểm chính xác hơn.
- Khi phát hiện nguy cơ tăng dần, mô hình sẽ ưu tiên de-escalate, từ chối nội dung nguy hiểm hoặc hướng người dùng đến hỗ trợ an toàn hơn.
- OpenAI phát triển “safety summaries”, tức các ghi chú ngắn về bối cảnh an toàn quan trọng xuất hiện trong các cuộc trò chuyện trước đó.
- Các safety summary chỉ được lưu tạm thời, dùng cho trường hợp nguy cơ nghiêm trọng và không hoạt động như bộ nhớ cá nhân hóa dài hạn.
- Hệ thống được xây dựng cùng mạng lưới chuyên gia tâm thần học và phòng chống tự tử thuộc Global Physicians Network của OpenAI.
- Trong đánh giá nội bộ, hiệu suất phản hồi an toàn tăng 50% ở tình huống tự tử/tự gây hại và tăng 16% ở tình huống gây hại cho người khác trong hội thoại dài.
- Trên GPT-5.5 Instant, hiệu suất phản hồi an toàn tăng 52% với tình huống gây hại cho người khác và 39% với tự tử/tự gây hại.
- OpenAI đánh giá hơn 4.000 safety summary với điểm liên quan an toàn trung bình 4,93/5 và độ chính xác thực tế 4,34/5.
- Công ty cho biết việc bổ sung safety context không làm giảm chất lượng các cuộc trò chuyện thông thường trong thử nghiệm nội bộ.
📌 OpenAI đang biến ChatGPT từ chatbot phản hồi từng tin nhắn riêng lẻ thành hệ thống có khả năng “nhìn toàn cảnh” hành vi người dùng trong các tình huống nhạy cảm. Điểm quan trọng nhất là mô hình giờ có thể phát hiện nguy cơ tích lũy theo thời gian thay vì chờ tín hiệu nguy hiểm rõ ràng xuất hiện ngay lập tức. Đây là bước tiến lớn trong AI safety nhưng cũng mở ra tranh luận mới về quyền riêng tư, khả năng ghi nhớ ngữ cảnh và mức độ giám sát hành vi người dùng của các hệ thống AI trong tương lai.
Tổng hợp
