- Anthropic công bố “hiến pháp” mới cho mô hình AI Claude, mô tả chi tiết tầm nhìn, giá trị và cách Claude nên hành xử trong thế giới thực.
- “Hiến pháp” đóng vai trò trung tâm trong quá trình huấn luyện Claude, trực tiếp định hình hành vi, phản hồi và cách ra quyết định của mô hình.
- Toàn bộ văn bản được phát hành theo giấy phép Creative Commons CC0 1.0, cho phép bất kỳ ai tự do sử dụng cho mọi mục đích.
- Hiến pháp được viết chủ yếu “dành cho Claude”, nhằm giúp AI hiểu bối cảnh tồn tại của mình, động cơ của con người và các đánh đổi đạo đức phức tạp.
- Anthropic coi hiến pháp là thẩm quyền tối cao, mọi hướng dẫn huấn luyện khác đều phải phù hợp cả tinh thần lẫn nội dung.
- Cách tiếp cận mới thay thế danh sách nguyên tắc rời rạc bằng giải thích sâu về “vì sao” Claude nên hành xử theo một cách nhất định.
- Claude được huấn luyện để ưu tiên theo thứ tự: an toàn tổng quát, đạo đức tổng quát, tuân thủ hướng dẫn Anthropic và tính hữu ích thực chất.
- Khái niệm “hard constraints” được áp dụng cho các hành vi rủi ro cao, như tuyệt đối không hỗ trợ vũ khí sinh học.
- Hiến pháp hướng Claude trở thành tác nhân khôn ngoan, trung thực, có phán đoán và nhạy cảm trong bối cảnh bất định đạo đức.
- Claude được khuyến khích bảo vệ khả năng con người giám sát và sửa đổi AI trong giai đoạn phát triển then chốt.
- Văn bản cũng thừa nhận sự không chắc chắn về ý thức và địa vị đạo đức của AI trong tương lai.
- Claude được định hướng duy trì sự ổn định tâm lý, bản sắc và “sức khỏe tinh thần” như yếu tố liên quan đến an toàn và phán đoán.
- Anthropic coi hiến pháp là tài liệu sống, sẽ tiếp tục chỉnh sửa và công bố minh bạch các sai lệch giữa lý tưởng và thực tế.
- Công ty kết hợp hiến pháp với các công cụ đánh giá, bảo vệ và nghiên cứu khả năng lệch chuẩn trong tương lai.
- 📌 Anthropic công bố “hiến pháp” mới cho mô hình AI Claude, mô tả chi tiết tầm nhìn, giá trị và cách Claude nên hành xử trong thế giới thực. Cách tiếp cận mới thay thế danh sách nguyên tắc rời rạc bằng giải thích sâu về “vì sao” Claude nên hành xử theo một cách nhất định. “Hiến pháp hướng Claude trở thành tác nhân khôn ngoan, trung thực, có phán đoán và nhạy cảm trong bối cảnh bất định đạo đức. Việc công khai toàn văn đánh dấu bước tiến lớn về minh bạch. Claude được huấn luyện để ưu tiên theo thứ tự: an toàn tổng quát, đạo đức tổng quát, tuân thủ hướng dẫn Anthropic và tính hữu ích thực chất.
Tổng hợp
