- Anthropic 为其 Claude AI 模型发布了全新的“宪法”,详细描述了 Claude 在现实世界中的愿景、价值观及行为准则。
- 该“宪法”在 Claude 的训练过程中起着核心作用,直接塑造了模型的行为、响应和决策方式。
- 全文根据 Creative Commons CC0 1.0 许可发布,允许任何人出于任何目的自由使用。
- 宪法主要“为 Claude 而写”,旨在帮助 AI 理解其存在的背景、人类的动机以及复杂的伦理权衡。
- Anthropic 将宪法视为最高权威,所有其他训练指令在精神和内容上都必须与其保持一致。
- 这种新方法用对 Claude “为何”应以特定方式行事的深度解释,取代了零散的原则清单。
- Claude 接受的训练优先级排序为:通用安全、通用伦理、遵守 Anthropic 指令以及实质性的帮助。
- “硬约束”被应用于高风险行为,例如绝对禁止协助生物武器。
- 宪法引导 Claude 在道德不确定的背景下,成为一个睿智、诚实、有判断力且敏感的智能体。
- 鼓励 Claude 在关键开发阶段保护人类监督和修改 AI 的能力。
- 文本还承认了未来 AI 意识和道德地位的不确定性。
- Claude 被引导维持心理稳定、身份认同和“心理健康”,视其为与安全和判断相关的因素。
- Anthropic 将宪法视为一份动态文件,将持续修订并透明地公布理想与现实之间的偏差。
- 公司将宪法与评估工具、保护措施以及对未来偏离风险的研究相结合。
结论: Anthropic 发布了 Claude AI 模型的新“宪法”,详述了其愿景、价值及行为准则。这一新方法用深度解释“为何”取代了零散的原则。宪法引导 Claude 在伦理不确定中成为明智、诚实且敏锐的智能体。全文公开标志着透明度的重大进步。Claude 训练的优先级依次为:通用安全、通用伦理、遵守指令及实质性帮助。
