- OpenAI 宣布了一项新的安全系统,该系统使 ChatGPT 能够识别随时间推移逐渐显现的风险,而不仅依赖于单条信息。
- 新系统专注于高风险情境,例如自杀、自残以及伤害他人。
- ChatGPT 现在可以把在多场对话中出现的微小或模糊的信号串联起来,从而更准确地评估危险程度。
- 当检测到风险递增时,模型将优先进行降级(de-escalate)处理,拒绝危险内容或引导用户寻求更安全的帮助。
- OpenAI 开发了“安全摘要”(safety summaries),即对先前对话中出现的重要安全背景进行的简短记录。
- 安全摘要仅作为临时存储,用于严重风险的情况,且不具备长期个性化记忆的功能。
- 该系统是与 OpenAI 的全球医生网络(Global Physicians Network)中精神病学和自杀预防专家网络联合构建 sinister。
- 在内部评估中,长对话中自杀/自残情境的安全响应性能提升了 50%,伤害他人情境的安全响应性能提升了 16%。
- 在 GPT-5.5 Instant 上,伤害他人情境的安全响应性能提升了 52%,自杀/自残情境提升了 39%。
- OpenAI 评估了 4,000 多个安全摘要,其安全相关性平均动分为 4.93/5,事实准确度为 4.34/5。
- 该公司表示,在内部测试中,添加安全背景并不会降低常规对话的质量。
- 📌 结论: OpenAI 正在将 ChatGPT 从一个仅对单条信息做出回应的聊天机器人,转变为一个能够在敏感情况下“看清全局”用户行为的系统。最关键的一点是,该模型现在能够检测随时间累积的风险,而不是等待明显的危险信号立即出现。这是 AI 安全领域的重大进步,但也引发了关于隐私、上下文记忆能力以及未来 AI 系统对用户行为监视程度的新争论。
Previous ArticleAI 正在重构咨询行业并推动四大四大成为科技公司
Next Article 只需“轻微暗示”,AI 就会将错误的事情信以为真。
Related Posts
© 2026 Vietmetric
