OpenAI 升级 ChatGPT 以跨多场对话追踪危险信号

OpenAI 宣布了一项新的安全系统，该系统使 ChatGPT 能够识别随时间推移逐渐显现的风险，而不仅依赖于单条信息。
新系统专注于高风险情境，例如自杀、自残以及伤害他人。
ChatGPT 现在可以把在多场对话中出现的微小或模糊的信号串联起来，从而更准确地评估危险程度。
当检测到风险递增时，模型将优先进行降级（de-escalate）处理，拒绝危险内容或引导用户寻求更安全的帮助。
OpenAI 开发了“安全摘要”（safety summaries），即对先前对话中出现的重要安全背景进行的简短记录。
安全摘要仅作为临时存储，用于严重风险的情况，且不具备长期个性化记忆的功能。
该系统是与 OpenAI 的全球医生网络（Global Physicians Network）中精神病学和自杀预防专家网络联合构建 sinister。
在内部评估中，长对话中自杀/自残情境的安全响应性能提升了 50%，伤害他人情境的安全响应性能提升了 16%。
在 GPT-5.5 Instant 上，伤害他人情境的安全响应性能提升了 52%，自杀/自残情境提升了 39%。
OpenAI 评估了 4,000 多个安全摘要，其安全相关性平均动分为 4.93/5，事实准确度为 4.34/5。
该公司表示，在内部测试中，添加安全背景并不会降低常规对话的质量。
📌 结论： OpenAI 正在将 ChatGPT 从一个仅对单条信息做出回应的聊天机器人，转变为一个能够在敏感情况下“看清全局”用户行为的系统。最关键的一点是，该模型现在能够检测随时间累积的风险，而不是等待明显的危险信号立即出现。这是 AI 安全领域的重大进步，但也引发了关于隐私、上下文记忆能力以及未来 AI 系统对用户行为监视程度的新争论。

What's Hot

中国拟收紧开源AI：作者呼吁美国通过开放AI而非禁止中国AI来回应

月之暗面（Moonshot AI）被指控违规使用英伟达芯片：中美AI竞赛持续升级

日本试用“AI员工”：AI不仅是辅助，更开始像同事一样工作

OpenAI 升级 ChatGPT 以跨多场对话追踪危险信号

中国拟收紧开源AI：作者呼吁美国通过开放AI而非禁止中国AI来回应

月之暗面（Moonshot AI）被指控违规使用英伟达芯片：中美AI竞赛持续升级

日本试用“AI员工”：AI不仅是辅助，更开始像同事一样工作

联系方式

What's Hot

中国拟收紧开源AI：作者呼吁美国通过开放AI而非禁止中国AI来回应

月之暗面（Moonshot AI）被指控违规使用英伟达芯片：中美AI竞赛持续升级

日本试用“AI员工”：AI不仅是辅助，更开始像同事一样工作

OpenAI 升级 ChatGPT 以跨多场对话追踪危险信号

Related Posts

中国拟收紧开源AI：作者呼吁美国通过开放AI而非禁止中国AI来回应

月之暗面（Moonshot AI）被指控违规使用英伟达芯片：中美AI竞赛持续升级

日本试用“AI员工”：AI不仅是辅助，更开始像同事一样工作

联系方式