• OpenAI 宣布了一项新的安全系统,该系统使 ChatGPT 能够识别随时间推移逐渐显现的风险,而不仅依赖于单条信息。
  • 新系统专注于高风险情境,例如自杀、自残以及伤害他人。
  • ChatGPT 现在可以把在多场对话中出现的微小或模糊的信号串联起来,从而更准确地评估危险程度。
  • 当检测到风险递增时,模型将优先进行降级(de-escalate)处理,拒绝危险内容或引导用户寻求更安全的帮助。
  • OpenAI 开发了“安全摘要”(safety summaries),即对先前对话中出现的重要安全背景进行的简短记录。
  • 安全摘要仅作为临时存储,用于严重风险的情况,且不具备长期个性化记忆的功能。
  • 该系统是与 OpenAI 的全球医生网络(Global Physicians Network)中精神病学和自杀预防专家网络联合构建 sinister。
  • 在内部评估中,长对话中自杀/自残情境的安全响应性能提升了 50%,伤害他人情境的安全响应性能提升了 16%。
  • 在 GPT-5.5 Instant 上,伤害他人情境的安全响应性能提升了 52%,自杀/自残情境提升了 39%。
  • OpenAI 评估了 4,000 多个安全摘要,其安全相关性平均动分为 4.93/5,事实准确度为 4.34/5。
  • 该公司表示,在内部测试中,添加安全背景并不会降低常规对话的质量。
  • 📌 结论: OpenAI 正在将 ChatGPT 从一个仅对单条信息做出回应的聊天机器人,转变为一个能够在敏感情况下“看清全局”用户行为的系统。最关键的一点是,该模型现在能够检测随时间累积的风险,而不是等待明显的危险信号立即出现。这是 AI 安全领域的重大进步,但也引发了关于隐私、上下文记忆能力以及未来 AI 系统对用户行为监视程度的新争论。
Share.
VIET NAM CONSULTING AND MEASUREMENT JOINT STOCK COMPANY
联系方式

电子邮件: info@vietmetric.vn
地址:河内市安和坊陈维兴街91巷34号

© 2026 Vietmetric
Exit mobile version