- OpenAI는 단일 메시지에만 의존하는 대신 시간이 지남에 따라 점진적으로 발생하는 리스크를 ChatGPT가 인식할 수 있도록 돕는 새로운 안전 시스템을 발표했다.
- 새 시스템은 자살, 자해, 타인에 대한 위해와 같은 고위험 상황에 초점을 맞춘다.
- ChatGPT는 이제 여러 대화에 걸쳐 나타나는 미세하거나 모호한 신호들을 연결하여 위험 수준을 더 정확하게 평가할 수 있다.
- 리스크 증가가 감지되면 모델은 위험한 콘텐츠를 거부하거나 사용자를 더 안전한 지원으로 안내하는 ‘위험 완화(de-escalate)’를 최우선으로 처리한다.
- OpenAI는 이전 대화에서 나타난 중요한 안전 맥락에 대한 짧은 메모인 ‘안전 요약(safety summaries)’을 개발했다.
- 안전 요약은 일시적으로만 저장되며, 심각한 위험 사례에 사용되고 장기적인 개인화 기억으로 기능하지 않는다.
- 이 시스템은 OpenAI의 ‘글로벌 의사 네트워크(Global Physicians Network)’에 속한 정신의학 및 자살 예방 전문가 네트워크와 함께 구축되었다.
- 내부 평가 결과, 긴 대화에서 안전 대응 성능이 자살/자해 상황에서는 50%, 타인 위해 상황에서는 16% 향상되었다.
- GPT-5.5 Instant에서는 안전 대응 성능이 타인 위해 상황의 경우 52%, 자살/자해의 경우 39% 향상되었다.
- OpenAI는 4,000개 이상의 안전 요약을 평가했으며, 평균 안전 관련성 점수는 4.93/5점, 사실 정확도는 4.34/5점이었다.
- OpenAI는 내부 테스트에서 안전 맥락을 추가하더라도 일반적인 대화의 질이 떨어지지 않았다고 밝혔다.
- 📌 결론: OpenAI는 개별 메시지마다 반응하는 챗봇이었던 ChatGPT를 민감한 상황에서 사용자 행동의 ‘전체적인 그림’을 볼 수 있는 능력을 갖춘 시스템으로 변화시키고 있다. 가장 핵심적인 점은 명백한 위험 신호가 즉각적으로 나타나기를 기다리는 대신, 시간이 지남에 따라 누적되는 위험을 모델이 감지할 수 있게 되었다는 점이다. 이는 AI 안전(AI safety) 부문의 큰 진전이지만, 프라이버시, 맥락 기억 능력, 향후 AI 시스템의 사용자 행동 감시 수준에 대한 새로운 논쟁을 불러일으킨다.
Previous ArticleAI가 컨설팅 산업을 재구축하고 빅포(Big Four)를 테크 기업으로 변화시키고 있다
Next Article 단지 ‘가벼운 넛지(암시)’만으로도 AI는 잘못된 것을 사실로 믿을 수 있다.
