OpenAIがChatGPTをアップグレードし、複数の会話にわたる危険の兆候を追跡可能に

OpenAIは、単一のメッセージだけに頼るのではなく、時間の経過とともに徐々に発生するリスクをChatGPTが認識できるようにする新しい安全システムを発表した。
新しいシステムは、自殺、自傷行為、他者への危害といった高リスクな状況に焦点を当てている。
ChatGPTは、複数の会話全体にわたって現れる微小または曖昧なシグナルを関連付け、危険度をより正確に評価できるようになった。
リスクの漸増を検知した場合、モデルは危険な内容を拒否するか、より安全なサポートへユーザーを誘導するなどの「危険回避（de-escalate）」を優先する。
OpenAIは、過去の会話に現れた重要な安全コンテキストに関する短いメモである「安全サマリー（safety summaries）」を開発した。
安全サマリーは一時的にのみ保存され、深刻なリスクのケースに使用され、長期的なパーソナライズされた記憶としては機能しない。
このシステムは、OpenAIの「Global Physicians Network」に所属する精神医学および自殺予防の専門家ネットワークとともに構築された。
内部評価では、長い会話において、安全な対応パフォーマンスが自殺/自傷行為の状況で50%向上し、他者への危害の状況で16%向上した。
GPT-5.5 Instantでは、安全対応パフォーマンスが他者への危害の状況で52%向上し、自殺/自傷行為で39%向上した。
OpenAIは4,000以上の安全サマリーを評価し、安全関連性の平均スコアは4.93/5、事実の正確性は4.34/5であった。
同社は、内部テストにおいて、安全コンテキストの追加が通常の会話の質を低下させることはなかったと述べている。
📌 結論： OpenAIは、メッセージごとに個別に反応するチャットボットから、デリケートな状況におけるユーザー行動の「全体像を把握する」能力を備えたシステムへとChatGPTを変貌させている。最も重要な点は、明らかな危険信号が即座に現れるのを待つのではなく、時間の経過とともに蓄積されるリスクをモデルが検知できるようになったことである。これはAIの安全（AI safety）における大きな進歩であるが、プライバシー、コンテキストの記憶能力、そして将来のAIシステムによるユーザー行動の監視レベルに関する新たな議論を呼ぶものでもある。

What's Hot

中国がオープンソースAIを規制へ：著者は中国AIの禁止ではなく、AIの開放による米国の対抗を提言

Moonshot AIが禁止にもかかわらずNvidiaチップを使用した疑い：米中AI競争がさらに激化

日本が「AI社員」を試験導入：AIは単なる支援にとどまらず、同僚として働き始める

OpenAIがChatGPTをアップグレードし、複数の会話にわたる危険の兆候を追跡可能に

中国がオープンソースAIを規制へ：著者は中国AIの禁止ではなく、AIの開放による米国の対抗を提言

Moonshot AIが禁止にもかかわらずNvidiaチップを使用した疑い：米中AI競争がさらに激化

日本が「AI社員」を試験導入：AIは単なる支援にとどまらず、同僚として働き始める

連絡先

What's Hot

中国がオープンソースAIを規制へ：著者は中国AIの禁止ではなく、AIの開放による米国の対抗を提言

Moonshot AIが禁止にもかかわらずNvidiaチップを使用した疑い：米中AI競争がさらに激化

日本が「AI社員」を試験導入：AIは単なる支援にとどまらず、同僚として働き始める

OpenAIがChatGPTをアップグレードし、複数の会話にわたる危険の兆候を追跡可能に

Related Posts

中国がオープンソースAIを規制へ：著者は中国AIの禁止ではなく、AIの開放による米国の対抗を提言

Moonshot AIが禁止にもかかわらずNvidiaチップを使用した疑い：米中AI競争がさらに激化

日本が「AI社員」を試験導入：AIは単なる支援にとどまらず、同僚として働き始める

連絡先