OpenAI модернизирует ChatGPT для отслеживания признаков опасности в нескольких разговорах

OpenAI объявила о новой системе безопасности, которая помогает ChatGPT распознавать риски, возникающие постепенно с течением времени, а не полагаться исключительно на одно сообщение.
Новая система фокусируется на ситуациях высокого риска, таких как самоубийство, членовредительство и причинение вреда окружающим.
Теперь ChatGPT может связывать незначительные или двусмысленные сигналы, появляющиеся в различных диалогах, для более точной оценки уровня опасности.
При обнаружении возрастающего риска модель будет отдавать приоритет деэскалации, блокируя опасный контент или направляя пользователя к службам поддержки.
OpenAI разработала «сводки безопасности» (safety summaries) — краткие заметки о важном контексте безопасности, который проявлялся в предыдущих разговорах.
Сводки безопасности сохраняются лишь временно, используются для случаев серьезного риска и не функционируют как долговременная персонализированная память.
Система была создана совместно с сетью психиатров и экспертов по профилактике самоубийств из Global Physicians Network компании OpenAI.
В ходе внутренних оценок эффективность реагирования на угрозы безопасности в длительных диалогах выросла на 50% в ситуациях суицида/членовредительства и на 16% в ситуациях причинения вреда окружающим.
На базе GPT-5.5 Instant эффективность реагирования на угрозы безопасности выросла на 52% в ситуациях причинения вреда окружающим и на 39% при суициде/членовредительстве.
OpenAI оценила более 4000 сводок безопасности, при этом средний балл релевантности безопасности составил 4,93/5, а фактическая точность — 4,34/5.
Компания заявила, что добавление контекста безопасности не снизило качество обычных разговоров в ходе внутреннего тестирования.
📌 Заключение: OpenAI превращает ChatGPT из чат-бота, реагирующего на каждое сообщение отдельно, в систему, способную «видеть картину в целом» в поведении пользователя в деликатных ситуациях. Самый важный момент заключается в том, что модель теперь может обнаруживать кумулятивные риски со временем, а не ждать немедленного появления явного сигнала опасности. Это огромный шаг вперед в области безопасности ИИ, но он также открывает новые дискуссии о конфиденциальности, возможностях запоминания контекста и степени контроля за поведением пользователей со стороны ИИ-систем будущего.

What's Hot

Китай ограничит открытый ИИ: автор призывает США ответить открытостью, а не запретом китайского ИИ

Moonshot AI обвиняют в использовании чипов Nvidia вопреки запрету: гонка ИИ между США и Китаем продолжает обостряться

Япония тестирует «ИИ-сотрудников»: ИИ не просто помогает, а начинает работать как коллега

OpenAI модернизирует ChatGPT для отслеживания признаков опасности в нескольких разговорах

Китай ограничит открытый ИИ: автор призывает США ответить открытостью, а не запретом китайского ИИ

Moonshot AI обвиняют в использовании чипов Nvidia вопреки запрету: гонка ИИ между США и Китаем продолжает обостряться

Япония тестирует «ИИ-сотрудников»: ИИ не просто помогает, а начинает работать как коллега

KONTAKT

What's Hot

Китай ограничит открытый ИИ: автор призывает США ответить открытостью, а не запретом китайского ИИ

Moonshot AI обвиняют в использовании чипов Nvidia вопреки запрету: гонка ИИ между США и Китаем продолжает обостряться

Япония тестирует «ИИ-сотрудников»: ИИ не просто помогает, а начинает работать как коллега

OpenAI модернизирует ChatGPT для отслеживания признаков опасности в нескольких разговорах

Related Posts

Китай ограничит открытый ИИ: автор призывает США ответить открытостью, а не запретом китайского ИИ

Moonshot AI обвиняют в использовании чипов Nvidia вопреки запрету: гонка ИИ между США и Китаем продолжает обостряться

Япония тестирует «ИИ-сотрудников»: ИИ не просто помогает, а начинает работать как коллега

KONTAKT