OpenAI aggiorna ChatGPT per tracciare i segnali di pericolo attraverso più conversazioni

OpenAI ha annunciato un nuovo sistema di sicurezza che aiuta ChatGPT a riconoscere i rischi che emergono gradualmente nel tempo, anziché affidarsi unicamente a un singolo messaggio.
Il nuovo sistema si concentra su situazioni ad alto rischio come il suicidio, l’autolesionismo e il danno verso gli altri.
ChatGPT è ora in grado di collegare segnali piccoli o ambigui che compaiono nel corso di più conversazioni per valutare il livello di pericolo in modo più accurato.
Quando rileva un rischio in aumento, il modello darà priorità alla de-escalation, rifiutando i contenuti pericolosi o indirizzando l’utente verso forme di supporto più sicure.
OpenAI ha sviluppato i “safety summaries” (resoconti di sicurezza), vale a dire brevi note sui contesti di sicurezza cruciali emersi nelle conversazioni precedenti.
I safety summaries sono memorizzati solo temporaneamente, vengono utilizzati per casi di rischio grave e non funzionano come memoria personalizzata a lungo termine.
Il sistema è stato realizzato insieme a una rete di esperti in psichiatria e prevenzione del suicidio appartenenti al Global Physicians Network di OpenAI.
Nelle valutazioni interne, l’efficacia della risposta di sicurezza all’interno di conversazioni lunghe è aumentata del 50% nelle situazioni di suicidio/autolesionismo e del 16% nelle situazioni di danno verso gli altri.
Su GPT-5.5 Instant, l’efficacia della risposta di sicurezza è aumentata del 52% per le situazioni di danno verso gli altri e del 39% per il suicidio/autolesionismo.
OpenAI ha valutato oltre 4.000 safety summaries con un punteggio medio di pertinenza della sicurezza pari a 4,93/5 e un’accuratezza dei fatti di 4,34/5.
L’azienda ha dichiarato che l’aggiunta del contesto di sicurezza non ha ridotto la qualità delle conversazioni ordinarie nei test interni.
📌 Conclusione: OpenAI sta trasformando ChatGPT da un chatbot che risponde a ogni singolo messaggio a un sistema capace di “vedere il quadro generale” del comportamento dell’utente in situazioni sensibili. L’aspetto più importante è che il modello può ora rilevare rischi cumulativi nel tempo invece di attendere che appaia immediatamente un segnale di pericolo esplicito. Si tratta di un grande passo avanti nella sicurezza dell’IA (AI safety), ma apre anche a nuovi dibattiti sulla privacy, sulla capacità di memoria del contesto e sul livello di sorveglianza del comportamento degli utenti da parte dei sistemi di IA del futuro.

What's Hot

La Cina sta per restringere l’AI open-source: l’autore invita gli USA a rispondere aprendo l’AI, non vietando quella cinese

Moonshot AI accusata di utilizzare chip Nvidia nonostante il divieto: la corsa all’IA tra USA e Cina continua a intensificarsi

Il Giappone sperimenta l'”impiegato IA”: l’IA non solo assiste, ma inizia a lavorare come un collega

OpenAI aggiorna ChatGPT per tracciare i segnali di pericolo attraverso più conversazioni

La Cina sta per restringere l’AI open-source: l’autore invita gli USA a rispondere aprendo l’AI, non vietando quella cinese

Moonshot AI accusata di utilizzare chip Nvidia nonostante il divieto: la corsa all’IA tra USA e Cina continua a intensificarsi

Il Giappone sperimenta l'”impiegato IA”: l’IA non solo assiste, ma inizia a lavorare come un collega

CONTATTI

What's Hot

La Cina sta per restringere l’AI open-source: l’autore invita gli USA a rispondere aprendo l’AI, non vietando quella cinese

Moonshot AI accusata di utilizzare chip Nvidia nonostante il divieto: la corsa all’IA tra USA e Cina continua a intensificarsi

Il Giappone sperimenta l'”impiegato IA”: l’IA non solo assiste, ma inizia a lavorare come un collega

OpenAI aggiorna ChatGPT per tracciare i segnali di pericolo attraverso più conversazioni

Related Posts

La Cina sta per restringere l’AI open-source: l’autore invita gli USA a rispondere aprendo l’AI, non vietando quella cinese

Moonshot AI accusata di utilizzare chip Nvidia nonostante il divieto: la corsa all’IA tra USA e Cina continua a intensificarsi

Il Giappone sperimenta l'”impiegato IA”: l’IA non solo assiste, ma inizia a lavorare come un collega

CONTATTI