- OpenAI ha annunciato Privacy Filter, un modello open source che aiuta a rilevare e rimuovere le informazioni di identificazione personale (PII) prima che i dati vengano inviati al cloud, riducendo i rischi di fuga di dati nell’IA.
- Il modello ha 1,5 miliardi di parametri ma ne attiva solo 50 milioni per ogni elaborazione, ottimizzando le prestazioni e permettendo l’esecuzione su laptop o browser web.
- Utilizza un’architettura Sparse Mixture-of-Experts e una finestra di contesto di 128.000 token, consentendo l’elaborazione di documenti lunghi come contratti legali senza perdere il contesto.
- Applica un decodificatore Viterbi con tag BIOES per garantire che la rimozione dei dati mantenga un’accurata struttura semantica.
- Supporta l’identificazione di 8 tipi di PII, tra cui nomi personali, informazioni di contatto, identificatori numerici e segreti come chiavi API o password.
- Consente alle aziende di elaborare i dati on-device, rispettando gli standard di conformità GDPR e HIPAA.
- Rilasciato con licenza Apache 2.0, permette l’uso commerciale, la personalizzazione e non richiede l’apertura del codice sorgente del prodotto.
- La comunità apprezza molto questo modello “piccolo ma potente”, adatto per pipeline IA reali a basso costo.
📌 Privacy Filter segna un grande passo avanti con il ritorno di OpenAI all’open source con un modello da 1,5 miliardi di parametri, ottimizzato per usarne solo 50 milioni a ogni esecuzione, supportando 128.000 token e 8 tipi di dati sensibili. Lo strumento aiuta le aziende a conformarsi a GDPR e HIPAA e riduce i rischi di fuga di dati all’inizio della pipeline. Tuttavia, OpenAI avverte che si tratta solo di uno strumento di supporto e non garantisce una protezione assoluta, specialmente in settori sensibili come quello medico o legale.

