- OpenAI анонсировала Privacy Filter — модель с открытым исходным кодом, которая помогает обнаруживать и удалять личную информацию (PII) до того, как данные будут отправлены в облако, снижая риск утечки в ИИ.
- Модель имеет 1,5 миллиарда параметров, но активирует только 50 миллионов при каждой обработке, что оптимизирует производительность и позволяет запускать её на ноутбуках или в браузерах.
- Используется архитектура Sparse Mixture-of-Experts и контекстное окно в 128 000 токенов, что позволяет обрабатывать длинные документы, такие как юридические контракты, без потери контекста.
- Применяется декодер Витерби с разметкой BIOES, чтобы гарантировать, что удаление данных сохраняет правильную семантическую структуру.
- Поддерживается распознавание 8 типов PII, включая имена, контактную информацию, числовые идентификаторы и секреты, такие как API-ключи или пароли.
- Позволяет предприятиям обрабатывать данные непосредственно на устройстве (on-device), соблюдая стандарты GDPR и HIPAA.
- Выпущена под лицензией Apache 2.0, что допускает коммерческое использование, настройку и не требует открытия исходного кода продукта.
- Сообщество высоко оценило модель как «маленькую, но мощную», подходящую для реальных ИИ-конвейеров с низкими затратами.
📌 Privacy Filter знаменует собой важный шаг: OpenAI возвращается к открытому коду с моделью на 1,5 млрд параметров, оптимизированной до 50 млн при запуске, поддерживающей 128 000 токенов и 8 типов конфиденциальных данных. Инструмент помогает компаниям соблюдать GDPR и HIPAA, снижая риски утечек в самом начале процесса. Однако OpenAI предупреждает, что это лишь вспомогательный инструмент, не дающий абсолютной гарантии, особенно в таких сферах, как медицина или право.

