- OpenAIは、データがクラウドに送信される前に個人識別情報(PII)を検出して削除し、AIにおけるデータ漏洩リスクを低減するオープンソースモデル「Privacy Filter」を発表した。
- このモデルは15億のパラメータを持つが、処理ごとに5,000万のみをアクティブ化するため、パフォーマンスが最適化され、ノートPCやウェブブラウザ上でも動作する。
- Sparse Mixture-of-Experts(希疏専門家混合)アーキテクチャと128,000トークンのコンテキストウィンドウを採用し、法的契約書などの長い文書を文脈を損なわずに処理できる。
- BIOESタグを用いたビタビ復号を適用し、データ削除後も正確な意味構造を維持できるようにしている。
- 個人名、連絡先、数値識別子、さらにはAPIキーやパスワードなどの機密情報を含む8種類のPIIの識別をサポートする。
- 企業がデータをオンデバイス(デバイス上)で処理することを可能にし、GDPRやHIPAAのコンプライアンス基準に対応する。
- Apache 2.0ライセンスの下でリリースされており、商用利用やカスタマイズが可能で、製品のソースコードを公開する必要はない。
- コミュニティはこの「小型ながら強力」なモデルを高く評価しており、低コストで実際のAIパイプラインに適しているとしている。
📌 Privacy Filterは、OpenAIがオープンソースへ回帰する大きな一歩であり、15億パラメータのモデルながら実行時は5,000万に最適化され、128,000トークンと8種類の機密データに対応している。このツールは、企業がGDPRやHIPAAを遵守し、パイプラインの初期段階で漏洩リスクを抑えるのに役立つ。ただし、OpenAIはこれが補助ツールに過ぎず、特に医療や法務などの機密分野において絶対的な保証をするものではないと警告している。
