- OpenAI hat Privacy Filter angekündigt, ein Open-Source-Modell, das dabei hilft, personenbezogene Daten (PII) zu erkennen und zu löschen, bevor sie in die Cloud gesendet werden, um das Risiko von Datenlecks bei der KI zu verringern.
- Das Modell verfügt über 1,5 Milliarden Parameter, aktiviert jedoch nur 50 Millionen pro Verarbeitungsschritt, was die Leistung optimiert und den Betrieb auf Laptops oder im Webbrowser ermöglicht.
- Es nutzt eine Sparse Mixture-of-Experts-Architektur und ein Kontextfenster von 128.000 Token, wodurch lange Dokumente wie Rechtsverträge ohne Kontextverlust verarbeitet werden können.
- Ein Viterbi-Decoder mit BIOES-Tagging sorgt dafür, dass die Datenlöschung die korrekte semantische Struktur beibehält.
- Es unterstützt die Erkennung von 8 PII-Typen, darunter Namen, Kontaktinformationen, numerische Identifikatoren und Geheimnisse wie API-Keys oder Passwörter.
- Unternehmen können Daten direkt auf dem Gerät (on-device) verarbeiten und so GDPR- und HIPAA-Standards erfüllen.
- Veröffentlicht unter der Apache 2.0-Lizenz, erlaubt es die kommerzielle Nutzung, Anpassung und erfordert keine Offenlegung des Quellcodes des Endprodukts.
- Die Community lobt das „kleine, aber leistungsstarke“ Modell, das sich für reale KI-Pipelines bei niedrigen Kosten eignet.
📌 Privacy Filter markiert einen großen Schritt, da OpenAI mit einem 1,5-Milliarden-Parameter-Modell zu Open Source zurückkehrt, das auf nur 50 Millionen pro Durchlauf optimiert ist, 128.000 Token und 8 Arten sensibler Daten unterstützt. Das Tool hilft Unternehmen, GDPR und HIPAA einzuhalten und das Risiko von Datenlecks zu Beginn der Pipeline zu mindern. OpenAI warnt jedoch, dass dies nur ein Hilfsmittel ist und keinen absoluten Schutz garantiert, insbesondere in sensiblen Bereichen wie Medizin oder Recht.
