Automatic PII discovery and de-identification in free text columns
Last updated
Last updated
Caution: Deze functie zal je taken voor het genereren van gegevens aanzienlijk vertragen. Verminder het aantal invoerrecords om je taak te versnellen.
Voor meer informatie over de PII entiteiten die Syntho ondersteunt, zie Supported PII entities.
Er zijn twee manieren om Syntho's PII tekstscanner te gebruiken. Het kan gebruikt worden in combinatie met de kolom generatie methode Duplicate of AI-powered generation.
Bij gebruik van de PII-tekstscanner in combinatie met de Duplicate generatiemethode, wordt de kolom gedupliceerd nadat de PII-tekstscanner is toegepast. Om dit toe te passen:
onder Column settings > Generation Method, selecteer Duplicate.
Dan, onder de dropdown, select the locale te gebruiken voor het detecteren van de PII-entiteiten.
Optioneel, inschakelen Replace PII with mock data. Wanneer deze optie is ingeschakeld, PII wordt vervangen door schijnwaarden. Wanneer deze optie disabled, PII wordt geannoteerd met een PII-label.
Note
Als je de PII-tekstscanner gebruikt in combinatie met de AI-gestuurde generatiefunctie, deze stappen worden uitgevoerd in de onderstaande volgorde:
Data Preprocessing: Aanvankelijk, Instellingen zoals de "beschermingsdrempel voor zeldzame categorieën" en "vervangingswaarde" worden toegepast op je gegevens.
PII Text Processing: Volgende, De PII-tekstscanner doorloopt de gegevens om PII te identificeren en te verwerken.
AI-Powered Generation: Eindelijk, de AI genereert nieuwe gegevens, de verwerkte tekstkolom behandelen alsof het een categoriecoderingstype is.
Door deze volgorde te begrijpen, kun je beter anticiperen op hoe de gegenereerde gegevens eruit zullen zien.
Wanneer u de PII-tekstscanner toepast op specifieke kolommen, Syntho scant automatisch naar PII-elementen in die kolommen. Geïdentificeerde PII-elementen kunnen vervolgens worden vervangen door nepgegevens. Syntho gebruikt verschillende algoritmen en methoden om het scanproces te verbeteren.
Hier volgt een overzicht van de stappen in het detectieproces, in chronologische volgorde:
Regex: voor patroonherkenning.
Named Entity Recognition (NER): om PII-entiteiten in natuurlijke taal te herkennen.
Checksums: om gedetecteerde patronen te valideren.
Context words: om de detectiezekerheid te vergroten.
Label: om gedetecteerde PII-entiteiten te labelen met een beschrijving van de entiteit.
(Optional) Obfuscate: om gedetecteerde PII descriptors te vervangen door nepgegevens.
Onder Encoding type > Locale, kunt u de locale definiëren die wordt gebruikt door de tekstverwerkingsmodellen voor tekstkolommen die PII bevatten.
Syntho ondersteunt detectie en de-identificatie van PII velden voor de talen English en Dutch in kolommen met vrije tekstgegevens.
Met Syntho kun je het volgende toevoegen NLP (natural language processing) modellen met beperkte ondersteuning voor verschillende talen (zie volgende sectie).
Note: Voor het gebruik van niet-standaard NLP-modellen is een actieve internetverbinding nodig om die modellen op te halen.
Syntho gebruikt NLP engines voor twee hoofdtaken: Op NER gebaseerde PII-identificatie, en kenmerkextractie voor aangepaste regelgebaseerde logica (zoals het benutten van contextwoorden voor verbeterde detectie).
Standaard, bij elke inzet, Syntho levert de volgende open-source modellen van spaCy:
en_core_web_sm
nl_core_news_sm
Deze modellen kunnen worden vervangen door gebruik te maken van andere NLP-modellen, openbaar of bedrijfseigen. Deze modellen kunnen worden getraind of gedownload van bestaande NLP raamwerken zoals spaCy, Stanza en transformers.
Andere NLP-modellen kunnen op verzoek worden toegevoegd met beperkte ondersteuning van Syntho. Het is belangrijk om te onthouden dat het gebruik van andere modellen invloed heeft op de PII-detectiestroom en de prestaties ervan.
PII Detection and Confidence Score: De PII-tekstscanner kan meerdere potentiële Personally Identifiable Information (PII) entiteiten binnen een tekstkolom. Wanneer dit gebeurt, De entiteit met de hoogste betrouwbaarheidsscore wordt aan de gebruiker gepresenteerd. Echter, Het is belangrijk om te begrijpen dat een hoge betrouwbaarheidsscore geen garantie is voor nauwkeurigheid. Dit kan ertoe leiden dat het type gedetecteerde PII verkeerd wordt gelabeld.
Internet Requirement for Non-Default NLP Models: Als u ervoor kiest om gespecialiseerde Natural Language Processing (NLP) modellen voor verschillende talen of regio's, Een actieve internetverbinding is nodig om deze modellen te downloaden.
Detection Methods: De scanner maakt gebruik van een multi-methodische benadering voor het detecteren van PII, inclusief het gebruik van Regex patronen, Named Entity Recognition (NER) modellen, checksum validatie, en onderzoek van contextwoorden. Merk op dat de effectiviteit van NER-modellen kan variëren op basis van hun trainingsgegevens. Bijvoorbeeld, Een model dat alleen is getraind op Wikipedia-tekst presteert mogelijk niet goed wanneer het wordt toegepast op medische gegevens.
Door deze details te begrijpen, kunt u beter zien hoe de PII-tekstscanner werkt en wat de beperkingen zijn.