Automatic PII discovery with PII scanner

Op de PII tab op de Job Configuration paneel, een personally identifiable information (PII) scan die alle kolommen in uw database scant op PII.

Alle positieve scanresultaten worden weergegeven in de lijst met PII-entiteiten op de PII tab.

Op de Job Settings tab, PII-entiteiten op het tabblad PII worden ook gelabeld met PII op de kolomkop.

U kunt een metadata PII-scan of een data PII-scan. De metadatascan verloopt sneller, omdat het gebaseerd is op de naam van een individuele kolom waarop reguliere expressieregels worden toegepast. Aan de andere kant, de datascan waarschijnlijk nauwkeuriger is in het detecteren van kolommen met PII, omdat het de gegevens in de kolom analyseert met behulp van geavanceerde modellen voor natuurlijke taalverwerking.

Hint: Bij gebruik van de PII-scanner, valideer altijd de resulterende kolommen die zijn gemarkeerd als PII, omdat de scanner per ongeluk sommige kolommen als PII kan markeren die dat niet zijn. Het kan ook bepaalde PII-elementen missen.

Ondiepe scan (gebruikt metagegevens)

Op de PII tab, selecteer het dropdown-pictogram rechts van de Start scan toets en selecteer Shallow scan.

De ondiepe scan evalueert alle beschikbare kolommen in de database en gebruikt reguliere expressieregels om af te leiden welk type PII elke kolom kan bevatten. Dit proces is geoptimaliseerd voor snelheid en wordt parallel uitgevoerd., Voorspellingsnauwkeurigheid kan soms minder nauwkeurig zijn.

Door de aard van de metadatascan, resultaten hebben over het algemeen een hoge betrouwbaarheidsscore. Dit komt doordat ze gebaseerd zijn op regels die door Syntho zijn opgesteld. Het is mogelijk om nieuwe regels toe te voegen om zelf gedefinieerde PII-entiteiten te detecteren. Voor meer details, neem dan contact op met uw Syntho vertegenwoordiger.

Diepe scan (gebruikt metagegevens + gegevens)

Op de PII tab, selecteer het dropdown-pictogram rechts van de Start scan toets en selecteer Deep scan.

In sommige gevallen, Syntho detecteert mogelijk geen PII-entiteiten met een oppervlakkige scan, vooral als de kolomnamen niet beschrijvend zijn voor hun inhoud. Het is ook niet altijd praktisch om een volledige lijst met regels te maken. Daarom is, Syntho biedt een optie om niet alleen de metadata te scannen, maar ook de gegevens binnen de kolommen om potentiële PII-entiteiten te identificeren.

Het starten van een PII-scan start eerst een metadatascan. Kolommen die niet zijn geïdentificeerd als PII en van het type "string" of "text" komen dan in aanmerking voor de dieptescan. We beperken de scan tot deze typen omdat onze natural language processing (NLP) modellen worden getraind om PII te identificeren en extraheren uit tekstuele gegevens, vertrouwen op woordcontext voor voorspellingen.

Caution: De gegevens-PII-scanner onderzoekt de inhoud in elke kolom, Dit betekent dat de scanduur toeneemt met de grootte van de database. Om de scantijd te verkorten, kun je het aantal gelezen rijen per kolom beperken. Maar, Dit kan de scanresultaten negatief beïnvloeden.

In vergelijking met de metagegevensscan, De resultaten van de gegevensscan kunnen een lager betrouwbaarheidsniveau hebben. Als een kolom meerdere PII-typen bevat, Onze software berekent het vertrouwen dat de kolom van een bepaald type PII is op basis van hoe vaak dat type PII wordt gedetecteerd ten opzichte van het totale aantal rijen dat voor die kolom is gescand.

Beperkingen (alleen diepe scan)

  • De dieptescan onderzoekt elke kolom met gegevens met behulp van NLP-modellen (Natural Language Processing)., die afhankelijk zijn van de omringende context om nauwkeurige resultaten te produceren. Maar, kolommen met persoonlijk identificeerbare informatie (PII), als een First_Name kolom, Deze context ontbreekt meestal. Bijvoorbeeld, a First_Name kolom bevat alleen voornamen, waardoor het een uitdaging is voor NLP-modellen om ze nauwkeurig als zodanig te identificeren zonder extra context.

Ondersteunde PII-entiteiten

Voor meer informatie over de PII entiteiten die Syntho ondersteunt, zie Supported PII entities.

PII scanner parameters

  • Cardinality toggle, indien ingeschakeld, helpt de gebruiker om te controleren of er evenveel unieke waarden in een kolom staan als rijen. In dat geval bevat de kolom hoogstwaarschijnlijk PII.

  • Bij het selecteren van Add, de generatiemethode / kolom modal zal eerst verschijnen en de gebruiker moet de instellingen aanpassen/bevestigen. Daarna, de Add knop verdwijnt en het wielpictogram verschijnt.

  • De Allowlist stelt gebruikers in staat om een lijst van tokens te definiëren die niet als PII gemarkeerd mogen worden, zelfs als we andere tokens van dat entiteittype willen identificeren.

  • De Add new PII entiteit zal een modal openen waarmee de gebruiker een nieuwe PII-entiteit kan aanmaken, door drie velden in te vullen met

    1. een naam voor de door de gebruiker gedefinieerde entiteit,

    2. a RegEx (of lijst met woorden),

    3. een betrouwbaarheidspercentage.

  • De PII entities om te zoeken naar, is een vervolgkeuzelijst met meerdere keuzes (dezelfde als de vervolgkeuzelijst met schema's) die alle beschikbare PII-entiteiten toont (inclusief entiteiten die door de gebruiker zijn gemaakt).

  • De PII scan acceptance threshold schuifregelaar kan worden gebruikt om te bepalen welke PII-entiteiten aan de gebruiker worden getoond.

  • De Learn more about PII De knop stuurt de gebruiker door naar de sectie PII in Syntho's gebruikersdocumentatie.

Bovendien:

  • Bij het definiëren van de locale in de PII-scan, Gebruik die locale ook als standaard voor alle voorgestelde spotters uit de PII-scan.

Bovendien, houd rekening met de volgende punten:

  • Als kolomkoppen rood zijn voor kolommen met PII onder "des-identificeer"., betekent dit dat er geen Mocker of Exclude is toegepast

  • Een uitroepteken (!) naast de tabel aan de linkerkant, onder tabel overzichtspaneel verschijnt als die tabel onder "de-identify"en heeft kolommen met PII-labels op Duplicaat (zonder Mocker of Exclude toe te passen). De (!) markering informeert de gebruiker dat deze tabel kolommen heeft met het label Persoonlijk Identificeerbare Informatie (PII) en als de gebruiker verdergaat met, deze PII wordt gedupliceerd, wat kan leiden tot het onbedoeld delen van gevoelige gegevens. Om dit te voorkomen, gebruiker heeft twee opties:

    1. Breng een Mocker aan.

    2. Sluit de PII-kolom(men) uit.

Het uitroepteken (!) helpt de gebruiker te begrijpen dat tabellen die gemarkeerd zijn als de-identificeerbaar, gede-identificeerd moeten worden. Houd er rekening mee dat de-identification is gelijk aan excluding or mocking PII columns. Als er PII-kolommen zijn die niet worden afgehandeld door een mocker toe te passen of uit te sluiten, het in gevaar is. Vandaar, is het PII-label rood en staat er een uitroepteken naast de tabel.

Beperkingen

  • Scanner Accuracy: De nauwkeurigheid van de PII-scanner is afhankelijk van de metadata, gegevens, en type PII. Voor nauwkeurigere detectie van PII, is het het meest effectief om beschrijvende kolomnamen te gebruiken zoals FirstName in plaats van algemene namen zoals Col1.

  • Multiple PII Detections: De PII-scanner kan meerdere mogelijke PII-items in één kolom identificeren. Houd er rekening mee dat de hoogst scorende invoer niet altijd correct is en dat dit kan leiden tot een verkeerde identificatie van een niet-PII-item of een verkeerde categorisering van het type PII.

  • Selecting PII Types: Momenteel, gebruikers kunnen niet specificeren op welke typen PII-entiteiten er gescand moet worden. Voor een uitgebreide lijst van de typen PII-entiteiten waar Syntho op scant, raadpleeg de sectie Supported PII entities.

Als u deze punten begrijpt, kunt u de PII-scanner beter gebruiken en bent u zich bewust van de beperkingen.

Last updated