LogoLogo
Go to Syntho.AI
Dutch (AI Translated)
Dutch (AI Translated)
  • Welcome to Syntho
  • Overzicht
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Werkruimten instellen
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Een gegevensgeneratietaak configureren
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Syntho implementeren
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Subsetting
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • Ondiepe scan (gebruikt metagegevens)
  • Diepe scan (gebruikt metagegevens + gegevens)
  • Beperkingen (alleen diepe scan)
  • Ondersteunde PII-entiteiten
  • PII scanner parameters
  • Beperkingen

Was this helpful?

  1. Een gegevensgeneratietaak configureren
  2. Manage personally identifiable information (PII)
  3. Discover and de-identify PII columns

Automatic PII discovery with PII scanner

PreviousIdentify PII columns manuallyNextRemove columns from PII list

Last updated 10 months ago

Was this helpful?

Op de PII tab op de Job Configuration paneel, een personally identifiable information (PII) scan die alle kolommen in uw database scant op PII.

Alle positieve scanresultaten worden weergegeven in de lijst met PII-entiteiten op de PII tab.

Op de Job Settings tab, PII-entiteiten op het tabblad PII worden ook gelabeld met PII op de kolomkop.

U kunt een metadata PII-scan of een data PII-scan. De metadatascan verloopt sneller, omdat het gebaseerd is op de naam van een individuele kolom waarop reguliere expressieregels worden toegepast. Aan de andere kant, de datascan waarschijnlijk nauwkeuriger is in het detecteren van kolommen met PII, omdat het de gegevens in de kolom analyseert met behulp van geavanceerde modellen voor natuurlijke taalverwerking.

Hint: Bij gebruik van de PII-scanner, valideer altijd de resulterende kolommen die zijn gemarkeerd als PII, omdat de scanner per ongeluk sommige kolommen als PII kan markeren die dat niet zijn. Het kan ook bepaalde PII-elementen missen.

Ondiepe scan (gebruikt metagegevens)

Op de PII tab, selecteer het dropdown-pictogram rechts van de Start scan toets en selecteer Shallow scan.

De ondiepe scan evalueert alle beschikbare kolommen in de database en gebruikt reguliere expressieregels om af te leiden welk type PII elke kolom kan bevatten. Dit proces is geoptimaliseerd voor snelheid en wordt parallel uitgevoerd., Voorspellingsnauwkeurigheid kan soms minder nauwkeurig zijn.

Door de aard van de metadatascan, resultaten hebben over het algemeen een hoge betrouwbaarheidsscore. Dit komt doordat ze gebaseerd zijn op regels die door Syntho zijn opgesteld. Het is mogelijk om nieuwe regels toe te voegen om zelf gedefinieerde PII-entiteiten te detecteren. Voor meer details, neem dan contact op met uw Syntho vertegenwoordiger.

Diepe scan (gebruikt metagegevens + gegevens)

Op de PII tab, selecteer het dropdown-pictogram rechts van de Start scan toets en selecteer Deep scan.

In sommige gevallen, Syntho detecteert mogelijk geen PII-entiteiten met een oppervlakkige scan, vooral als de kolomnamen niet beschrijvend zijn voor hun inhoud. Het is ook niet altijd praktisch om een volledige lijst met regels te maken. Daarom is, Syntho biedt een optie om niet alleen de metadata te scannen, maar ook de gegevens binnen de kolommen om potentiële PII-entiteiten te identificeren.

Het starten van een PII-scan start eerst een metadatascan. Kolommen die niet zijn geïdentificeerd als PII en van het type "string" of "text" komen dan in aanmerking voor de dieptescan. We beperken de scan tot deze typen omdat onze natural language processing (NLP) modellen worden getraind om PII te identificeren en extraheren uit tekstuele gegevens, vertrouwen op woordcontext voor voorspellingen.

Caution: De gegevens-PII-scanner onderzoekt de inhoud in elke kolom, Dit betekent dat de scanduur toeneemt met de grootte van de database. Om de scantijd te verkorten, kun je het aantal gelezen rijen per kolom beperken. Maar, Dit kan de scanresultaten negatief beïnvloeden.

In vergelijking met de metagegevensscan, De resultaten van de gegevensscan kunnen een lager betrouwbaarheidsniveau hebben. Als een kolom meerdere PII-typen bevat, Onze software berekent het vertrouwen dat de kolom van een bepaald type PII is op basis van hoe vaak dat type PII wordt gedetecteerd ten opzichte van het totale aantal rijen dat voor die kolom is gescand.

Beperkingen (alleen diepe scan)

  • De dieptescan onderzoekt elke kolom met gegevens met behulp van NLP-modellen (Natural Language Processing)., die afhankelijk zijn van de omringende context om nauwkeurige resultaten te produceren. Maar, kolommen met persoonlijk identificeerbare informatie (PII), als een First_Name kolom, Deze context ontbreekt meestal. Bijvoorbeeld, a First_Name kolom bevat alleen voornamen, waardoor het een uitdaging is voor NLP-modellen om ze nauwkeurig als zodanig te identificeren zonder extra context.

Ondersteunde PII-entiteiten

PII scanner parameters

  • Cardinality toggle, indien ingeschakeld, helpt de gebruiker om te controleren of er evenveel unieke waarden in een kolom staan als rijen. In dat geval bevat de kolom hoogstwaarschijnlijk PII.

  • Bij het selecteren van Add, de generatiemethode / kolom modal zal eerst verschijnen en de gebruiker moet de instellingen aanpassen/bevestigen. Daarna, de Add knop verdwijnt en het wielpictogram verschijnt.

  • De Allowlist stelt gebruikers in staat om een lijst van tokens te definiëren die niet als PII gemarkeerd mogen worden, zelfs als we andere tokens van dat entiteittype willen identificeren.

  • De Add new PII entiteit zal een modal openen waarmee de gebruiker een nieuwe PII-entiteit kan aanmaken, door drie velden in te vullen met

    1. een naam voor de door de gebruiker gedefinieerde entiteit,

    2. a RegEx (of lijst met woorden),

    3. een betrouwbaarheidspercentage.

  • De PII entities om te zoeken naar, is een vervolgkeuzelijst met meerdere keuzes (dezelfde als de vervolgkeuzelijst met schema's) die alle beschikbare PII-entiteiten toont (inclusief entiteiten die door de gebruiker zijn gemaakt).

  • De PII scan acceptance threshold schuifregelaar kan worden gebruikt om te bepalen welke PII-entiteiten aan de gebruiker worden getoond.

  • De Learn more about PII De knop stuurt de gebruiker door naar de sectie PII in Syntho's gebruikersdocumentatie.

Bovendien:

  • Bij het definiëren van de locale in de PII-scan, Gebruik die locale ook als standaard voor alle voorgestelde spotters uit de PII-scan.

Bovendien, houd rekening met de volgende punten:

  • Als kolomkoppen rood zijn voor kolommen met PII onder "des-identificeer"., betekent dit dat er geen Mocker of Exclude is toegepast

  • Een uitroepteken (!) naast de tabel aan de linkerkant, onder tabel overzichtspaneel verschijnt als die tabel onder "de-identify"en heeft kolommen met PII-labels op Duplicaat (zonder Mocker of Exclude toe te passen). De (!) markering informeert de gebruiker dat deze tabel kolommen heeft met het label Persoonlijk Identificeerbare Informatie (PII) en als de gebruiker verdergaat met, deze PII wordt gedupliceerd, wat kan leiden tot het onbedoeld delen van gevoelige gegevens. Om dit te voorkomen, gebruiker heeft twee opties:

    1. Breng een Mocker aan.

    2. Sluit de PII-kolom(men) uit.

Het uitroepteken (!) helpt de gebruiker te begrijpen dat tabellen die gemarkeerd zijn als de-identificeerbaar, gede-identificeerd moeten worden. Houd er rekening mee dat de-identification is gelijk aan excluding or mocking PII columns. Als er PII-kolommen zijn die niet worden afgehandeld door een mocker toe te passen of uit te sluiten, het in gevaar is. Vandaar, is het PII-label rood en staat er een uitroepteken naast de tabel.

Beperkingen

  • Scanner Accuracy: De nauwkeurigheid van de PII-scanner is afhankelijk van de metadata, gegevens, en type PII. Voor nauwkeurigere detectie van PII, is het het meest effectief om beschrijvende kolomnamen te gebruiken zoals FirstName in plaats van algemene namen zoals Col1.

  • Multiple PII Detections: De PII-scanner kan meerdere mogelijke PII-items in één kolom identificeren. Houd er rekening mee dat de hoogst scorende invoer niet altijd correct is en dat dit kan leiden tot een verkeerde identificatie van een niet-PII-item of een verkeerde categorisering van het type PII.

Als u deze punten begrijpt, kunt u de PII-scanner beter gebruiken en bent u zich bewust van de beperkingen.

Voor meer informatie over de PII entiteiten die Syntho ondersteunt, zie .

Kolom achternaam wordt gedetecteerd als PII maar er wordt geen Mocker of Exclude toegepast

Selecting PII Types: Momenteel, gebruikers kunnen niet specificeren op welke typen PII-entiteiten er gescand moet worden. Voor een uitgebreide lijst van de typen PII-entiteiten waar Syntho op scant, raadpleeg de sectie .

Supported PII entities
Supported PII entities
Ondiepe scan in vervolgkeuzemenu Scanmodus