LogoLogo
Go to Syntho.AI
Dutch (AI Translated)
Dutch (AI Translated)
  • Welcome to Syntho
  • Overzicht
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Werkruimten instellen
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Een gegevensgeneratietaak configureren
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Syntho implementeren
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Subsetting
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • Syntho PII tekstscanner gebruiken
  • Gebruik PII-tekstscanner met dubbele kolommen
  • PII detection flow
  • Ondersteunde talen
  • Gebruik van andere NLP-modellen (beperkte ondersteuning)
  • Beperkingen

Was this helpful?

  1. Een gegevensgeneratietaak configureren
  2. Manage personally identifiable information (PII)

Automatic PII discovery and de-identification in free text columns

PreviousRemove columns from PII listNextSupported PII & PHI entities

Last updated 11 months ago

Was this helpful?

Caution: Deze functie zal je taken voor het genereren van gegevens aanzienlijk vertragen. Verminder het aantal invoerrecords om je taak te versnellen.

Voor meer informatie over de PII entiteiten die Syntho ondersteunt, zie .

Syntho PII tekstscanner gebruiken

Er zijn twee manieren om Syntho's PII tekstscanner te gebruiken. Het kan gebruikt worden in combinatie met de kolom generatie methode Duplicate of AI-powered generation.

Gebruik PII-tekstscanner met dubbele kolommen

Bij gebruik van de PII-tekstscanner in combinatie met de Duplicate generatiemethode, wordt de kolom gedupliceerd nadat de PII-tekstscanner is toegepast. Om dit toe te passen:

  1. onder Column settings > Generation Method, selecteer Duplicate.

  2. Dan, onder de dropdown, select the locale te gebruiken voor het detecteren van de PII-entiteiten.

  3. Optioneel, inschakelen Replace PII with mock data. Wanneer deze optie is ingeschakeld, PII wordt vervangen door schijnwaarden. Wanneer deze optie disabled, PII wordt geannoteerd met een PII-label.

Note

Als je de PII-tekstscanner gebruikt in combinatie met de AI-gestuurde generatiefunctie, deze stappen worden uitgevoerd in de onderstaande volgorde:

  1. Data Preprocessing: Aanvankelijk, Instellingen zoals de "beschermingsdrempel voor zeldzame categorieën" en "vervangingswaarde" worden toegepast op je gegevens.

  2. PII Text Processing: Volgende, De PII-tekstscanner doorloopt de gegevens om PII te identificeren en te verwerken.

  3. AI-Powered Generation: Eindelijk, de AI genereert nieuwe gegevens, de verwerkte tekstkolom behandelen alsof het een categoriecoderingstype is.

Door deze volgorde te begrijpen, kun je beter anticiperen op hoe de gegenereerde gegevens eruit zullen zien.

PII detection flow

Wanneer u de PII-tekstscanner toepast op specifieke kolommen, Syntho scant automatisch naar PII-elementen in die kolommen. Geïdentificeerde PII-elementen kunnen vervolgens worden vervangen door nepgegevens. Syntho gebruikt verschillende algoritmen en methoden om het scanproces te verbeteren.

Hier volgt een overzicht van de stappen in het detectieproces, in chronologische volgorde:

  1. Regex: voor patroonherkenning.

  2. Named Entity Recognition (NER): om PII-entiteiten in natuurlijke taal te herkennen.

  3. Checksums: om gedetecteerde patronen te valideren.

  4. Context words: om de detectiezekerheid te vergroten.

  5. Label: om gedetecteerde PII-entiteiten te labelen met een beschrijving van de entiteit.

  6. (Optional) Obfuscate: om gedetecteerde PII descriptors te vervangen door nepgegevens.

Ondersteunde talen

Onder Encoding type > Locale, kunt u de locale definiëren die wordt gebruikt door de tekstverwerkingsmodellen voor tekstkolommen die PII bevatten.

Syntho ondersteunt detectie en de-identificatie van PII velden voor de talen English en Dutch in kolommen met vrije tekstgegevens.

Met Syntho kun je het volgende toevoegen NLP (natural language processing) modellen met beperkte ondersteuning voor verschillende talen (zie volgende sectie).

Gebruik van andere NLP-modellen (beperkte ondersteuning)

Note: Voor het gebruik van niet-standaard NLP-modellen is een actieve internetverbinding nodig om die modellen op te halen.

Syntho gebruikt NLP engines voor twee hoofdtaken: Op NER gebaseerde PII-identificatie, en kenmerkextractie voor aangepaste regelgebaseerde logica (zoals het benutten van contextwoorden voor verbeterde detectie).

Standaard, bij elke inzet, Syntho levert de volgende open-source modellen van spaCy:

  • en_core_web_sm

  • nl_core_news_sm

Andere NLP-modellen kunnen op verzoek worden toegevoegd met beperkte ondersteuning van Syntho. Het is belangrijk om te onthouden dat het gebruik van andere modellen invloed heeft op de PII-detectiestroom en de prestaties ervan.

Beperkingen

  • PII Detection and Confidence Score: De PII-tekstscanner kan meerdere potentiële Personally Identifiable Information (PII) entiteiten binnen een tekstkolom. Wanneer dit gebeurt, De entiteit met de hoogste betrouwbaarheidsscore wordt aan de gebruiker gepresenteerd. Echter, Het is belangrijk om te begrijpen dat een hoge betrouwbaarheidsscore geen garantie is voor nauwkeurigheid. Dit kan ertoe leiden dat het type gedetecteerde PII verkeerd wordt gelabeld.

  • Internet Requirement for Non-Default NLP Models: Als u ervoor kiest om gespecialiseerde Natural Language Processing (NLP) modellen voor verschillende talen of regio's, Een actieve internetverbinding is nodig om deze modellen te downloaden.

  • Detection Methods: De scanner maakt gebruik van een multi-methodische benadering voor het detecteren van PII, inclusief het gebruik van Regex patronen, Named Entity Recognition (NER) modellen, checksum validatie, en onderzoek van contextwoorden. Merk op dat de effectiviteit van NER-modellen kan variëren op basis van hun trainingsgegevens. Bijvoorbeeld, Een model dat alleen is getraind op Wikipedia-tekst presteert mogelijk niet goed wanneer het wordt toegepast op medische gegevens.

Door deze details te begrijpen, kunt u beter zien hoe de PII-tekstscanner werkt en wat de beperkingen zijn.

Deze modellen kunnen worden vervangen door gebruik te maken van andere NLP-modellen, openbaar of bedrijfseigen. Deze modellen kunnen worden getraind of gedownload van bestaande NLP raamwerken zoals , en .

spaCy
Stanza
transformers
Supported PII entities
Paneel generatiemethode