LogoLogo
Go to Syntho.AI
French (AI Translated)
French (AI Translated)
  • Welcome to Syntho
  • Vue d'ensemble
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Setup Workspaces
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Configurer une tâche de génération de données
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Déployer Syntho
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Sous-ensemble
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • Utiliser le scanner de texte Syntho PII
  • Utiliser un scanner de texte PII avec des colonnes dupliquées
  • PII detection flow
  • Langues prises en charge
  • Utilisation d'autres modèles NLP (support limité)
  • Limites

Was this helpful?

  1. Configurer une tâche de génération de données
  2. Manage personally identifiable information (PII)

Automatic PII discovery and de-identification in free text columns

PreviousRemove columns from PII listNextSupported PII & PHI entities

Last updated 1 year ago

Was this helpful?

Caution: cette fonction ralentira considérablement vos travaux de génération de données. Réduisez le nombre d'enregistrements d'entrée pour accélérer votre travail.

Pour plus d'informations sur les entités PII supportées par Syntho, voir .

Utiliser le scanner de texte Syntho PII

Il y a deux façons d'utiliser l'analyseur de texte PII de Syntho. Il peut être utilisé en combinaison avec la méthode de génération de colonnes Duplicate ou AI-powered generation.

Utiliser un scanner de texte PII avec des colonnes dupliquées

Lors de l'utilisation de l'analyseur de texte PII en combinaison avec la fonction Duplicate méthode de génération, la colonne sera dupliquée après l'application du scanner de texte PII. Pour appliquer ce:

  1. sous Column settings > Generation Method, sélectionner Duplicate.

  2. Dans ce cas, sous le menu déroulant, select the locale à utiliser pour détecter les entités PII.

  3. En option, permettre Replace PII with mock data. Lorsque cette option est activée, Les IIP seront remplacées par des valeurs fictives. Lorsque cette option est disabled, Les IIP seront annotées d'une étiquette IIP &#x20 ;

Note

Lorsque vous utilisez le scanner de texte PII avec la fonction de génération alimentée par l'IA, ces étapes se dérouleront dans l'ordre indiqué ci-dessous:

  1. Data Preprocessing: Au départ, des paramètres tels que le "seuil de protection de la catégorie rare" et la "valeur de remplacement" seront appliqués à vos données.

  2. PII Text Processing: Suivant, l'analyseur de texte des IIP passera en revue les données afin d'identifier et de traiter les IIP.

  3. AI-Powered Generation: Enfin, l'IA génère de nouvelles données, traiter la colonne de texte traitée comme s'il s'agissait d'un type d'encodage de catégorie.

En comprenant cette séquence, vous pouvez mieux anticiper ce à quoi ressembleront les données générées.

PII detection flow

Lorsque vous appliquez le scanner de texte PII à des colonnes spécifiques, Syntho recherche automatiquement les éléments PII dans ces colonnes. Les éléments PII identifiés peuvent alors être remplacés par des données fictives. Syntho utilise une variété d'algorithmes et de méthodes pour améliorer le processus d'analyse.

Voici un aperçu des étapes du processus de détection, par ordre chronologique:

  1. Regex: pour la reconnaissance des formes.

  2. Named Entity Recognition (NER): pour reconnaître les entités PII en langage naturel.

  3. Checksums: pour valider les modèles détectés.

  4. Context words: pour augmenter la certitude de la détection.

  5. Label: étiqueter l'entité PII détectée avec un descripteur de l'entité.

  6. (Optional) Obfuscate: pour remplacer les descripteurs d'IPI détectés par des données fictives.

Langues prises en charge

Sous Encoding type > Locale, vous pouvez définir les paramètres régionaux utilisés par les modèles de traitement de texte pour les colonnes de texte contenant des informations confidentielles.

Syntho prend en charge la détection et la dépersonnalisation des champs PII pour les langues suivantes English et Dutch dans les colonnes contenant des données en texte libre.

Syntho permet d'ajouter NLP (natural language processing) avec une prise en charge limitée des différentes langues (voir section suivante).

Utilisation d'autres modèles NLP (support limité)

Note: l'utilisation de modèles NLP autres que ceux par défaut nécessite une connexion internet active pour récupérer ces modèles.

Syntho utilise des moteurs NLP pour deux tâches principales: Identification des IPI basée sur les NER, et l'extraction de caractéristiques pour une logique basée sur des règles personnalisées (comme l'exploitation des mots du contexte pour améliorer la détection).&#x20 ;

Par défaut, à chaque déploiement, Syntho fournit les modèles open-source suivants de spaCy:

  • en_core_web_sm&#x20 ;

  • nl_core_news_sm&#x20 ;

D'autres modèles NLP peuvent être ajoutés sur demande avec un soutien limité de Syntho. Il est important de rappeler que l'utilisation d'autres modèles aura un impact sur le flux de détection des IIP et sur ses performances.

Limites

  • PII Detection and Confidence Score: Le scanner de texte PII peut identifier plusieurs Personally Identifiable Information (PII) dans une colonne de texte. Lorsque cela se produit, l'entité ayant le score de confiance le plus élevé est présentée à l'utilisateur. Toutefois, l'entité, il est important de comprendre qu'une note de confiance élevée ne garantit pas l'exactitude. Il peut en résulter une erreur d'étiquetage du type d'IIP détecté.

  • Internet Requirement for Non-Default NLP Models: Si vous choisissez d'utiliser des Natural Language Processing (NLP) des modèles permettant de s'adapter à différentes langues ou régions, une connexion internet active est nécessaire pour télécharger ces modèles.

  • Detection Methods: Le scanner utilise une approche multi-méthodes pour la détection des IIP, y compris l'utilisation de Regex modèles, Named Entity Recognition (NER) modèles, validation de la somme de contrôle, et l'examen des mots du contexte. Il convient de noter que l'efficacité des modèles de NER peut varier en fonction des données d'apprentissage. Par exemple, l'efficacité des modèles NER peut varier en fonction des données de formation., un modèle formé uniquement sur le texte de Wikipédia peut ne pas donner de bons résultats lorsqu'il est appliqué à des données médicales.

En comprenant ces détails, vous pouvez mieux comprendre comment fonctionne le scanner de texte d'IIP et quelles sont ses limites.

Ces modèles peuvent être remplacés par d'autres modèles NLP, publics ou propriétaires. Ces modèles peuvent être entraînés ou téléchargés à partir de cadres NLP existants tels que , et .

spaCy
Stanza
transformers
Supported PII entities
Panneau de la méthode de génération