LogoLogo
Go to Syntho.AI
French (AI Translated)
French (AI Translated)
  • Welcome to Syntho
  • Vue d'ensemble
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Setup Workspaces
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Configurer une tâche de génération de données
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Déployer Syntho
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Sous-ensemble
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • Analyse superficielle (utilise les métadonnées)
  • Analyse approfondie (utilise les métadonnées + les données)
  • Limites (analyse approfondie uniquement)
  • Entités PII prises en charge
  • Paramètres du scanner PII
  • Limitations

Was this helpful?

  1. Configurer une tâche de génération de données
  2. Manage personally identifiable information (PII)
  3. Discover and de-identify PII columns

Automatic PII discovery with PII scanner

PreviousIdentify PII columns manuallyNextRemove columns from PII list

Last updated 11 months ago

Was this helpful?

Sur l'écran PII tab sur le Job Configuration panneau, lancer un personally identifiable information (PII) qui analyse toutes les colonnes de votre base de données à la recherche d'informations confidentielles.

Tous les résultats positifs de l'analyse s'affichent dans la liste des entités IIP de la page d'accueil. PII tab.&#x20 ;

Sur le Job Settings onglet, Les entités PII répertoriées dans l'onglet PII sont également étiquetées PII sur l'en-tête de la colonne.

Vous pouvez lancer un metadata L'analyse des IPI ou une data Analyse des IIP. L'analyse des métadonnées est plus rapide, puisqu'il est basé sur le nom d'une colonne individuelle sur laquelle des règles d'expression régulière sont appliquées. D'autre part, les, l'analyse des données est susceptible d'être plus précise dans la détection des colonnes d'IIP, car il analyse les données contenues dans la colonne à l'aide de modèles de traitement du langage naturel à la pointe de la technologie.

Hint: Lors de l'utilisation du scanner PII, toujours valider les colonnes qui en résultent et qui sont marquées comme IIP, car l'analyseur peut marquer par erreur comme IIP des colonnes qui ne le sont pas. Il peut également manquer certains éléments IIP.

Analyse superficielle (utilise les métadonnées)

Sur le PII onglet, sélectionnez l'icône de la liste déroulante à droite de l'écran Start scan et sélectionnez Shallow scan.

L'analyse superficielle évalue toutes les colonnes disponibles dans la base de données et utilise des règles d'expression régulière pour déduire le type d'IIP que chaque colonne pourrait contenir. Ce processus est optimisé pour la vitesse et s'exécute en parallèle., la précision de la prédiction peut parfois être moindre.

En raison de la nature de l'analyse des métadonnées, ont généralement un niveau de confiance élevé. Cela s'explique par le fait qu'ils reposent sur des règles établies par Syntho. Il est possible d'ajouter de nouvelles règles pour détecter des entités PII personnalisées. Pour plus de détails, veuillez contacter votre représentant Syntho.

Analyse approfondie (utilise les métadonnées + les données)

Sur le site PII onglet, sélectionnez l'icône de la liste déroulante à droite de l'écran Start scan et sélectionnez Deep scan.

Dans certains cas, Syntho pourrait ne pas détecter les entités PII lors d'un balayage superficiel, surtout si les noms des colonnes ne décrivent pas leur contenu. Il n'est pas toujours pratique de créer une liste exhaustive de règles. C'est pourquoi, Syntho propose une option permettant d'analyser non seulement les métadonnées mais aussi les données contenues dans les colonnes afin de repérer les entités PII potentielles.

L'analyse des IIP lance d'abord l'analyse des métadonnées. Les colonnes non identifiées comme IIP et de type "string" ou "text"sont alors pris en compte pour l'analyse approfondie. Nous limitons l'analyse à ces types parce que notre natural language processing (NLP) les modèles sont entraînés à identifier et à extraire les IIP à partir de données textuelles, en s'appuyant sur le contexte des mots pour les prédictions.

Caution: Le scanner de données PII examine le contenu de chaque colonne, ce qui signifie que la durée de l'analyse augmente avec la taille de la base de données. Pour réduire la durée de l'analyse, vous pouvez limiter le nombre de lignes lues par colonne. Cependant, il est possible de limiter le nombre de lignes lues par colonne., cela pourrait avoir un effet négatif sur les résultats de l'analyse.

Par rapport à l'analyse des métadonnées, les résultats de l'analyse des données peuvent avoir un niveau de confiance plus faible. Si une colonne contient plusieurs types d'IIP, notre logiciel calcule la probabilité que la colonne soit d'un type d'IIP spécifique en fonction de la fréquence de détection de ce type d'IIP par rapport au nombre total de lignes analysées pour cette colonne.

Limites (analyse approfondie uniquement)

  • L'analyse approfondie examine chaque colonne de données à l'aide de modèles de traitement du langage naturel (NLP), qui s'appuient sur le contexte environnant pour produire des résultats précis. Cependant, les, les colonnes contenant des informations personnellement identifiables (IPI), comme un First_Name colonne, sont généralement dépourvus de ce contexte. Par exemple, les, a First_Name la colonne ne contient que des prénoms, Il est donc difficile pour les modèles NLP de les identifier avec précision en tant que tels sans contexte supplémentaire.

Entités PII prises en charge

Paramètres du scanner PII

  • Cardinality basculer, si elle est activée, aide l'utilisateur à vérifier s'il y a autant de valeurs uniques dans une colonne qu'il y a de lignes. Dans ce cas, la colonne contient très probablement des informations confidentielles.

  • Lorsque l'on sélectionne Add, la modale Méthode de génération / Colonne apparaît d'abord et l'utilisateur doit ajuster/confirmer les paramètres. Ensuite, l'utilisateur doit ajuster/confirmer les paramètres., les Add disparaît et l'icône de la roue apparaît.

  • Le Allowlist permet aux utilisateurs de définir une liste de jetons qui ne doivent pas être marqués comme IIP, même si l'on souhaite identifier d'autres jetons de ce type d'entité.

  • Le Add new PII lancera une fenêtre modale permettant à l'utilisateur de créer une nouvelle entité IIP., en remplissant trois champs avec&#x20 ;

    1. un nom pour l'entité définie par l'utilisateur,

    2. a RegEx (ou liste de mots),

    3. un pourcentage de confiance.

  • Les PII entities à rechercher, est une liste déroulante multisélection (identique à la liste déroulante du schéma) qui présente toutes les entités d'identification personnelle disponibles (y compris les entités créées par l'utilisateur).

  • Les PII scan acceptance threshold peut être utilisé pour contrôler les entités IIP qui sont présentées à l'utilisateur.

  • Les Learn more about PII renvoie l'utilisateur à la section IIP de la documentation utilisateur de Syntho.

De plus, le bouton:&#x20 ;

  • Lors de la définition de la langue locale dans l'analyse PII, veuillez utiliser ces paramètres régionaux comme paramètres par défaut pour tous les simulateurs suggérés dans le cadre de l'analyse des IIP.

En outre, prendre en considération les points suivants:

  • Si les en-têtes de colonne sont rouges pour les colonnes PII sous "désidentifier", cela signifie qu'il n'y a pas de Mocker ou d'Exclude appliqué

  • Un point d'exclamation ( !) à côté du tableau à gauche, sous le tableau, le panneau de vue d'ensemble apparaît si ce tableau est sous "de-identify"et a des colonnes avec des étiquettes PII sur Duplicate (sans Mocker ou Exclude appliqué). La marque ( !) informe l'utilisateur que ce tableau comporte des colonnes étiquetées comme des informations personnelles identifiables (IPI) et que si l'utilisateur poursuit sa recherche, il peut être amené à utiliser la fonction de duplication., ces IIP seront dupliquées, ce qui pourrait entraîner le partage involontaire de données sensibles. Pour éviter cela, L'utilisateur a deux options:

    1. Appliquer un Mocker.

    2. Excluez la ou les colonnes PII.

Le point d'exclamation ( !) aide l'utilisateur à comprendre que les tables marquées comme dépersonnalisées doivent être dépersonnalisées. Veuillez noter que de-identification est égal à excluding or mocking PII columns. Lorsqu'il existe des colonnes d'informations nominatives qui ne peuvent être traitées par l'application d'un simulateur ou l'exclusion d'une colonne., il est en danger. D'où, l'étiquette PII est rouge et le tableau est accompagné d'un point d'exclamation.

Limitations

  • Scanner Accuracy: La précision du scanner d'IIP dépend des métadonnées., données, et le type d'IIP. Pour une détection plus précise des IIP, il est plus efficace d'utiliser des noms de colonnes descriptifs comme FirstName au lieu de noms génériques comme Col1.

  • Multiple PII Detections: Le scanner d'IIP peut identifier plusieurs entrées d'IIP possibles dans une seule colonne. Il faut savoir que l'entrée la mieux notée n'est pas toujours correcte, ce qui peut conduire à une identification erronée d'un élément non IIP ou à une catégorisation erronée du type d'IIP.

La compréhension de ces points vous aidera à mieux utiliser le scanner d'IIP et à connaître ses limites.

Pour plus d'informations sur les entités PII supportées par Syntho, voir .

Le nom de famille de la colonne est détecté comme étant une IPI, mais aucune exclusion n'est appliquée.

Selecting PII Types: Actuellement, les utilisateurs ne peuvent pas spécifier les types d'entités IIP à rechercher. Pour une liste complète des types d'entités IIP recherchées par Syntho, veuillez vous référer à la section .

Supported PII entities
Supported PII entities
Balayage superficiel dans le menu déroulant du mode de balayage