Automatic PII discovery with PII scanner

Sur l'écran PII tab sur le Job Configuration panneau, lancer un personally identifiable information (PII) qui analyse toutes les colonnes de votre base de données à la recherche d'informations confidentielles.

Tous les résultats positifs de l'analyse s'affichent dans la liste des entités IIP de la page d'accueil. PII tab.&#x20 ;

Sur le Job Settings onglet, Les entités PII répertoriées dans l'onglet PII sont également étiquetées PII sur l'en-tête de la colonne.

Vous pouvez lancer un metadata L'analyse des IPI ou une data Analyse des IIP. L'analyse des métadonnées est plus rapide, puisqu'il est basé sur le nom d'une colonne individuelle sur laquelle des règles d'expression régulière sont appliquées. D'autre part, les, l'analyse des données est susceptible d'être plus précise dans la détection des colonnes d'IIP, car il analyse les données contenues dans la colonne à l'aide de modèles de traitement du langage naturel à la pointe de la technologie.

Hint: Lors de l'utilisation du scanner PII, toujours valider les colonnes qui en résultent et qui sont marquées comme IIP, car l'analyseur peut marquer par erreur comme IIP des colonnes qui ne le sont pas. Il peut également manquer certains éléments IIP.

Analyse superficielle (utilise les métadonnées)

Sur le PII onglet, sélectionnez l'icône de la liste déroulante à droite de l'écran Start scan et sélectionnez Shallow scan.

L'analyse superficielle évalue toutes les colonnes disponibles dans la base de données et utilise des règles d'expression régulière pour déduire le type d'IIP que chaque colonne pourrait contenir. Ce processus est optimisé pour la vitesse et s'exécute en parallèle., la précision de la prédiction peut parfois être moindre.

En raison de la nature de l'analyse des métadonnées, ont généralement un niveau de confiance élevé. Cela s'explique par le fait qu'ils reposent sur des règles établies par Syntho. Il est possible d'ajouter de nouvelles règles pour détecter des entités PII personnalisées. Pour plus de détails, veuillez contacter votre représentant Syntho.

Balayage superficiel dans le menu déroulant du mode de balayage

Analyse approfondie (utilise les métadonnées + les données)

Sur le site PII onglet, sélectionnez l'icône de la liste déroulante à droite de l'écran Start scan et sélectionnez Deep scan.

Dans certains cas, Syntho pourrait ne pas détecter les entités PII lors d'un balayage superficiel, surtout si les noms des colonnes ne décrivent pas leur contenu. Il n'est pas toujours pratique de créer une liste exhaustive de règles. C'est pourquoi, Syntho propose une option permettant d'analyser non seulement les métadonnées mais aussi les données contenues dans les colonnes afin de repérer les entités PII potentielles.

L'analyse des IIP lance d'abord l'analyse des métadonnées. Les colonnes non identifiées comme IIP et de type "string" ou "text"sont alors pris en compte pour l'analyse approfondie. Nous limitons l'analyse à ces types parce que notre natural language processing (NLP) les modèles sont entraînés à identifier et à extraire les IIP à partir de données textuelles, en s'appuyant sur le contexte des mots pour les prédictions.

Caution: Le scanner de données PII examine le contenu de chaque colonne, ce qui signifie que la durée de l'analyse augmente avec la taille de la base de données. Pour réduire la durée de l'analyse, vous pouvez limiter le nombre de lignes lues par colonne. Cependant, il est possible de limiter le nombre de lignes lues par colonne., cela pourrait avoir un effet négatif sur les résultats de l'analyse.

Par rapport à l'analyse des métadonnées, les résultats de l'analyse des données peuvent avoir un niveau de confiance plus faible. Si une colonne contient plusieurs types d'IIP, notre logiciel calcule la probabilité que la colonne soit d'un type d'IIP spécifique en fonction de la fréquence de détection de ce type d'IIP par rapport au nombre total de lignes analysées pour cette colonne.

Limites (analyse approfondie uniquement)

  • L'analyse approfondie examine chaque colonne de données à l'aide de modèles de traitement du langage naturel (NLP), qui s'appuient sur le contexte environnant pour produire des résultats précis. Cependant, les, les colonnes contenant des informations personnellement identifiables (IPI), comme un First_Name colonne, sont généralement dépourvus de ce contexte. Par exemple, les, a First_Name la colonne ne contient que des prénoms, Il est donc difficile pour les modèles NLP de les identifier avec précision en tant que tels sans contexte supplémentaire.

Entités PII prises en charge

Pour plus d'informations sur les entités PII supportées par Syntho, voir Supported PII entities.

Paramètres du scanner PII

  • Cardinality basculer, si elle est activée, aide l'utilisateur à vérifier s'il y a autant de valeurs uniques dans une colonne qu'il y a de lignes. Dans ce cas, la colonne contient très probablement des informations confidentielles.

  • Lorsque l'on sélectionne Add, la modale Méthode de génération / Colonne apparaît d'abord et l'utilisateur doit ajuster/confirmer les paramètres. Ensuite, l'utilisateur doit ajuster/confirmer les paramètres., les Add disparaît et l'icône de la roue apparaît.

  • Le Allowlist permet aux utilisateurs de définir une liste de jetons qui ne doivent pas être marqués comme IIP, même si l'on souhaite identifier d'autres jetons de ce type d'entité.

  • Le Add new PII lancera une fenêtre modale permettant à l'utilisateur de créer une nouvelle entité IIP., en remplissant trois champs avec&#x20 ;

    1. un nom pour l'entité définie par l'utilisateur,

    2. a RegEx (ou liste de mots),

    3. un pourcentage de confiance.

  • Les PII entities à rechercher, est une liste déroulante multisélection (identique à la liste déroulante du schéma) qui présente toutes les entités d'identification personnelle disponibles (y compris les entités créées par l'utilisateur).

  • Les PII scan acceptance threshold peut être utilisé pour contrôler les entités IIP qui sont présentées à l'utilisateur.

  • Les Learn more about PII renvoie l'utilisateur à la section IIP de la documentation utilisateur de Syntho.

De plus, le bouton:&#x20 ;

  • Lors de la définition de la langue locale dans l'analyse PII, veuillez utiliser ces paramètres régionaux comme paramètres par défaut pour tous les simulateurs suggérés dans le cadre de l'analyse des IIP.

En outre, prendre en considération les points suivants:

  • Si les en-têtes de colonne sont rouges pour les colonnes PII sous "désidentifier", cela signifie qu'il n'y a pas de Mocker ou d'Exclude appliqué

  • Un point d'exclamation ( !) à côté du tableau à gauche, sous le tableau, le panneau de vue d'ensemble apparaît si ce tableau est sous "de-identify"et a des colonnes avec des étiquettes PII sur Duplicate (sans Mocker ou Exclude appliqué). La marque ( !) informe l'utilisateur que ce tableau comporte des colonnes étiquetées comme des informations personnelles identifiables (IPI) et que si l'utilisateur poursuit sa recherche, il peut être amené à utiliser la fonction de duplication., ces IIP seront dupliquées, ce qui pourrait entraîner le partage involontaire de données sensibles. Pour éviter cela, L'utilisateur a deux options:

    1. Appliquer un Mocker.

    2. Excluez la ou les colonnes PII.

Le point d'exclamation ( !) aide l'utilisateur à comprendre que les tables marquées comme dépersonnalisées doivent être dépersonnalisées. Veuillez noter que de-identification est égal à excluding or mocking PII columns. Lorsqu'il existe des colonnes d'informations nominatives qui ne peuvent être traitées par l'application d'un simulateur ou l'exclusion d'une colonne., il est en danger. D'où, l'étiquette PII est rouge et le tableau est accompagné d'un point d'exclamation.

Limitations

  • Scanner Accuracy: La précision du scanner d'IIP dépend des métadonnées., données, et le type d'IIP. Pour une détection plus précise des IIP, il est plus efficace d'utiliser des noms de colonnes descriptifs comme FirstName au lieu de noms génériques comme Col1.

  • Multiple PII Detections: Le scanner d'IIP peut identifier plusieurs entrées d'IIP possibles dans une seule colonne. Il faut savoir que l'entrée la mieux notée n'est pas toujours correcte, ce qui peut conduire à une identification erronée d'un élément non IIP ou à une catégorisation erronée du type d'IIP.

  • Selecting PII Types: Actuellement, les utilisateurs ne peuvent pas spécifier les types d'entités IIP à rechercher. Pour une liste complète des types d'entités IIP recherchées par Syntho, veuillez vous référer à la section Supported PII entities.

La compréhension de ces points vous aidera à mieux utiliser le scanner d'IIP et à connaître ses limites.

Last updated