Automatic PII discovery and de-identification in free text columns
Last updated
Last updated
Caution: cette fonction ralentira considérablement vos travaux de génération de données. Réduisez le nombre d'enregistrements d'entrée pour accélérer votre travail.
Pour plus d'informations sur les entités PII supportées par Syntho, voir Supported PII entities.
Il y a deux façons d'utiliser l'analyseur de texte PII de Syntho. Il peut être utilisé en combinaison avec la méthode de génération de colonnes Duplicate ou AI-powered generation.
Lors de l'utilisation de l'analyseur de texte PII en combinaison avec la fonction Duplicate méthode de génération, la colonne sera dupliquée après l'application du scanner de texte PII. Pour appliquer ce:
sous Column settings > Generation Method, sélectionner Duplicate.
Dans ce cas, sous le menu déroulant, select the locale à utiliser pour détecter les entités PII.
En option, permettre Replace PII with mock data. Lorsque cette option est activée, Les IIP seront remplacées par des valeurs fictives. Lorsque cette option est disabled, Les IIP seront annotées d'une étiquette IIP   ;
Note
Lorsque vous utilisez le scanner de texte PII avec la fonction de génération alimentée par l'IA, ces étapes se dérouleront dans l'ordre indiqué ci-dessous:
Data Preprocessing: Au départ, des paramètres tels que le "seuil de protection de la catégorie rare" et la "valeur de remplacement" seront appliqués à vos données.
PII Text Processing: Suivant, l'analyseur de texte des IIP passera en revue les données afin d'identifier et de traiter les IIP.
AI-Powered Generation: Enfin, l'IA génère de nouvelles données, traiter la colonne de texte traitée comme s'il s'agissait d'un type d'encodage de catégorie.
En comprenant cette séquence, vous pouvez mieux anticiper ce à quoi ressembleront les données générées.
Lorsque vous appliquez le scanner de texte PII à des colonnes spécifiques, Syntho recherche automatiquement les éléments PII dans ces colonnes. Les éléments PII identifiés peuvent alors être remplacés par des données fictives. Syntho utilise une variété d'algorithmes et de méthodes pour améliorer le processus d'analyse.
Voici un aperçu des étapes du processus de détection, par ordre chronologique:
Regex: pour la reconnaissance des formes.
Named Entity Recognition (NER): pour reconnaître les entités PII en langage naturel.
Checksums: pour valider les modèles détectés.
Context words: pour augmenter la certitude de la détection.
Label: étiqueter l'entité PII détectée avec un descripteur de l'entité.
(Optional) Obfuscate: pour remplacer les descripteurs d'IPI détectés par des données fictives.
Sous Encoding type > Locale, vous pouvez définir les paramètres régionaux utilisés par les modèles de traitement de texte pour les colonnes de texte contenant des informations confidentielles.
Syntho prend en charge la détection et la dépersonnalisation des champs PII pour les langues suivantes English et Dutch dans les colonnes contenant des données en texte libre.
Syntho permet d'ajouter NLP (natural language processing) avec une prise en charge limitée des différentes langues (voir section suivante).
Note: l'utilisation de modèles NLP autres que ceux par défaut nécessite une connexion internet active pour récupérer ces modèles.
Syntho utilise des moteurs NLP pour deux tâches principales: Identification des IPI basée sur les NER, et l'extraction de caractéristiques pour une logique basée sur des règles personnalisées (comme l'exploitation des mots du contexte pour améliorer la détection).  ;
Par défaut, à chaque déploiement, Syntho fournit les modèles open-source suivants de spaCy:
en_core_web_sm
  ;
nl_core_news_sm
  ;
Ces modèles peuvent être remplacés par d'autres modèles NLP, publics ou propriétaires. Ces modèles peuvent être entraînés ou téléchargés à partir de cadres NLP existants tels que spaCy, Stanza et transformers.
D'autres modèles NLP peuvent être ajoutés sur demande avec un soutien limité de Syntho. Il est important de rappeler que l'utilisation d'autres modèles aura un impact sur le flux de détection des IIP et sur ses performances.
PII Detection and Confidence Score: Le scanner de texte PII peut identifier plusieurs Personally Identifiable Information (PII) dans une colonne de texte. Lorsque cela se produit, l'entité ayant le score de confiance le plus élevé est présentée à l'utilisateur. Toutefois, l'entité, il est important de comprendre qu'une note de confiance élevée ne garantit pas l'exactitude. Il peut en résulter une erreur d'étiquetage du type d'IIP détecté.
Internet Requirement for Non-Default NLP Models: Si vous choisissez d'utiliser des Natural Language Processing (NLP) des modèles permettant de s'adapter à différentes langues ou régions, une connexion internet active est nécessaire pour télécharger ces modèles.
Detection Methods: Le scanner utilise une approche multi-méthodes pour la détection des IIP, y compris l'utilisation de Regex modèles, Named Entity Recognition (NER) modèles, validation de la somme de contrôle, et l'examen des mots du contexte. Il convient de noter que l'efficacité des modèles de NER peut varier en fonction des données d'apprentissage. Par exemple, l'efficacité des modèles NER peut varier en fonction des données de formation., un modèle formé uniquement sur le texte de Wikipédia peut ne pas donner de bons résultats lorsqu'il est appliqué à des données médicales.
En comprenant ces détails, vous pouvez mieux comprendre comment fonctionne le scanner de texte d'IIP et quelles sont ses limites.