LogoLogo
Go to Syntho.AI
French (AI Translated)
French (AI Translated)
  • Welcome to Syntho
  • Vue d'ensemble
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Setup Workspaces
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Configurer une tâche de génération de données
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Déployer Syntho
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Sous-ensemble
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • Shuffle
  • Détecter et obscurcir les IIP
  • Ordering and Indexing Considerations

Was this helpful?

  1. Configurer une tâche de génération de données
  2. Configure column settings

Duplicate

PreviousSupported languagesNextExclude

Last updated 10 months ago

Was this helpful?

Sous Column settings > Generation Method, sélectionner Duplicate pour copier la colonne de la table source vers la table de destination en l'état.

Note: Lorsque vous dupliquez une colonne, celle-ci est toujours utilisée pendant le processus de formation, car elle peut contenir des informations précieuses.

Cela signifie toutefois que l'exclusion de colonnes ne peut pas être utilisée pour réduire les besoins en matériel ou augmenter la vitesse de vos travaux sur les données synthétiques.

Shuffle

Activer la fonction Shuffle pour mélanger les valeurs générées, tout en conservant la fréquence globale des valeurs. Par exemple, si vous avez 4 valeurs élevées, 3 moyennes et 5 faibles dans la base de données source, le même nombre de valeurs existera dans la base de données de destination, sauf qu'elles seront mélangées et apparaîtront dans un ordre différent.

Notez que la fonctionnalité de mélange fonctionne par lots, de sorte que chaque génération de lot en fonction de la taille du lot de génération est mélangée indépendamment. en fonction de l'ensemble des valeurs de la base de données. Generation Batch Size (la valeur par défaut est 100k).

Notez que les valeurs NULL sont également considérées comme des valeurs distinctes, et seront mélangées comme n'importe quelle autre valeur.

Détecter et obscurcir les IIP

Activer la bascule Detect and obfuscate PII d'utiliser le [module d'obscurcissement du texte des IIP] de Syntho (../manage-personally-identifiable-information-pii/automatic-pii-discovery-and-de-identification-in-free-text-columns.md) pour détecter et obscurcir les entités IIP dans les colonnes contenant des informations en texte libre.

Lorsqu'elle est activée, la fonction Locale, sur la base des données contenues dans votre colonne de texte, afin de garantir que Syntho utilise les modèles linguistiques appropriés pour identifier et masquer les IIP dans votre colonne de texte.

Après avoir activé cette option et défini les paramètres linguistiques appropriés, toutes les entités PII identifiées sont obscurcies et ensuite copiées dans la table de destination.

Ordering and Indexing Considerations

Pour garantir un classement précis, il est essentiel que l'application dispose d'un index ou d'une clé primaire dans la table source. En l'absence de ces éléments, l'application effectue par défaut un tri basé sur la première colonne de la table. Toutefois, si la première colonne contient des valeurs dupliquées, l'ordre ne peut être garanti, car il repose sur l'algorithme de tri de la base de données pour traiter les valeurs dupliquées. L'ajout d'un index à la table source résoudra ce problème.

Il est important de noter que l'utilisation du mappage cohérent dans une table sans clés primaires ou index définis peut donner des résultats inattendus. Dans de tels cas, l'application utilise la première colonne pour le tri, qui peut ne pas contenir de valeurs uniques, ce qui conduit à des résultats non déterministes.

CautionEn utilisant les mêmes techniques de modélisation sous-jacentes que le , la fonctionnalité Détecter et obscurcir PII peut prendre beaucoup de temps à s'exécuter.

module d'obscurcissement du texte PII
Sélectionner Duplicate dans le panneau Generation Method