LogoLogo
Go to Syntho.AI
French (AI Translated)
French (AI Translated)
  • Welcome to Syntho
  • Vue d'ensemble
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Setup Workspaces
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Configurer une tâche de génération de données
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Déployer Syntho
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Sous-ensemble
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • Comment appliquer le modèle de séquence de données synthétiques de Syntho
  • Paramètres du modèle de séquence
  • Limites et recommandations

Was this helpful?

  1. Configurer une tâche de génération de données
  2. Configure column settings
  3. AI-powered generation

Sequence model

PreviousAI-powered generationNextPrepare your sequence data

Last updated 10 months ago

Was this helpful?

Note: Avant d'utiliser cette fonction, assurez-vous que vos données sont configurées comme décrit dans la section section.

Syntho est capable de traiter des données sous forme de lists, sequencesou time-series lorsqu'il est structuré en entity table-linked table structure.

Les modèles de séquences de données synthétiques de Syntho vous permettent de capturer des informations relationnelles entre n'importe quelle table d'entité et n'importe quelle table liée. Les tables d'entités contiennent les profils des entités de données, tandis que les tables liées les référencent.

Entity tables peuvent être identifiées par leurs attributs, qui décrivent des informations sensibles sur les entités de données, telles que les noms, les dates de naissance, les numéros de téléphone, les adresses, etc. Linked tables contiennent souvent des informations sur les événements concernant une entité référencée, qui peuvent s'étendre sur plusieurs lignes par entité, comme le paiement d'un salaire mensuel.

Prenons l'exemple d'un Patients et PatientMedications présentés ci-dessous. Ici, les Patients est la table des entités. La table PatientMedications est le tableau lié.

Pour synthétiser ces tableaux en utilisant les modèles de séquence de Syntho :

  1. Syntho commence par synthétiser le tableau Patients.

  2. Ensuite, il synthétise la table PatientsMédicaments en utilisant le modèle de séquence synthétique. Patients comme contexte.

Comment appliquer le modèle de séquence de données synthétiques de Syntho

Pour utiliser les modèles synthétiques de séquences de données de Syntho, vous pouvez procéder comme suit :

  1. Sur l'écran Job Configuration panneau, drag le tableau des entités liées et le tableau lié sous Synthesize.

  2. Faites glisser tous les autres tableaux sous De-identify ou Exclude.

  3. Sur l'écran Job configuration sélectionner Generate.

  4. Sur l'écran Job configuration activez la fonction Enable sequence modeling toggle** .****

  5. Enfin, sélectionnez Start generating.

Paramètres du modèle de séquence

Avant de lancer le processus de génération, vous avez la possibilité de modifier les paramètres du modèle de séquence. En voici un aperçu :

  • Max sequence length: Fixe une limite à la longueur des séquences et tronque toute séquence qui dépasse cette limite.

  • Rare long sequence protection threshold: Définit une limite pour la longueur des séquences de données utilisées dans l'apprentissage, en ajustant les séquences les plus longues à la longueur de la Nième séquence.

  • N generated entities: Détermine le nombre d'entités à générer, chacune associée à une séquence.

  • Read batch size: La quantité de lignes lues à partir de chaque table source par lot.

  • Write batch size: La quantité de lignes insérées dans chaque table de destination par lot.

  • N connections: Spécifie le nombre de connexions.

Limites et recommandations

Il est important de prendre en compte les éléments suivants lors de l'utilisation des modèles de séquence Syntho :

  • 2 tables: Syntho a limité l'utilisation de ses modèles de séquence à 2 tables pour maximiser l'utilité des données synthétiques.

  • Mockers Not Supported: Vous ne pouvez pas utiliser de mockers en conjonction avec le modèle de séquence.

Hint: Comme solution de contournement, pour pouvoir appliquer les mockers en combinaison avec la fonction de modèle de séquence de Syntho, vous pouvez lancer deux jobs de génération de données séquentielles. Le premier job avec les 2 tables en mode table Synthétiser et le modèle de séquence activé. La base de données retournée par le premier job est alors utilisée comme base de données source du second job. Le second travail applique alors les simulateurs en combinaison avec le réglage des modes de table pertinents sur Désidentification. Notez que cela nécessite deux bases de données de destination distinctes pour chaque travail suivant.

  • Resource Consumption: Cette fonction est gourmande en ressources et peut ralentir votre processus de génération de données. Envisagez de réduire vos données d'entrée ou d'ajuster les paramètres du modèle de séquence afin de réduire le temps et les ressources nécessaires à votre travail.

La compréhension de ces limitations et recommandations vous aidera à tirer le meilleur parti de Syntho.

Prepare your sequence data
Glisser et déposer des tableaux
Activer la modélisation des séquences
Paramètres du modèle de séquence