LogoLogo
Go to Syntho.AI
French (AI Translated)
French (AI Translated)
  • Welcome to Syntho
  • Vue d'ensemble
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Setup Workspaces
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Configurer une tâche de génération de données
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Déployer Syntho
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Sous-ensemble
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • 1. Diviser les ensembles de données séquentielles uniques en tables d'entités et tables liées
  • How to Split Data into Entity and Events
  • 2. Transférer toutes les données statiques dans la table des entités

Was this helpful?

  1. Configurer une tâche de génération de données
  2. Configure column settings
  3. AI-powered generation
  4. Sequence model

Prepare your sequence data

PreviousSequence modelNextMockers

Last updated 11 months ago

Was this helpful?

Si vos données brutes impliquent une série d'événements dans un seul tableau, vous devez le séparer dans un et un . Suivez les étapes suivantes, pour y parvenir.

A titre d'exemple, le tableau ci-dessous contient une série d'événements (informations et statistiques sur les joueurs de baseball à chaque saison).

1. Diviser les ensembles de données séquentielles uniques en tables d'entités et tables liées

Déplacer les données relatives aux événements dans une autre table, en veillant à ce que cette nouvelle table soit connectée à la table d'entité via une clé étrangère correspondant à la clé primaire de la table d'entité. Dans cette configuration, chaque personne ou entité répertoriée dans la table des entités a un identifiant correspondant dans la table des liens.

La disposition de vos données séquentielles est cruciale. Si les données relatives aux événements se trouvent dans les colonnes, vous devez les reformer en lignes, où chaque ligne décrit un événement unique.

How to Split Data into Entity and Events

Voici quelques exemples d'ensembles de données communs conçus pour une série d'applications:

  • Les parcours des patients, où un tableau des événements médicaux est lié à des patients individuels.

  • Différents types de relevés de capteurs où une table d'entités répertorie les capteurs, et le tableau lié enregistre les relevés associés à ces capteurs.

  • Dans le domaine du commerce électronique, les données synthétiques proviennent souvent d'ensembles de données d'achat où les tables d'entités contiennent des informations sur les clients, et des tables liées stockent les achats effectués par ces clients.

Ces achats sont classés par ordre chronologique, ensembles de données séquentielles, où la séquence et la chronologie des événements fournissent des informations importantes.

Lorsque vous organisez vos ensembles de données en vue d'un traitement ultérieur, respecter ces exigences:

Tableau des entités
Tableau lié

Chaque ligne représente un individu unique

Plusieurs lignes peuvent correspondre à la même personne

Doit avoir un identifiant d'entité unique (clé primaire)

Chaque ligne doit être liée à un identifiant unique dans la table des entités (clé étrangère).

Les lignes sont indépendantes les unes des autres

Plusieurs lignes peuvent être reliées entre elles

Ne contient que des informations statiques

Contient uniquement des informations dynamiques ; les séquences doivent être ordonnées dans le temps si possible.

2. Transférer toutes les données statiques dans la table des entités

Examinez votre table liée contenant des événements. Si elle contient des informations statiques décrivant l'entité, il devrait être déplacé vers la table des entités. Par exemple, Considérons un scénario de commerce électronique dans lequel chaque événement d'achat appartient à des clients spécifiques. L'adresse électronique du client reste la même pour tous les événements. Il est statique et caractérise le client, et non l'événement. Dans ce cas, les email_address doit être transférée dans la table des entités.

Un autre exemple est celui d'une table de joueurs de base-ball et d'une table indiquant leurs statistiques par saison. Dans ce cas, les joueurs de baseball doivent être considérés comme une table d'entités puisque la table des joueurs de baseball aura une clé primaire (player id), Les lignes seront indépendantes les unes des autres, représenteront un individu unique et contiendront des informations statiques. D'autre part, les, La table des saisons comportera différentes lignes consacrées à un même individu, puisqu'un joueur de base-ball peut disputer plusieurs saisons. De plus, la table des saisons possède un identifiant unique dans la table des entités (foreign key) et contient des informations dynamiques ordonnées dans le temps. Voir l'illustration ci-dessous.

entity table
linked table
Les joueurs de Basbeall et leurs statistiques dans un tableau
Une table a été séparée en une table d'entités et une table de liens, afficher des informations statiques (joueurs) et dynamiques (saisons), respectivement
Illustration montrant la relation de type "un à plusieurs" entre les tableaux des joueurs et des saisons