Sequence model

Note: Avant d'utiliser cette fonction, assurez-vous que vos données sont configurées comme décrit dans la section Prepare your sequence data section.

Syntho est capable de traiter des données sous forme de lists, sequencesou time-series lorsqu'il est structuré en entity table-linked table structure.

Les modèles de séquences de données synthétiques de Syntho vous permettent de capturer des informations relationnelles entre n'importe quelle table d'entité et n'importe quelle table liée. Les tables d'entités contiennent les profils des entités de données, tandis que les tables liées les référencent.

Entity tables peuvent être identifiées par leurs attributs, qui décrivent des informations sensibles sur les entités de données, telles que les noms, les dates de naissance, les numéros de téléphone, les adresses, etc. Linked tables contiennent souvent des informations sur les événements concernant une entité référencée, qui peuvent s'étendre sur plusieurs lignes par entité, comme le paiement d'un salaire mensuel.

Prenons l'exemple d'un Patients et PatientMedications présentés ci-dessous. Ici, les Patients est la table des entités. La table PatientMedications est le tableau lié.

Pour synthétiser ces tableaux en utilisant les modèles de séquence de Syntho :

  1. Syntho commence par synthétiser le tableau Patients.

  2. Ensuite, il synthétise la table PatientsMédicaments en utilisant le modèle de séquence synthétique. Patients comme contexte.

Comment appliquer le modèle de séquence de données synthétiques de Syntho

Pour utiliser les modèles synthétiques de séquences de données de Syntho, vous pouvez procéder comme suit :

  1. Sur l'écran Job Configuration panneau, drag le tableau des entités liées et le tableau lié sous Synthesize.

  2. Faites glisser tous les autres tableaux sous De-identify ou Exclude.

  3. Sur l'écran Job configuration sélectionner Generate.

  4. Sur l'écran Job configuration activez la fonction Enable sequence modeling toggle** .****

  5. Enfin, sélectionnez Start generating.

Paramètres du modèle de séquence

Avant de lancer le processus de génération, vous avez la possibilité de modifier les paramètres du modèle de séquence. En voici un aperçu :

  • Max sequence length: Fixe une limite à la longueur des séquences et tronque toute séquence qui dépasse cette limite.

  • Rare long sequence protection threshold: Définit une limite pour la longueur des séquences de données utilisées dans l'apprentissage, en ajustant les séquences les plus longues à la longueur de la Nième séquence.

  • N generated entities: Détermine le nombre d'entités à générer, chacune associée à une séquence.

  • Read batch size: La quantité de lignes lues à partir de chaque table source par lot.

  • Write batch size: La quantité de lignes insérées dans chaque table de destination par lot.

  • N connections: Spécifie le nombre de connexions.

Limites et recommandations

Il est important de prendre en compte les éléments suivants lors de l'utilisation des modèles de séquence Syntho :

  • 2 tables: Syntho a limité l'utilisation de ses modèles de séquence à 2 tables pour maximiser l'utilité des données synthétiques.

  • Mockers Not Supported: Vous ne pouvez pas utiliser de mockers en conjonction avec le modèle de séquence.

Hint: Comme solution de contournement, pour pouvoir appliquer les mockers en combinaison avec la fonction de modèle de séquence de Syntho, vous pouvez lancer deux jobs de génération de données séquentielles. Le premier job avec les 2 tables en mode table Synthétiser et le modèle de séquence activé. La base de données retournée par le premier job est alors utilisée comme base de données source du second job. Le second travail applique alors les simulateurs en combinaison avec le réglage des modes de table pertinents sur Désidentification. Notez que cela nécessite deux bases de données de destination distinctes pour chaque travail suivant.

  • Resource Consumption: Cette fonction est gourmande en ressources et peut ralentir votre processus de génération de données. Envisagez de réduire vos données d'entrée ou d'ajuster les paramètres du modèle de séquence afin de réduire le temps et les ressources nécessaires à votre travail.

La compréhension de ces limitations et recommandations vous aidera à tirer le meilleur parti de Syntho.

Last updated