LogoLogo
Go to Syntho.AI
French (AI Translated)
French (AI Translated)
  • Welcome to Syntho
  • Vue d'ensemble
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Setup Workspaces
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Configurer une tâche de génération de données
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Déployer Syntho
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Sous-ensemble
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • Comparaison des données générées avec différentes méthodes de génération
  • AI-generated synthetic data est appliqué au tableau des joueurs
  • Mockers sont appliqués à la table des joueurs
  • Consistent Mapping with Mockers est appliqué à la table des joueurs.
  • Colonnes calculées

Was this helpful?

  1. Vue d'ensemble
  2. Get started

Introduction to data generation methods

PreviousGet startedNextUse Case: AI-generated synthetic data

Last updated 10 months ago

Was this helpful?

La plateforme Syntho propose différentes méthodes de génération de données pour divers scénarios, en tenant compte de la nature des données, des préoccupations en matière de protection de la vie privée et des cas d'utilisation spécifiques, ce qui permet aux utilisateurs de choisir les options les plus appropriées. Le tableau récapitulatif donne une vue d'ensemble de ces méthodes, en détaillant leur pertinence et les scénarios d'utilisation ci-dessous. Vous pouvez sélectionner n'importe laquelle des méthodes de génération de données pour être renvoyé vers les sections détaillées du guide de l'utilisateur.

  • En tant que données utilisées à des fins d'analyse ou de modélisation ML

.

Les caractéristiques ci-dessous sont essentielles pour les méthodes de désidentification intelligente et de données synthétiques basées sur des règles.

Méthode de génération de données
Description
Quand utiliser
Quand ne pas utiliser

Les données synthétiques générées par l'IA se composent de lignes entièrement nouvelles qui imitent les lignes d'origine, mais n'ont pas de relation 1 à 1 avec elles.

  • Pour générer un ensemble de données de caractéristiques synthétiques pour le développement de modèles ML

  • Lorsque la précision statistique et une confidentialité maximale sont nécessaires

  • Pour augmenter le nombre de lignes de l'ensemble de données tout en conservant les distributions statistiques originales

  • Lorsque vous travaillez avec plusieurs tables interdépendantes

  • Lorsque la cohérence des données entre les systèmes est nécessaire

  • Lorsque vous devez pouvoir revenir aux enregistrements originaux

  • Si des catégories entièrement nouvelles et invisibles doivent être générées

  • , catégories inédites doivent être générées

Découverte intelligente et protection des colonnes de données les plus sensibles (c'est-à-dire PII/PHI) dans une base de données.

  • Lorsque la cohérence des données entre les tables, les systèmes et les tâches de génération de données doit être préservée

  • Lorsque vous travaillez avec des bases de données importantes et complexes à des fins internes

  • Pour augmenter la taille de l'ensemble de données (c'est-à-dire upsampling)

  • Lorsque vous travaillez avec des bases de données importantes et complexes à des fins internes

  • Pour augmenter la taille de l'ensemble de données (c'est-à-dire upsampling).(i.e. upsampling)

  • Lorsque les données ne sont pas sensibles

Générer des données à partir de zéro sur la base d'une logique et de règles définies par l'utilisateur.

  • Lorsqu'il n'y a pas encore de données réelles disponibles

  • Pour étendre ou améliorer les données existantes

Caractéristique clé
Description
Quand utiliser
Quand ne pas utiliser

Entraînement d'un modèle génératif d'IA sur les données d'origine afin de générer de nouvelles lignes qui imitent les lignes d'origine, mais qui n'ont pas de relation 1 à 1 avec elles.

  • Pour générer un ensemble de données synthétiques pour le développement de modèles ML

  • Lorsque la précision statistique et une confidentialité maximale sont nécessaires

  • Pour augmenter le nombre de lignes de l'ensemble de données tout en conservant les propriétés statistiques originales

  • Lorsque vous travaillez avec plusieurs tables liées

  • Lorsque la cohérence des données entre les systèmes est nécessaire

  • Lorsque vous devez pouvoir revenir aux enregistrements originaux

  • Si des valeurs textuelles entièrement nouvelles et invisibles doivent être générées, les données peuvent être modifiées ou modifiées, valeurs de texte inédites doivent être générées

Générer des valeurs entièrement nouvelles, définies par l'utilisateur

Pour la génération de données personnalisées sans tenir compte de la préservation des relations entre les valeurs des colonnes d'origine

Lorsque vous devez maintenir les relations avec les données d'origine

Pour générer des valeurs fictives qui sont mises en correspondance de manière cohérente avec les valeurs d'origine (par exemple, Hank devient toujours Jeffrey)

Pour générer des valeurs fictives qui sont mises en correspondance de manière cohérente avec les valeurs d'origine (par exemple, Hank devient toujours Jeffrey). Hank devient toujours Jeffrey)

Pour assurer la cohérence des données entre les tables, les systèmes et les travaux de génération de données

Si les données sont entièrement aléatoires, sans cohérence

Générer des valeurs définies par l'utilisateur sur la base d'une logique personnalisée

Pour les manipulations de données complexes nécessitant une logique commerciale spécifique

Pour les tâches de génération de données simples ne nécessitant pas de logique personnalisée

Découverte automatique des colonnes les plus sensibles (c'est-à-dire PII/PHI).e. PII/PHI) dans votre base de données

Pour découvrir les colonnes les plus sensibles (c.-à-d. PII / PHI)

Lorsque vos données ne sont pas sensibles

Comparaison des données générées avec différentes méthodes de génération

Nous démontrons l'application de chaque méthode de génération sur un ensemble de données de baseball réel, qui comprend les éléments suivants players et seasons tables.

Dans le premier exemple, nous constatons qu'un ensemble de données synthétiques entièrement nouveau a été généré par le modèle d'IA générative sur la base de l'ensemble de données original. L'ensemble de données synthétique conserve les statistiques de l'ensemble de données original, mais il n'y a pas de correspondance 1:1 entre les enregistrements synthétiques et les enregistrements originaux. Il convient de noter que pour les données synthétiques générées par l'IA, une valeur de remplacement des catégories rares de 10 a été appliquée. Cela signifie que tout nom apparaissant moins de 10 fois dans les colonnes nomPremier et nomDernier a été remplacé par un astérisque afin de protéger la vie privée.

Les moqueurs sont appliqués à des colonnes spécifiques du tableau des joueurs, qui sont surlignées en jaune dans le tableau ci-dessus : "country", "birthDate", "deathDate", "nameFirst" et "nameLast".

Veuillez noter que d'autres noms peuvent également être associés à "Danielle" ou "Olson" ; cependant, lorsque Syntho détecte "Bill", il le remplace toujours par un simulateur de prénom "Danielle". Il en va de même pour "Kennedy" et "Olson" dans la colonne des noms de famille. La cohérence peut être vérifiée avec d'autres colonnes puisqu'elles sont dupliquées sans aucun changement de la source à la destination, ce qui permet de faire correspondre les tables originales et synthétiques pour une meilleure compréhension de la cohérence.

Les [colonnes calculées] (../../configure-a-data-generation-job/configure-column-settings/calculated-columns.md) permettent aux utilisateurs d'effectuer un large éventail d'opérations sur les données, allant de l'arithmétique simple à des calculs logiques et statistiques complexes. Dans l'illustration ci-dessus, l'opération suivante est appliquée :

IFNA(IFS(taille>74, "Grande", taille>72, "Moyenne", taille>70, "Petite"), "NA")

& ;

(en utilisant , , et )

Données synthétiques basées sur des règles (en utilisant et )

est appliqué au tableau des joueurs

sont appliqués à la table des joueurs

est appliqué à la table des joueurs.

Si vous activez , les valeurs seront systématiquement associées à la même valeur dans toutes les tables. Par exemple, nous avons activé le mappage cohérent pour deux colonnes : "nameFirst" et "nameLast". Nous voulons générer les mêmes noms et prénoms synthétiques (mockers) pour les noms originaux. Voir les illustrations des tables MySQL ci-dessous, où les simulateurs avec mappage cohérent font correspondre le nom "Bill Kennedy" à "Danielle Olson".

AI-generated synthetic data
Mockers
Consistent Mapping with Mockers
consistent mapping
Colonnes calculées
Données synthétiques générées par l'IA
Données synthétiques de séries chronologiques générées par l'IA
Désidentification intelligente à l'aide de
PII scanner
Consistent Mapping
Mockers
Calculated Columns
Mockers
Calculated Columns
Données synthétiques générées par l'IA
Mockers
Consistent Mapping with Mockers
Calculated Columns
PII scanner
Colonnes du tableau des joueurs
Des données synthétiques générées par l'IA sont appliquées au tableau des joueurs
Le mocker est appliqué au tableau des joueurs
Activation du mappage cohérent dans les paramètres de colonne pour la colonne appelée "nomPremier" dans le tableau des joueurs
La mise en correspondance cohérente avec les moqueurs est appliquée aux tables de joueurs