Introduction to data generation methods

La plateforme Syntho propose différentes méthodes de génération de données pour divers scénarios, en tenant compte de la nature des données, des préoccupations en matière de protection de la vie privée et des cas d'utilisation spécifiques, ce qui permet aux utilisateurs de choisir les options les plus appropriées. Le tableau récapitulatif donne une vue d'ensemble de ces méthodes, en détaillant leur pertinence et les scénarios d'utilisation ci-dessous. Vous pouvez sélectionner n'importe laquelle des méthodes de génération de données pour être renvoyé vers les sections détaillées du guide de l'utilisateur.

En tant que données utilisées à des fins d'analyse ou de modélisation ML

Les caractéristiques ci-dessous sont essentielles pour les méthodes de désidentification intelligente et de données synthétiques basées sur des règles.

Méthode de génération de données	Description	Quand utiliser	Quand ne pas utiliser
Données synthétiques générées par l'IA & ; Données synthétiques de séries chronologiques générées par l'IA	Les données synthétiques générées par l'IA se composent de lignes entièrement nouvelles qui imitent les lignes d'origine, mais n'ont pas de relation 1 à 1 avec elles.	Pour générer un ensemble de données de caractéristiques synthétiques pour le développement de modèles ML Lorsque la précision statistique et une confidentialité maximale sont nécessaires Pour augmenter le nombre de lignes de l'ensemble de données tout en conservant les distributions statistiques originales	Lorsque vous travaillez avec plusieurs tables interdépendantes Lorsque la cohérence des données entre les systèmes est nécessaire Lorsque vous devez pouvoir revenir aux enregistrements originaux Si des catégories entièrement nouvelles et invisibles doivent être générées , catégories inédites doivent être générées
Désidentification intelligente à l'aide de (en utilisant PII scanner, Consistent Mapping, Mockers et Calculated Columns)	Découverte intelligente et protection des colonnes de données les plus sensibles (c'est-à-dire PII/PHI) dans une base de données.	Lorsque la cohérence des données entre les tables, les systèmes et les tâches de génération de données doit être préservée Lorsque vous travaillez avec des bases de données importantes et complexes à des fins internes	Pour augmenter la taille de l'ensemble de données (c'est-à-dire upsampling) Lorsque vous travaillez avec des bases de données importantes et complexes à des fins internes Pour augmenter la taille de l'ensemble de données (c'est-à-dire upsampling).(i.e. upsampling) Lorsque les données ne sont pas sensibles
Données synthétiques basées sur des règles (en utilisant Mockers et Calculated Columns)	Générer des données à partir de zéro sur la base d'une logique et de règles définies par l'utilisateur.	Lorsqu'il n'y a pas encore de données réelles disponibles Pour étendre ou améliorer les données existantes

Méthode de génération de données

Description

Quand utiliser

Quand ne pas utiliser

Données synthétiques générées par l'IA & ; Données synthétiques de séries chronologiques générées par l'IA

Les données synthétiques générées par l'IA se composent de lignes entièrement nouvelles qui imitent les lignes d'origine, mais n'ont pas de relation 1 à 1 avec elles.

Pour générer un ensemble de données de caractéristiques synthétiques pour le développement de modèles ML
Lorsque la précision statistique et une confidentialité maximale sont nécessaires
Pour augmenter le nombre de lignes de l'ensemble de données tout en conservant les distributions statistiques originales

Lorsque vous travaillez avec plusieurs tables interdépendantes
Lorsque la cohérence des données entre les systèmes est nécessaire
Lorsque vous devez pouvoir revenir aux enregistrements originaux
Si des catégories entièrement nouvelles et invisibles doivent être générées
, catégories inédites doivent être générées

Désidentification intelligente à l'aide de (en utilisant PII scanner, Consistent Mapping, Mockers et Calculated Columns)

Découverte intelligente et protection des colonnes de données les plus sensibles (c'est-à-dire PII/PHI) dans une base de données.

Lorsque la cohérence des données entre les tables, les systèmes et les tâches de génération de données doit être préservée
Lorsque vous travaillez avec des bases de données importantes et complexes à des fins internes

Pour augmenter la taille de l'ensemble de données (c'est-à-dire upsampling)
Lorsque vous travaillez avec des bases de données importantes et complexes à des fins internes

Pour augmenter la taille de l'ensemble de données (c'est-à-dire upsampling).(i.e. upsampling)

Lorsque les données ne sont pas sensibles

Données synthétiques basées sur des règles (en utilisant Mockers et Calculated Columns)

Générer des données à partir de zéro sur la base d'une logique et de règles définies par l'utilisateur.

Lorsqu'il n'y a pas encore de données réelles disponibles
Pour étendre ou améliorer les données existantes

Caractéristique clé	Description	Quand utiliser	Quand ne pas utiliser
Données synthétiques générées par l'IA	Entraînement d'un modèle génératif d'IA sur les données d'origine afin de générer de nouvelles lignes qui imitent les lignes d'origine, mais qui n'ont pas de relation 1 à 1 avec elles.	Pour générer un ensemble de données synthétiques pour le développement de modèles ML Lorsque la précision statistique et une confidentialité maximale sont nécessaires Pour augmenter le nombre de lignes de l'ensemble de données tout en conservant les propriétés statistiques originales	Lorsque vous travaillez avec plusieurs tables liées Lorsque la cohérence des données entre les systèmes est nécessaire Lorsque vous devez pouvoir revenir aux enregistrements originaux Si des valeurs textuelles entièrement nouvelles et invisibles doivent être générées, les données peuvent être modifiées ou modifiées, valeurs de texte inédites doivent être générées
Mockers	Générer des valeurs entièrement nouvelles, définies par l'utilisateur	Pour la génération de données personnalisées sans tenir compte de la préservation des relations entre les valeurs des colonnes d'origine	Lorsque vous devez maintenir les relations avec les données d'origine
Consistent Mapping with Mockers	Pour générer des valeurs fictives qui sont mises en correspondance de manière cohérente avec les valeurs d'origine (par exemple, Hank devient toujours Jeffrey)
	Pour générer des valeurs fictives qui sont mises en correspondance de manière cohérente avec les valeurs d'origine (par exemple, Hank devient toujours Jeffrey). Hank devient toujours Jeffrey)	Pour assurer la cohérence des données entre les tables, les systèmes et les travaux de génération de données	Si les données sont entièrement aléatoires, sans cohérence
Calculated Columns	Générer des valeurs définies par l'utilisateur sur la base d'une logique personnalisée	Pour les manipulations de données complexes nécessitant une logique commerciale spécifique	Pour les tâches de génération de données simples ne nécessitant pas de logique personnalisée
PII scanner	Découverte automatique des colonnes les plus sensibles (c'est-à-dire PII/PHI).e. PII/PHI) dans votre base de données	Pour découvrir les colonnes les plus sensibles (c.-à-d. PII / PHI)	Lorsque vos données ne sont pas sensibles

Caractéristique clé

Description

Quand utiliser

Quand ne pas utiliser

Données synthétiques générées par l'IA

Entraînement d'un modèle génératif d'IA sur les données d'origine afin de générer de nouvelles lignes qui imitent les lignes d'origine, mais qui n'ont pas de relation 1 à 1 avec elles.

Pour générer un ensemble de données synthétiques pour le développement de modèles ML
Lorsque la précision statistique et une confidentialité maximale sont nécessaires
Pour augmenter le nombre de lignes de l'ensemble de données tout en conservant les propriétés statistiques originales

Lorsque vous travaillez avec plusieurs tables liées
Lorsque la cohérence des données entre les systèmes est nécessaire
Lorsque vous devez pouvoir revenir aux enregistrements originaux
Si des valeurs textuelles entièrement nouvelles et invisibles doivent être générées, les données peuvent être modifiées ou modifiées, valeurs de texte inédites doivent être générées

Mockers

Générer des valeurs entièrement nouvelles, définies par l'utilisateur

Pour la génération de données personnalisées sans tenir compte de la préservation des relations entre les valeurs des colonnes d'origine

Lorsque vous devez maintenir les relations avec les données d'origine

Consistent Mapping with Mockers

Pour générer des valeurs fictives qui sont mises en correspondance de manière cohérente avec les valeurs d'origine (par exemple, Hank devient toujours Jeffrey)

Pour générer des valeurs fictives qui sont mises en correspondance de manière cohérente avec les valeurs d'origine (par exemple, Hank devient toujours Jeffrey). Hank devient toujours Jeffrey)

Pour assurer la cohérence des données entre les tables, les systèmes et les travaux de génération de données

Si les données sont entièrement aléatoires, sans cohérence

Calculated Columns

Générer des valeurs définies par l'utilisateur sur la base d'une logique personnalisée

Pour les manipulations de données complexes nécessitant une logique commerciale spécifique

Pour les tâches de génération de données simples ne nécessitant pas de logique personnalisée

PII scanner

Découverte automatique des colonnes les plus sensibles (c'est-à-dire PII/PHI).e. PII/PHI) dans votre base de données

Pour découvrir les colonnes les plus sensibles (c.-à-d. PII / PHI)

Lorsque vos données ne sont pas sensibles

Comparaison des données générées avec différentes méthodes de génération

Nous démontrons l'application de chaque méthode de génération sur un ensemble de données de baseball réel, qui comprend les éléments suivants players et seasons tables.

AI-generated synthetic data est appliqué au tableau des joueurs

Dans le premier exemple, nous constatons qu'un ensemble de données synthétiques entièrement nouveau a été généré par le modèle d'IA générative sur la base de l'ensemble de données original. L'ensemble de données synthétique conserve les statistiques de l'ensemble de données original, mais il n'y a pas de correspondance 1:1 entre les enregistrements synthétiques et les enregistrements originaux. Il convient de noter que pour les données synthétiques générées par l'IA, une valeur de remplacement des catégories rares de 10 a été appliquée. Cela signifie que tout nom apparaissant moins de 10 fois dans les colonnes nomPremier et nomDernier a été remplacé par un astérisque afin de protéger la vie privée.

Mockers sont appliqués à la table des joueurs

Les moqueurs sont appliqués à des colonnes spécifiques du tableau des joueurs, qui sont surlignées en jaune dans le tableau ci-dessus : "country", "birthDate", "deathDate", "nameFirst" et "nameLast".

Consistent Mapping with Mockers est appliqué à la table des joueurs.

Si vous activez consistent mapping, les valeurs seront systématiquement associées à la même valeur dans toutes les tables. Par exemple, nous avons activé le mappage cohérent pour deux colonnes : "nameFirst" et "nameLast". Nous voulons générer les mêmes noms et prénoms synthétiques (mockers) pour les noms originaux. Voir les illustrations des tables MySQL ci-dessous, où les simulateurs avec mappage cohérent font correspondre le nom "Bill Kennedy" à "Danielle Olson".

Veuillez noter que d'autres noms peuvent également être associés à "Danielle" ou "Olson" ; cependant, lorsque Syntho détecte "Bill", il le remplace toujours par un simulateur de prénom "Danielle". Il en va de même pour "Kennedy" et "Olson" dans la colonne des noms de famille. La cohérence peut être vérifiée avec d'autres colonnes puisqu'elles sont dupliquées sans aucun changement de la source à la destination, ce qui permet de faire correspondre les tables originales et synthétiques pour une meilleure compréhension de la cohérence.

Colonnes calculées

Les [colonnes calculées] (../../configure-a-data-generation-job/configure-column-settings/calculated-columns.md) permettent aux utilisateurs d'effectuer un large éventail d'opérations sur les données, allant de l'arithmétique simple à des calculs logiques et statistiques complexes. Dans l'illustration ci-dessus, l'opération suivante est appliquée :

IFNA(IFS(taille>74, "Grande", taille>72, "Moyenne", taille>70, "Petite"), "NA")

PreviousGet started NextUse Case: AI-generated synthetic data

Last updated 2 months ago