Introduction to data generation methods
Last updated
Last updated
La plateforme Syntho propose différentes méthodes de génération de données pour divers scénarios, en tenant compte de la nature des données, des préoccupations en matière de protection de la vie privée et des cas d'utilisation spécifiques, ce qui permet aux utilisateurs de choisir les options les plus appropriées. Le tableau récapitulatif donne une vue d'ensemble de ces méthodes, en détaillant leur pertinence et les scénarios d'utilisation ci-dessous. Vous pouvez sélectionner n'importe laquelle des méthodes de génération de données pour être renvoyé vers les sections détaillées du guide de l'utilisateur.
En tant que données utilisées à des fins d'analyse ou de modélisation ML
.
Les caractéristiques ci-dessous sont essentielles pour les méthodes de désidentification intelligente et de données synthétiques basées sur des règles.
Les données synthétiques générées par l'IA se composent de lignes entièrement nouvelles qui imitent les lignes d'origine, mais n'ont pas de relation 1 à 1 avec elles.
Pour générer un ensemble de données de caractéristiques synthétiques pour le développement de modèles ML
Lorsque la précision statistique et une confidentialité maximale sont nécessaires
Pour augmenter le nombre de lignes de l'ensemble de données tout en conservant les distributions statistiques originales
Lorsque vous travaillez avec plusieurs tables interdépendantes
Lorsque la cohérence des données entre les systèmes est nécessaire
Lorsque vous devez pouvoir revenir aux enregistrements originaux
Si des catégories entièrement nouvelles et invisibles doivent être générées
, catégories inédites doivent être générées
Désidentification intelligente à l'aide de (en utilisant PII scanner, Consistent Mapping, Mockers et Calculated Columns)
Découverte intelligente et protection des colonnes de données les plus sensibles (c'est-à-dire PII/PHI) dans une base de données.
Lorsque la cohérence des données entre les tables, les systèmes et les tâches de génération de données doit être préservée
Lorsque vous travaillez avec des bases de données importantes et complexes à des fins internes
Pour augmenter la taille de l'ensemble de données (c'est-à-dire upsampling)
Lorsque vous travaillez avec des bases de données importantes et complexes à des fins internes
Pour augmenter la taille de l'ensemble de données (c'est-à-dire upsampling).(i.e. upsampling)
Lorsque les données ne sont pas sensibles
Données synthétiques basées sur des règles (en utilisant Mockers et Calculated Columns)
Générer des données à partir de zéro sur la base d'une logique et de règles définies par l'utilisateur.
Lorsqu'il n'y a pas encore de données réelles disponibles
Pour étendre ou améliorer les données existantes
Entraînement d'un modèle génératif d'IA sur les données d'origine afin de générer de nouvelles lignes qui imitent les lignes d'origine, mais qui n'ont pas de relation 1 à 1 avec elles.
Pour générer un ensemble de données synthétiques pour le développement de modèles ML
Lorsque la précision statistique et une confidentialité maximale sont nécessaires
Pour augmenter le nombre de lignes de l'ensemble de données tout en conservant les propriétés statistiques originales
Lorsque vous travaillez avec plusieurs tables liées
Lorsque la cohérence des données entre les systèmes est nécessaire
Lorsque vous devez pouvoir revenir aux enregistrements originaux
Si des valeurs textuelles entièrement nouvelles et invisibles doivent être générées, les données peuvent être modifiées ou modifiées, valeurs de texte inédites doivent être générées
Générer des valeurs entièrement nouvelles, définies par l'utilisateur
Pour la génération de données personnalisées sans tenir compte de la préservation des relations entre les valeurs des colonnes d'origine
Lorsque vous devez maintenir les relations avec les données d'origine
Pour générer des valeurs fictives qui sont mises en correspondance de manière cohérente avec les valeurs d'origine (par exemple, Hank devient toujours Jeffrey)
Pour générer des valeurs fictives qui sont mises en correspondance de manière cohérente avec les valeurs d'origine (par exemple, Hank devient toujours Jeffrey). Hank devient toujours Jeffrey)
Pour assurer la cohérence des données entre les tables, les systèmes et les travaux de génération de données
Si les données sont entièrement aléatoires, sans cohérence
Générer des valeurs définies par l'utilisateur sur la base d'une logique personnalisée
Pour les manipulations de données complexes nécessitant une logique commerciale spécifique
Pour les tâches de génération de données simples ne nécessitant pas de logique personnalisée
Découverte automatique des colonnes les plus sensibles (c'est-à-dire PII/PHI).e. PII/PHI) dans votre base de données
Pour découvrir les colonnes les plus sensibles (c.-à-d. PII / PHI)
Lorsque vos données ne sont pas sensibles
Nous démontrons l'application de chaque méthode de génération sur un ensemble de données de baseball réel, qui comprend les éléments suivants players et seasons tables.
Dans le premier exemple, nous constatons qu'un ensemble de données synthétiques entièrement nouveau a été généré par le modèle d'IA générative sur la base de l'ensemble de données original. L'ensemble de données synthétique conserve les statistiques de l'ensemble de données original, mais il n'y a pas de correspondance 1:1 entre les enregistrements synthétiques et les enregistrements originaux. Il convient de noter que pour les données synthétiques générées par l'IA, une valeur de remplacement des catégories rares de 10 a été appliquée. Cela signifie que tout nom apparaissant moins de 10 fois dans les colonnes nomPremier
et nomDernier
a été remplacé par un astérisque afin de protéger la vie privée.
Les moqueurs sont appliqués à des colonnes spécifiques du tableau des joueurs, qui sont surlignées en jaune dans le tableau ci-dessus : "country", "birthDate", "deathDate", "nameFirst" et "nameLast".
Si vous activez consistent mapping, les valeurs seront systématiquement associées à la même valeur dans toutes les tables. Par exemple, nous avons activé le mappage cohérent pour deux colonnes : "nameFirst" et "nameLast". Nous voulons générer les mêmes noms et prénoms synthétiques (mockers) pour les noms originaux. Voir les illustrations des tables MySQL ci-dessous, où les simulateurs avec mappage cohérent font correspondre le nom "Bill Kennedy" à "Danielle Olson".
Veuillez noter que d'autres noms peuvent également être associés à "Danielle" ou "Olson" ; cependant, lorsque Syntho détecte "Bill", il le remplace toujours par un simulateur de prénom "Danielle". Il en va de même pour "Kennedy" et "Olson" dans la colonne des noms de famille. La cohérence peut être vérifiée avec d'autres colonnes puisqu'elles sont dupliquées sans aucun changement de la source à la destination, ce qui permet de faire correspondre les tables originales et synthétiques pour une meilleure compréhension de la cohérence.
Les [colonnes calculées] (../../configure-a-data-generation-job/configure-column-settings/calculated-columns.md) permettent aux utilisateurs d'effectuer un large éventail d'opérations sur les données, allant de l'arithmétique simple à des calculs logiques et statistiques complexes. Dans l'illustration ci-dessus, l'opération suivante est appliquée :
IFNA(IFS(taille>74, "Grande", taille>72, "Moyenne", taille>70, "Petite"), "NA")