Introduction to data generation methods
Last updated
Last updated
La plateforme Syntho propose différentes méthodes de génération de données pour divers scénarios, en tenant compte de la nature des données, des préoccupations en matière de protection de la vie privée et des cas d'utilisation spécifiques, ce qui permet aux utilisateurs de choisir les options les plus appropriées. Le tableau récapitulatif donne une vue d'ensemble de ces méthodes, en détaillant leur pertinence et les scénarios d'utilisation ci-dessous. Vous pouvez sélectionner n'importe laquelle des méthodes de génération de données pour être renvoyé vers les sections détaillées du guide de l'utilisateur.
En tant que données utilisées à des fins d'analyse ou de modélisation ML
.
Les caractéristiques ci-dessous sont essentielles pour les méthodes de désidentification intelligente et de données synthétiques basées sur des règles.
Méthode de génération de données | Description | Quand utiliser | Quand ne pas utiliser |
---|---|---|---|
Les données synthétiques générées par l'IA se composent de lignes entièrement nouvelles qui imitent les lignes d'origine, mais n'ont pas de relation 1 à 1 avec elles. |
|
| |
Désidentification intelligente à l'aide de (en utilisant PII scanner, Consistent Mapping, Mockers et Calculated Columns) | Découverte intelligente et protection des colonnes de données les plus sensibles (c'est-à-dire PII/PHI) dans une base de données. |
|
|
Données synthétiques basées sur des règles (en utilisant Mockers et Calculated Columns) | Générer des données à partir de zéro sur la base d'une logique et de règles définies par l'utilisateur. |
|
Caractéristique clé | Description | Quand utiliser | Quand ne pas utiliser |
---|---|---|---|
Entraînement d'un modèle génératif d'IA sur les données d'origine afin de générer de nouvelles lignes qui imitent les lignes d'origine, mais qui n'ont pas de relation 1 à 1 avec elles. |
|
| |
Générer des valeurs entièrement nouvelles, définies par l'utilisateur | Pour la génération de données personnalisées sans tenir compte de la préservation des relations entre les valeurs des colonnes d'origine | Lorsque vous devez maintenir les relations avec les données d'origine | |
Pour générer des valeurs fictives qui sont mises en correspondance de manière cohérente avec les valeurs d'origine (par exemple, Hank devient toujours Jeffrey) | |||
Pour générer des valeurs fictives qui sont mises en correspondance de manière cohérente avec les valeurs d'origine (par exemple, Hank devient toujours Jeffrey). Hank devient toujours Jeffrey) | Pour assurer la cohérence des données entre les tables, les systèmes et les travaux de génération de données | Si les données sont entièrement aléatoires, sans cohérence | |
Générer des valeurs définies par l'utilisateur sur la base d'une logique personnalisée | Pour les manipulations de données complexes nécessitant une logique commerciale spécifique | Pour les tâches de génération de données simples ne nécessitant pas de logique personnalisée | |
Découverte automatique des colonnes les plus sensibles (c'est-à-dire PII/PHI).e. PII/PHI) dans votre base de données | Pour découvrir les colonnes les plus sensibles (c.-à-d. PII / PHI) | Lorsque vos données ne sont pas sensibles |
Nous démontrons l'application de chaque méthode de génération sur un ensemble de données de baseball réel, qui comprend les éléments suivants players et seasons tables.
Dans le premier exemple, nous constatons qu'un ensemble de données synthétiques entièrement nouveau a été généré par le modèle d'IA générative sur la base de l'ensemble de données original. L'ensemble de données synthétique conserve les statistiques de l'ensemble de données original, mais il n'y a pas de correspondance 1:1 entre les enregistrements synthétiques et les enregistrements originaux. Il convient de noter que pour les données synthétiques générées par l'IA, une valeur de remplacement des catégories rares de 10 a été appliquée. Cela signifie que tout nom apparaissant moins de 10 fois dans les colonnes nomPremier
et nomDernier
a été remplacé par un astérisque afin de protéger la vie privée.
Les moqueurs sont appliqués à des colonnes spécifiques du tableau des joueurs, qui sont surlignées en jaune dans le tableau ci-dessus : "country", "birthDate", "deathDate", "nameFirst" et "nameLast".
Si vous activez consistent mapping, les valeurs seront systématiquement associées à la même valeur dans toutes les tables. Par exemple, nous avons activé le mappage cohérent pour deux colonnes : "nameFirst" et "nameLast". Nous voulons générer les mêmes noms et prénoms synthétiques (mockers) pour les noms originaux. Voir les illustrations des tables MySQL ci-dessous, où les simulateurs avec mappage cohérent font correspondre le nom "Bill Kennedy" à "Danielle Olson".
Veuillez noter que d'autres noms peuvent également être associés à "Danielle" ou "Olson" ; cependant, lorsque Syntho détecte "Bill", il le remplace toujours par un simulateur de prénom "Danielle". Il en va de même pour "Kennedy" et "Olson" dans la colonne des noms de famille. La cohérence peut être vérifiée avec d'autres colonnes puisqu'elles sont dupliquées sans aucun changement de la source à la destination, ce qui permet de faire correspondre les tables originales et synthétiques pour une meilleure compréhension de la cohérence.
Les [colonnes calculées] (../../configure-a-data-generation-job/configure-column-settings/calculated-columns.md) permettent aux utilisateurs d'effectuer un large éventail d'opérations sur les données, allant de l'arithmétique simple à des calculs logiques et statistiques complexes. Dans l'illustration ci-dessus, l'opération suivante est appliquée :
IFNA(IFS(taille>74, "Grande", taille>72, "Moyenne", taille>70, "Petite"), "NA")