Introduction to data generation methods

La plateforme Syntho propose différentes méthodes de génération de données pour divers scénarios, en tenant compte de la nature des données, des préoccupations en matière de protection de la vie privée et des cas d'utilisation spécifiques, ce qui permet aux utilisateurs de choisir les options les plus appropriées. Le tableau récapitulatif donne une vue d'ensemble de ces méthodes, en détaillant leur pertinence et les scénarios d'utilisation ci-dessous. Vous pouvez sélectionner n'importe laquelle des méthodes de génération de données pour être renvoyé vers les sections détaillées du guide de l'utilisateur.

  • En tant que données utilisées à des fins d'analyse ou de modélisation ML

.

Les caractéristiques ci-dessous sont essentielles pour les méthodes de désidentification intelligente et de données synthétiques basées sur des règles.

Méthode de génération de donnéesDescriptionQuand utiliserQuand ne pas utiliser

Les données synthétiques générées par l'IA se composent de lignes entièrement nouvelles qui imitent les lignes d'origine, mais n'ont pas de relation 1 à 1 avec elles.

  • Pour générer un ensemble de données de caractéristiques synthétiques pour le développement de modèles ML

  • Lorsque la précision statistique et une confidentialité maximale sont nécessaires

  • Pour augmenter le nombre de lignes de l'ensemble de données tout en conservant les distributions statistiques originales

  • Lorsque vous travaillez avec plusieurs tables interdépendantes

  • Lorsque la cohérence des données entre les systèmes est nécessaire

  • Lorsque vous devez pouvoir revenir aux enregistrements originaux

  • Si des catégories entièrement nouvelles et invisibles doivent être générées

  • , catégories inédites doivent être générées

Découverte intelligente et protection des colonnes de données les plus sensibles (c'est-à-dire PII/PHI) dans une base de données.

  • Lorsque la cohérence des données entre les tables, les systèmes et les tâches de génération de données doit être préservée

  • Lorsque vous travaillez avec des bases de données importantes et complexes à des fins internes

  • Pour augmenter la taille de l'ensemble de données (c'est-à-dire upsampling)

  • Lorsque vous travaillez avec des bases de données importantes et complexes à des fins internes

  • Pour augmenter la taille de l'ensemble de données (c'est-à-dire upsampling).(i.e. upsampling)

  • Lorsque les données ne sont pas sensibles

Données synthétiques basées sur des règles (en utilisant Mockers et Calculated Columns)

Générer des données à partir de zéro sur la base d'une logique et de règles définies par l'utilisateur.

  • Lorsqu'il n'y a pas encore de données réelles disponibles

  • Pour étendre ou améliorer les données existantes

Caractéristique cléDescriptionQuand utiliserQuand ne pas utiliser

Entraînement d'un modèle génératif d'IA sur les données d'origine afin de générer de nouvelles lignes qui imitent les lignes d'origine, mais qui n'ont pas de relation 1 à 1 avec elles.

  • Pour générer un ensemble de données synthétiques pour le développement de modèles ML

  • Lorsque la précision statistique et une confidentialité maximale sont nécessaires

  • Pour augmenter le nombre de lignes de l'ensemble de données tout en conservant les propriétés statistiques originales

  • Lorsque vous travaillez avec plusieurs tables liées

  • Lorsque la cohérence des données entre les systèmes est nécessaire

  • Lorsque vous devez pouvoir revenir aux enregistrements originaux

  • Si des valeurs textuelles entièrement nouvelles et invisibles doivent être générées, les données peuvent être modifiées ou modifiées, valeurs de texte inédites doivent être générées

Générer des valeurs entièrement nouvelles, définies par l'utilisateur

Pour la génération de données personnalisées sans tenir compte de la préservation des relations entre les valeurs des colonnes d'origine

Lorsque vous devez maintenir les relations avec les données d'origine

Pour générer des valeurs fictives qui sont mises en correspondance de manière cohérente avec les valeurs d'origine (par exemple, Hank devient toujours Jeffrey)

Pour générer des valeurs fictives qui sont mises en correspondance de manière cohérente avec les valeurs d'origine (par exemple, Hank devient toujours Jeffrey). Hank devient toujours Jeffrey)

Pour assurer la cohérence des données entre les tables, les systèmes et les travaux de génération de données

Si les données sont entièrement aléatoires, sans cohérence

Générer des valeurs définies par l'utilisateur sur la base d'une logique personnalisée

Pour les manipulations de données complexes nécessitant une logique commerciale spécifique

Pour les tâches de génération de données simples ne nécessitant pas de logique personnalisée

Découverte automatique des colonnes les plus sensibles (c'est-à-dire PII/PHI).e. PII/PHI) dans votre base de données

Pour découvrir les colonnes les plus sensibles (c.-à-d. PII / PHI)

Lorsque vos données ne sont pas sensibles

Comparaison des données générées avec différentes méthodes de génération

Nous démontrons l'application de chaque méthode de génération sur un ensemble de données de baseball réel, qui comprend les éléments suivants players et seasons tables.

AI-generated synthetic data est appliqué au tableau des joueurs

Dans le premier exemple, nous constatons qu'un ensemble de données synthétiques entièrement nouveau a été généré par le modèle d'IA générative sur la base de l'ensemble de données original. L'ensemble de données synthétique conserve les statistiques de l'ensemble de données original, mais il n'y a pas de correspondance 1:1 entre les enregistrements synthétiques et les enregistrements originaux. Il convient de noter que pour les données synthétiques générées par l'IA, une valeur de remplacement des catégories rares de 10 a été appliquée. Cela signifie que tout nom apparaissant moins de 10 fois dans les colonnes nomPremier et nomDernier a été remplacé par un astérisque afin de protéger la vie privée.

Mockers sont appliqués à la table des joueurs

Les moqueurs sont appliqués à des colonnes spécifiques du tableau des joueurs, qui sont surlignées en jaune dans le tableau ci-dessus : "country", "birthDate", "deathDate", "nameFirst" et "nameLast".

Consistent Mapping with Mockers est appliqué à la table des joueurs.

Si vous activez consistent mapping, les valeurs seront systématiquement associées à la même valeur dans toutes les tables. Par exemple, nous avons activé le mappage cohérent pour deux colonnes : "nameFirst" et "nameLast". Nous voulons générer les mêmes noms et prénoms synthétiques (mockers) pour les noms originaux. Voir les illustrations des tables MySQL ci-dessous, où les simulateurs avec mappage cohérent font correspondre le nom "Bill Kennedy" à "Danielle Olson".

Veuillez noter que d'autres noms peuvent également être associés à "Danielle" ou "Olson" ; cependant, lorsque Syntho détecte "Bill", il le remplace toujours par un simulateur de prénom "Danielle". Il en va de même pour "Kennedy" et "Olson" dans la colonne des noms de famille. La cohérence peut être vérifiée avec d'autres colonnes puisqu'elles sont dupliquées sans aucun changement de la source à la destination, ce qui permet de faire correspondre les tables originales et synthétiques pour une meilleure compréhension de la cohérence.

Les [colonnes calculées] (../../configure-a-data-generation-job/configure-column-settings/calculated-columns.md) permettent aux utilisateurs d'effectuer un large éventail d'opérations sur les données, allant de l'arithmétique simple à des calculs logiques et statistiques complexes. Dans l'illustration ci-dessus, l'opération suivante est appliquée :

IFNA(IFS(taille>74, "Grande", taille>72, "Moyenne", taille>70, "Petite"), "NA")

Last updated