Frequently asked questions
Last updated
Was this helpful?
Last updated
Was this helpful?
Syntho nécessite un utilisateur administratif pour l'installation. Si vous utilisez Docker pour le déploiement, l'utilisateur a besoin sudo droits pour docker/docker-compose.
La plateforme Syntho fonctionne avec des bases de données source et destination.
La source database stocke les données d'entrée pour votre tâche de génération de données et peut être utilisé pour la génération de données. read-only.
Le destination database doit avoir des tables et des colonnes vides, dont la structure est identique à celle de la base de données source la base de données. Il faut write access, car les données générées y seront écrites.
Les source et destination peuvent fonctionner sur le même serveur ou être hébergés sur des serveurs différents.
Syntho utilise les métadonnées pertinentes stockées dans votre base de données source pour générer la base de données destination de la base de données. Par exemple, les contraintes de clés étrangères sont déduites pour reproduire les relations entre les tables dans la base de données générée.
Syntho est capable de gérer des scénarios où les contraintes de la base de données destination sont soit activées, soit désactivées.
Les tables non sensibles (par exemple 'definition tablestelles que les tables de langues ou de produits) peuvent être copiées telles quelles lors de l'écriture des données dans la base de données de destination. Cette opération peut être effectuée dans la base de données Job configuration en marquant le tableau comme De-identify.
Pour plus d'informations, visitez le site : .
Pour minimiser les risques d'atteinte à la vie privée et améliorer la capacité de généralisation de l'algorithme d'apprentissage, il est recommandé d'utiliser au minimum column-to-row ratio of 1:500 est recommandé. Par exemple, si votre source a 6 colonnes, il doit contenir un minimum de 3000 lignes.
Oui. Dans certains scénarios, lorsque vous n'avez pas encore de données, vous pouvez vouloir générer des données à partir de zéro pour remplir votre base de données vide. Vous pouvez le faire en utilisant la plateforme Syntho de la manière suivante :
Tout d'abord, créez une base de données source base de données et destination avec les tables et les colonnes que vous souhaitez remplir. La base de données source doit être différente de la base de données de destination.
Veillez à ce que les colonnes des clés primaires et étrangères de votre source sont correctement configurés et disposent déjà d'une some key values in there.
Sur l'écran Job configuration Faites glisser tous les tableaux sous De-identify.
Utilisez le raccourci CTRL + SHIFT + ALT + 0
et définissez la valeur sous l'entrée "key_generation_method" à "generate".
Configurez les Mocker et Calculated Columns les paramètres.
Sélectionnez l'option number of rows à générer dans les paramètres du tableau.
Enfin, sélectionnez Generate pour générer votre base de données.
Il existe plusieurs façons d'améliorer l'utilité (c'est-à-dire la "qualité" ou la "fidélité") des données synthétiques générées. Voici une liste d'options possibles :
Veillez à ce que vos données soient préparées conformément aux exigences de préparation des données décrites dans le [Preparing your dataLa section [.../configure-a-data-generation-job/configure-column-settings/ai-powered-generation/#preparing-your-data].
Oui. En plus de la fonctionnalité principale de Syntho, qui est la synthèse, Syntho vous permet également de de-identify vos colonnes les plus sensibles. La section suivante décrit comment procéder :
La plateforme Syntho et les modèles d'IA générative de Syntho sont optimisés pour générer vos données aussi rapidement et efficacement que possible. Par exemple, la parallélisation des tâches est appliquée à chaque étape du processus de génération de données, de la lecture du fichier source jusqu'à l'écriture de la destination données.
Voici quelques conseils supplémentaires pour accélérer vos travaux de génération de données :
Réduire le nombre de tables à générer.
Réduisez le nombre de lignes et de colonnes à cardinalité élevée (c'est-à-dire les colonnes comportant de nombreuses valeurs distinctes) dans vos tableaux.
Syntho est limité par les performances d'interrogation et d'écriture de la base de données à laquelle il est connecté. En particulier, les vitesses d'écriture des bases de données peuvent avoir un impact significatif pour certains types de bases de données lorsque les tables deviennent plus grandes. Voici quelques options pour atténuer les limitations des vitesses d'écriture des bases de données :
Envisager de prendre une base de données représentative [subset ] (https://github.com/shahin-hu/Translations/blob/main/English/overview/broken-reference/README.md) de ces grands tableaux avant de procéder à la synthèse.
Envisager d'écrire les données générées dans des fichiers (Parquet) dans Azure Data Lake Storage ou Amazon Simple Storage Service (S3).
La plate-forme Syntho offre plusieurs fonctionnalités pour optimiser l'utilisation de la mémoire pendant la génération des données. Comprendre le fonctionnement de ces fonctionnalités peut vous aider à gérer la mémoire plus efficacement et à prévenir les problèmes tels que les erreurs de mémoire (OOM).
Pour chaque colonne, allez à la Column settings et sélectionnez ou comme méthode de génération.
Augmentez la valeur du champ , et envisager d'inclure toutes les lignes. Si le nombre maximal de lignes utilisées pour l'apprentissage est inférieur au nombre total de lignes d'entrée, vous pouvez activer le paramètre pour obtenir un sous-ensemble plus représentatif.
Si vous devez synthétiser plusieurs tables liées, suivez les instructions et les limitations du feature.
Désactiver .
Lorsque vous travaillez avec plusieurs tableaux, vous pouvez ajuster la pour permettre l'écriture en parallèle.
Augmentez l'espace pourrait avoir un léger impact sur les vitesses d'écriture.
: Le nombre de points de données traités dans un seul lot. Une taille de lot plus importante peut augmenter la vitesse de génération des données mais nécessite plus de mémoire. Ajustez la taille du lot en fonction de la mémoire disponible dans votre cluster afin de trouver l'équilibre optimal entre les performances et l'utilisation de la mémoire.
(N): Ce paramètre contrôle le nombre de tables qui peuvent être lues ou écrites en parallèle. L'augmentation de N permet de traiter plusieurs tables simultanément, ce qui peut accélérer la génération de données. Ce paramètre doit donc être ajusté en fonction de la mémoire disponible et de la complexité du schéma de votre base de données (en tenant compte des relations potentielles entre les clés étrangères).
(N): Le nombre de lignes des données sources utilisées pour entraîner le modèle génératif. L'utilisation d'un plus grand nombre de lignes peut améliorer la qualité des données synthétisées, mais nécessite plus de mémoire. Surveillez l'utilisation de la mémoire et ajustez N pour éviter de dépasser les limites de mémoire.
: Permet d'observer en temps réel l'utilisation de la mémoire, l'utilisation de l'unité centrale et d'autres mesures de ressources. Surveillez régulièrement le tableau de bord Ray pour suivre la consommation de mémoire et effectuer les ajustements nécessaires à la taille du lot, aux connexions parallèles et aux rangées d'entraînement.
: Des erreurs telles que "Workers (tasks/actors) killed due to memory pressure (OOM)" indiquent que le cluster n'a plus de mémoire. Si vous rencontrez des erreurs OOM, réduisez la taille du lot, le nombre de connexions parallèles ou le nombre de lignes d'entraînement afin d'atténuer la pression de la mémoire.