LogoLogo
Go to Syntho.AI
French (AI Translated)
French (AI Translated)
  • Welcome to Syntho
  • Vue d'ensemble
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Setup Workspaces
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Configurer une tâche de génération de données
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Déployer Syntho
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Sous-ensemble
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • Quelles sont les autorisations nécessaires pour déployer Syntho ?
  • Comment dois-je provisionner mes bases de données pour la génération de données ?
  • Comment Syntho gère-t-il les contraintes sur ma base de données ?
  • J'ai quelques tables non sensibles que je souhaite encore inclure dans ma base de données de destination. Que dois-je faire de ces tables ?
  • Combien d'enregistrements d'entraînement sont nécessaires pour la génération assistée par l'IA ?
  • Je n'ai pas encore de données. Puis-je également générer des données à partir de zéro ?
  • Que puis-je faire pour améliorer l'utilitaire de données synthétiques ?
  • Puis-je également utiliser Syntho pour la dé-identification ou la pseudonymisation des données ?
  • Comment puis-je accélérer mes tâches de génération de données ?
  • Comment puis-je optimiser l'utilisation de la mémoire de mon cluster ?

Was this helpful?

  1. Vue d'ensemble

Frequently asked questions

PreviousUse Case: Database de-identificationNextView workspaces

Last updated 10 months ago

Was this helpful?

Quelles sont les autorisations nécessaires pour déployer Syntho ?

Syntho nécessite un utilisateur administratif pour l'installation. Si vous utilisez Docker pour le déploiement, l'utilisateur a besoin sudo droits pour docker/docker-compose.

Comment dois-je provisionner mes bases de données pour la génération de données ?

La plateforme Syntho fonctionne avec des bases de données source et destination.

  • La source database stocke les données d'entrée pour votre tâche de génération de données et peut être utilisé pour la génération de données. read-only.

  • Le destination database doit avoir des tables et des colonnes vides, dont la structure est identique à celle de la base de données source la base de données. Il faut write access, car les données générées y seront écrites.

Les source et destination peuvent fonctionner sur le même serveur ou être hébergés sur des serveurs différents.

Comment Syntho gère-t-il les contraintes sur ma base de données ?

Syntho utilise les métadonnées pertinentes stockées dans votre base de données source pour générer la base de données destination de la base de données. Par exemple, les contraintes de clés étrangères sont déduites pour reproduire les relations entre les tables dans la base de données générée.

Syntho est capable de gérer des scénarios où les contraintes de la base de données destination sont soit activées, soit désactivées.

J'ai quelques tables non sensibles que je souhaite encore inclure dans ma base de données de destination. Que dois-je faire de ces tables ?

Les tables non sensibles (par exemple 'definition tablestelles que les tables de langues ou de produits) peuvent être copiées telles quelles lors de l'écriture des données dans la base de données de destination. Cette opération peut être effectuée dans la base de données Job configuration en marquant le tableau comme De-identify.

Pour plus d'informations, visitez le site : .

Combien d'enregistrements d'entraînement sont nécessaires pour la génération assistée par l'IA ?

Pour minimiser les risques d'atteinte à la vie privée et améliorer la capacité de généralisation de l'algorithme d'apprentissage, il est recommandé d'utiliser au minimum column-to-row ratio of 1:500 est recommandé. Par exemple, si votre source a 6 colonnes, il doit contenir un minimum de 3000 lignes.

Je n'ai pas encore de données. Puis-je également générer des données à partir de zéro ?

Oui. Dans certains scénarios, lorsque vous n'avez pas encore de données, vous pouvez vouloir générer des données à partir de zéro pour remplir votre base de données vide. Vous pouvez le faire en utilisant la plateforme Syntho de la manière suivante :

  1. Tout d'abord, créez une base de données source base de données et destination avec les tables et les colonnes que vous souhaitez remplir. La base de données source doit être différente de la base de données de destination.

  2. Veillez à ce que les colonnes des clés primaires et étrangères de votre source sont correctement configurés et disposent déjà d'une some key values in there.

  3. Sur l'écran Job configuration Faites glisser tous les tableaux sous De-identify.

  4. Utilisez le raccourci CTRL + SHIFT + ALT + 0 et définissez la valeur sous l'entrée "key_generation_method" à "generate".

  5. Pour chaque colonne, allez à la Column settings et sélectionnez Mocker ou Calculated Column comme méthode de génération.

  6. Configurez les Mocker et Calculated Columns les paramètres.

  7. Sélectionnez l'option number of rows à générer dans les paramètres du tableau.

  8. Enfin, sélectionnez Generate pour générer votre base de données.

Que puis-je faire pour améliorer l'utilitaire de données synthétiques ?

Il existe plusieurs façons d'améliorer l'utilité (c'est-à-dire la "qualité" ou la "fidélité") des données synthétiques générées. Voici une liste d'options possibles :

  1. Veillez à ce que vos données soient préparées conformément aux exigences de préparation des données décrites dans le [Preparing your dataLa section [.../configure-a-data-generation-job/configure-column-settings/ai-powered-generation/#preparing-your-data].

  2. Si vous devez synthétiser plusieurs tables liées, suivez les instructions et les limitations du Synthesize table relationships with entity-table ranking feature.

Puis-je également utiliser Syntho pour la dé-identification ou la pseudonymisation des données ?

Oui. En plus de la fonctionnalité principale de Syntho, qui est la synthèse, Syntho vous permet également de de-identify vos colonnes les plus sensibles. La section suivante décrit comment procéder :

De-identify PII columns

Comment puis-je accélérer mes tâches de génération de données ?

La plateforme Syntho et les modèles d'IA générative de Syntho sont optimisés pour générer vos données aussi rapidement et efficacement que possible. Par exemple, la parallélisation des tâches est appliquée à chaque étape du processus de génération de données, de la lecture du fichier source jusqu'à l'écriture de la destination données.

Voici quelques conseils supplémentaires pour accélérer vos travaux de génération de données :

  1. Désactiver PII obfuscation for free text columns.

  2. Réduire le nombre de tables à générer.

  3. Réduisez le nombre de lignes et de colonnes à cardinalité élevée (c'est-à-dire les colonnes comportant de nombreuses valeurs distinctes) dans vos tableaux.

  4. Syntho est limité par les performances d'interrogation et d'écriture de la base de données à laquelle il est connecté. En particulier, les vitesses d'écriture des bases de données peuvent avoir un impact significatif pour certains types de bases de données lorsque les tables deviennent plus grandes. Voici quelques options pour atténuer les limitations des vitesses d'écriture des bases de données :

    1. Envisager de prendre une base de données représentative [subset ] (https://github.com/shahin-hu/Translations/blob/main/English/overview/broken-reference/README.md) de ces grands tableaux avant de procéder à la synthèse.

    2. Envisager d'écrire les données générées dans des fichiers (Parquet) dans Azure Data Lake Storage ou Amazon Simple Storage Service (S3).

Comment puis-je optimiser l'utilisation de la mémoire de mon cluster ?

La plate-forme Syntho offre plusieurs fonctionnalités pour optimiser l'utilisation de la mémoire pendant la génération des données. Comprendre le fonctionnement de ces fonctionnalités peut vous aider à gérer la mémoire plus efficacement et à prévenir les problèmes tels que les erreurs de mémoire (OOM).

  1. Batch Size : Le nombre de points de données traités dans un seul lot. Une taille de lot plus importante peut augmenter la vitesse de génération des données mais nécessite plus de mémoire. Ajustez la taille du lot en fonction de la mémoire disponible dans votre cluster afin de trouver l'équilibre optimal entre les performances et l'utilisation de la mémoire.

  2. Parallel Connections (N): Ce paramètre contrôle le nombre de tables qui peuvent être lues ou écrites en parallèle. L'augmentation de N permet de traiter plusieurs tables simultanément, ce qui peut accélérer la génération de données. Ce paramètre doit donc être ajusté en fonction de la mémoire disponible et de la complexité du schéma de votre base de données (en tenant compte des relations potentielles entre les clés étrangères).

  3. Training Rows (N): Le nombre de lignes des données sources utilisées pour entraîner le modèle génératif. L'utilisation d'un plus grand nombre de lignes peut améliorer la qualité des données synthétisées, mais nécessite plus de mémoire. Surveillez l'utilisation de la mémoire et ajustez N pour éviter de dépasser les limites de mémoire.

  4. Ray Dashboard : Permet d'observer en temps réel l'utilisation de la mémoire, l'utilisation de l'unité centrale et d'autres mesures de ressources. Surveillez régulièrement le tableau de bord Ray pour suivre la consommation de mémoire et effectuer les ajustements nécessaires à la taille du lot, aux connexions parallèles et aux rangées d'entraînement.

  5. OOM Error Logs : Des erreurs telles que "Workers (tasks/actors) killed due to memory pressure (OOM)" indiquent que le cluster n'a plus de mémoire. Si vous rencontrez des erreurs OOM, réduisez la taille du lot, le nombre de connexions parallèles ou le nombre de lignes d'entraînement afin d'atténuer la pression de la mémoire.

Augmentez la valeur du champ , et envisager d'inclure toutes les lignes. Si le nombre maximal de lignes utilisées pour l'apprentissage est inférieur au nombre total de lignes d'entrée, vous pouvez activer le paramètre pour obtenir un sous-ensemble plus représentatif.

Lorsque vous travaillez avec plusieurs tableaux, vous pouvez ajuster la pour permettre l'écriture en parallèle.

Augmentez l'espace pourrait avoir un léger impact sur les vitesses d'écriture.

Configure table settings > Table modes
Maximum rows used for training
Take random sample
Number of simultaneous connections
Write batch size