LogoLogo
Go to Syntho.AI
French (AI Translated)
French (AI Translated)
  • Welcome to Syntho
  • Vue d'ensemble
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Setup Workspaces
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Configurer une tâche de génération de données
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Déployer Syntho
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Sous-ensemble
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • Avant de commencer
  • Formats de fichiers
  • Format de sortie
  • Connexion et configuration de l'espace de travail
  • Limitations

Was this helpful?

  1. Setup Workspaces
  2. Create a workspace
  3. Connect to a database

Azure Data Lake Storage (ADLS)

PreviousSAP SybaseNextAmazon Simple Storage Service (S3)

Last updated 10 months ago

Was this helpful?

Destination only

Ce connecteur ne peut être utilisé que comme destination pour l'écriture des données générées.

  • Types de fichiers pris en charge : Parquet

  • partitionnement pris en charge : Partitionnement horizontal basé sur la taille du lot d'écriture (c'est-à-dire que chaque lot sera écrit dans un fichier séparé). Veuillez également donner un exemple de structure de sortie de fichier

Avant de commencer

Avant de commencer, passez en revue les éléments de la liste suivante :

  • Obtenez l'URL de votre Azure point de terminaison du stockage.

  • En fonction de la manière dont vous souhaitez vous connecter, préparez soit :

    • le nom et la clé du compte de stockage, ou

    • la chaîne de connexion.

  • Fournir des autorisations de lecture/écriture pour le conteneur de stockage utilisé (c'est-à-dire le nom du conteneur de stockage).

  • Obtenir le chemin d'accès distant, qui est le chemin d'accès relatif au conteneur de stockage utilisé.

Formats de fichiers

Les formats de fichiers pris en charge sont les suivants :

  • Parquet

  • ORC

Format de sortie

Le connecteur de sortie ADLS de Syntho écrira toutes les données générées dans le format Parquet comme suit :

  • Chaque table générée sera écrite dans un fichier Parquet au format suivant {nom-schéma}-{nom-table}_partie_{nom_de_la_partie}.parquet

  • Le nombre de lignes dans un seul fichier Parquet (partie) est défini par la taille de batch_generate. Toutes les parties Parquet d'une table unique seront stockées dans leur propre répertoire, qui est dédié à cette table particulière.

  • Chaque nom de répertoire utilisera le format suivant :

    {nom_du_schema}.{nom_de_la_table}

Connexion et configuration de l'espace de travail

Lancer Syntho et sélectionner Connect to a databaseou sous Create workspace > Destination Database, sélectionner ADLS. Pour obtenir une liste complète des connexions de données, sélectionnez More sous From database. Procédez ensuite comme suit :

  1. Saisissez le chemin d'accès à distance.

  2. Saisissez le nom du conteneur de stockage.

  3. Soit :

    • Saisissez le nom du compte de stockage et la clé du compte de stockage, ou:

    • Saisissez la chaîne de connexion du stockage.

  4. Sélectionnez Create Workspace. Si Syntho ne parvient pas à établir la connexion, vérifiez que vos informations d'identification sont correctes. Si vous n'arrivez toujours pas à vous connecter, votre ordinateur a du mal à localiser le serveur. Contactez votre administrateur réseau ou votre administrateur de base de données.

Limitations

  • Pour les fichiers ORC, les colonnes remplies de valeurs None qui sont de type Char, String ou Varchar seront écrites comme "None" (c'est-à-dire une valeur de chaîne) dans la base de données de destination au lieu de None.

  • Des erreurs peuvent se produire pendant la conversion des données lors de l'écriture dans des fichiers ORC si des types de données non pris en charge sont impliqués. Supported Data Types: Les types de données pris en charge pour les fichiers ORC sont spécifiés dans la documentation Apache Arrow.

    Type logique
    Type de flèche mappée

    BOOLEAN

    Booléen

    BYTE

    Int8

    SHORT

    Int16

    INT

    Int32

    LONG

    Int64

    FLOAT

    Float32

    DOUBLE

    Float64

    BINARY - Binaire/Grand Binaire/Fixe

    BINARY - Binary/LargeBinary/FixedSizeBinary - Binaire/LargeBinary/FixedSizeBinary - Binaire/LargeBinary/FixedSizeBinary

    Binary/LargeBinary/FixedSizeBinary

    TIMESTAMP

    TIMESTAMP_INSTANT

    Horodatage

    Liste des noms de domaine - Liste des noms de domaine - Liste des noms de domaine - Liste des noms de domaine - Liste des noms de domaine - Liste des noms de domaine - Liste des noms de domaine - Liste des noms de domaine

    LIST/LargeList/FixedSizeList

    MAP

    STRUCT

    Struct

    UNION

    SparseUnion/DenseUnion

    DECIMAL

    Décimale128/Décimale256

    Date32

    Date32

    VARCHAR

    Chaîne de caractères

    VARCHAR

    Chaînes de caractères

Contactez votre interlocuteur Syntho pour discuter des limitations éventuelles concernant ce connecteur.

Bases de données source et destination