LogoLogo
Go to Syntho.AI
Dutch (AI Translated)
Dutch (AI Translated)
  • Welcome to Syntho
  • Overzicht
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Werkruimten instellen
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Een gegevensgeneratietaak configureren
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Syntho implementeren
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Subsetting
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • Schudden
  • PII detecteren en versluieren
  • Ordering and Indexing Considerations

Was this helpful?

  1. Een gegevensgeneratietaak configureren
  2. Configure column settings

Duplicate

PreviousSupported languagesNextExclude

Last updated 10 months ago

Was this helpful?

Onder Column settings > Generation Methodkiezen Duplicate om de kolom as-is. te kopiëren van de brontabel naar de bestemmingstabel.

Note: Als je een kolom dupliceert, wordt de kolom nog steeds gebruikt tijdens het trainingsproces, omdat deze waardevolle informatie kan bevatten.

Dit betekent echter dat het uitsluiten van kolommen niet kan worden gebruikt om de hardwarevereisten te verlagen of de snelheid van je synthetische gegevenstaken te verhogen.

Schudden

De Shuffle knop om de gegenereerde waarden te schudden, met behoud van de algemene frequentie van waarden. Als je bijvoorbeeld 4 Hoge, 3 Middelmatige en 5 Lage waarden in de brondatabase hebt, zullen dezelfde aantallen waarden bestaan in de doeldatabase, behalve dat ze in een andere volgorde worden geschud.

Merk op dat de shuffle-functionaliteit batchgewijs in batches werkt, dus elke batchgeneratie volgens de Generatie Batchgrootte batch wordt onafhankelijk geschud. volgens de set Generation Batch Size (de standaardwaarde is 100k).

Merk op dat NULL waarden ook worden beschouwd als een afzonderlijke waarde, en zullen worden geschud zoals elke andere waarde.

PII detecteren en versluieren

Indien ingeschakeld, selecteert u de juiste Locale, gebaseerd op de gegevens in uw tekstkolom, om ervoor te zorgen dat Syntho de juiste taalmodellen gebruikt om PII in uw tekstkolom te identificeren en te versluieren.

Na het inschakelen van deze opties en het instellen van de juiste locale, worden alle geïdentificeerde PII-entiteiten geobfusceerd en vervolgens gekopieerd naar de bestemmingstabel.

Ordering and Indexing Considerations

Voor een nauwkeurige ordening is het essentieel dat de toepassing een index of een primaire sleutel in de brontabel heeft. Als deze ontbreken, sorteert de toepassing standaard op basis van de eerste kolom van de tabel. Als de eerste kolom echter dubbele waarden bevat, kan de volgorde niet worden gegarandeerd, omdat deze afhankelijk is van het sorteeralgoritme van de database om dubbele waarden te verwerken. Het toevoegen van een index aan de brontabel lost dit probleem op.

Het is belangrijk om op te merken dat het gebruik van consistente mapping in een tabel zonder gedefinieerde primaire sleutels of indexen kan leiden tot onverwachte resultaten. In dergelijke gevallen gebruikt de toepassing de eerste kolom voor het ordenen, die mogelijk geen unieke waarden bevat, wat leidt tot niet-deterministische resultaten.

Caution: Door gebruik te maken van dezelfde onderliggende modelleertechnieken als de , kan het erg lang duren voordat de functie Detect and obfuscate PII wordt uitgevoerd.

Schakel de toggle in Detect and obfuscate PII om Syntho's te gebruiken om PII-entiteiten in kolommen met vrije tekstinformatie te detecteren en te verduisteren.

PII-tekstverdubbelingsmodule
PII-tekstverduisteringsmodule
Kies Duplicaat in het paneel Generatiemethode