LogoLogo
Go to Syntho.AI
Dutch (AI Translated)
Dutch (AI Translated)
  • Welcome to Syntho
  • Overzicht
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Werkruimten instellen
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Een gegevensgeneratietaak configureren
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Syntho implementeren
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Subsetting
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • Hoe Syntho's synthetische gegevens sequentiemodel toepassen
  • Sequentie model parameters
  • Beperkingen en aanbevelingen

Was this helpful?

  1. Een gegevensgeneratietaak configureren
  2. Configure column settings
  3. AI-powered generation

Sequence model

PreviousAI-powered generationNextPrepare your sequence data

Last updated 10 months ago

Was this helpful?

Note: Voordat u deze functie gebruikt, moet u ervoor zorgen dat uw gegevens zijn ingesteld zoals beschreven in [Prepare your sequence data{{}(prepare-your-sequence-data.md) sectie.

Syntho kan gegevens verwerken in de vorm van lists, sequencesof time-series wanneer gestructureerd in entity table-linked table structuur.

Met Syntho's modellen voor synthetische gegevensreeksen kunt u relationele informatie vastleggen tussen elke entiteittabel en gekoppelde tabel. Entiteitstabellen bevatten de profielen van gegevensentiteiten, terwijl gelinkte tabellen ernaar verwijzen.

Entity tables kunnen worden geïdentificeerd aan de hand van hun attributen, die privacygevoelige informatie over gegevensentiteiten beschrijven, zoals namen, geboortedata, telefoonnummers, adressen en meer. Linked tables bevatten vaak gebeurtenisinformatie over een entiteit waarnaar wordt verwezen, die meerdere rijen per entiteit kan omvatten, zoals een maandelijkse salarisbetaling.

Laten we eens kijken naar de Patients en PatientMedications tabellen hieronder. De Patients tabel is de entiteittabel. De PatientMedications tabellen is de gekoppelde tabel.

Om deze tabellen te synthetiseren met behulp van Syntho's sequentiemodellen:

  1. Syntho begint met het synthetiseren van de Patiënten tabel.

  2. Vervolgens synthetiseert het de PatientMedications tabel met behulp van de synthetische Patients tabel als context.

Hoe Syntho's synthetische gegevens sequentiemodel toepassen

Om Syntho's synthetische gegevensvolgordenmodellen te gebruiken, kun je het volgende doen:

  1. Op de Job Configuration paneel, drag de tabel met verwante entiteiten en de gekoppelde tabel onder Synthesize.

  2. Sleep eventuele andere tabellen onder De-identify of Exclude.

  3. Op de Job configuration paneel, selecteer Generate.

  4. Op de Job configuration paneel, schakel de Enable sequence modeling toggle

  5. Selecteer ten slotte Start generating.

Sequentie model parameters

Voordat je het generatieproces start, heb je de mogelijkheid om sequentiemodelparameters aan te passen. Hier volgt een overzicht:

  • Max sequence length: Stelt een limiet in op de lengte van reeksen en kort elke reeks in die deze limiet overschrijdt.

  • Rare long sequence protection threshold: Bepaalt een limiet voor de lengte van gegevensreeksen die worden gebruikt in training, waarbij de langste reeksen worden aangepast aan de lengte van de N-de reeks.

  • N generated entities: Bepaalt het aantal entiteiten dat moet worden gegenereerd, elk geassocieerd met een reeks.

  • Read batch size: De hoeveelheid rijen die van elke brontabel worden gelezen per batch.

  • Write batch size: De hoeveelheid rijen die per batch in elke bestemmingstabel worden ingevoegd.

  • N connections: Geeft het aantal verbindingen op.

Beperkingen en aanbevelingen

Het is belangrijk om rekening te houden met het volgende bij het gebruik van Syntho's sequentiemodellen:

  • 2 tables: Syntho heeft het gebruik van zijn sequentiemodellen beperkt tot 2 tabellen om de bruikbaarheid van synthetische gegevens te maximaliseren.

  • Mockers Not Supported: Je kunt geen spotters gebruiken in combinatie met het sequentiemodel.

Hint: Als workaround, om mockers te kunnen toepassen in combinatie met de sequentiemodel functie van Syntho, kunt u twee sequentiële gegevensgeneratietaken uitvoeren. De eerste job met de 2 tabellen onder tabelmodus Synthesize en het sequentiemodel ingeschakeld. De database die door de eerste job wordt geretourneerd, wordt dan gebruikt als de brondatabase van de tweede job. De tweede opdracht past dan de spotters toe in combinatie met het instellen van de relevante tabelmodi op De-identificeren. Merk op dat dit twee aparte doeldatabases vereist voor elke volgende opdracht.

  • Resource Consumption: Deze functie kost veel middelen en kan het genereren van gegevens vertragen. Overweeg om de invoergegevens te beperken of de parameters van het sequentiemodel aan te passen om de tijd en middelen voor uw taak te beperken.

Als je deze beperkingen en aanbevelingen begrijpt, haal je het meeste uit Syntho.

Tabellen slepen en neerzetten
Volgorde modelleren inschakelen
Sequence Model Parameters