LogoLogo
Go to Syntho.AI
Dutch (AI Translated)
Dutch (AI Translated)
  • Welcome to Syntho
  • Overzicht
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Werkruimten instellen
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Een gegevensgeneratietaak configureren
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Syntho implementeren
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Subsetting
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • 1. Enkelvoudige sequentiële datasets splitsen in entiteittabellen en gekoppelde tabellen
  • How to Split Data into Entity and Events
  • 2. Breng alle statische gegevens over naar de entiteitentabel

Was this helpful?

  1. Een gegevensgeneratietaak configureren
  2. Configure column settings
  3. AI-powered generation
  4. Sequence model

Prepare your sequence data

PreviousSequence modelNextMockers

Last updated 11 months ago

Was this helpful?

Als je ruwe gegevens een reeks gebeurtenissen in één tabel bevatten, moet je het scheiden in een entity table en een linked table. Volg de onderstaande stappen, om dit te bereiken.

Bijvoorbeeld, de onderstaande tabel heeft een reeks gebeurtenissen (informatie en statistieken van honkbalspelers per seizoen).

1. Enkelvoudige sequentiële datasets splitsen in entiteittabellen en gekoppelde tabellen

Verplaats de gebeurtenisgegevens naar een andere tabel, ervoor zorgen dat deze nieuwe tabel verbonden is met de entiteittabel via een foreign key die overeenkomt met de primary key van de entiteittabel. In deze opzet, elk individu of elke entiteit in de entiteittabel heeft een corresponderend ID in de gekoppelde tabel.

De rangschikking van je sequentiële gegevens is cruciaal. Als uw gebeurtenisgegevens bestaan in kolommen, je moet ze omvormen tot rijen, waarbij elke rij een unieke gebeurtenis beschrijft.

How to Split Data into Entity and Events

Voorbeelden van veelgebruikte datasets die zijn ontworpen voor een reeks toepassingen zijn onder andere:

  • Patiëntreizen waarbij een tabel met medische gebeurtenissen wordt gekoppeld aan individuele patiënten.

  • Verschillende soorten sensormetingen waarbij een entiteitentabel sensoren vermeldt, en de gekoppelde tabel registreert de metingen van die sensoren.

  • In e-commerce, synthetische gegevens zijn vaak afkomstig van inkoopdatasets waarin entiteittabellen klantinformatie bevatten, en gekoppelde tabellen slaan de aankopen van die klanten op.

Deze zijn chronologisch geordend, sequentiële datasets, waarbij de volgorde en timing van gebeurtenissen belangrijke inzichten verschaffen.

Bij het organiseren van je datasets voor verdere verwerking, voldoen aan deze vereisten:

Entiteitentabel
Gekoppelde tabel

Elke rij vertegenwoordigt een uniek individu

Meerdere rijen kunnen overeenkomen met hetzelfde individu

Moet een unieke entiteits-ID hebben (primaire sleutel)

Elke rij moet linken naar een unieke ID in de entiteittabel (foreign key)

Rijen zijn onafhankelijk van elkaar

Meerdere rijen kunnen met elkaar verbonden zijn

Bevat alleen statische informatie

Bevat alleen dynamische informatie; sequenties moeten indien mogelijk in de tijd worden geordend

2. Breng alle statische gegevens over naar de entiteitentabel

Inspecteer uw gekoppelde tabel met gebeurtenissen. Als deze statische informatie bevat die de entiteit beschrijft, moet dit worden verplaatst naar de entiteittabel. Bijvoorbeeld, Beschouw een e-commerce scenario waarbij elke aankoop bij specifieke klanten hoort. Het e-mailadres van de klant blijft hetzelfde voor verschillende gebeurtenissen. Het is statisch en kenmerkt de klant, niet de gebeurtenis. In zo'n geval, de email_address kolom moet worden overgebracht naar de entiteittabel.

Een ander voorbeeld is een tabel met honkbalspelers en een tabel met hun statistieken per seizoen. In dit geval, honkbalspelers moet worden beschouwd als een entiteitstabel aangezien de tabel honkbalspelers een primaire sleutel (player id), rijen zijn onafhankelijk van elkaar en vertegenwoordigen een uniek individu en bevatten statische informatie. Aan de andere kant, seizoenen tabel zal verschillende rijen gewijd aan een individu hebben, omdat een honkbalspeler kan spelen in meer dan een seizoen. De seizoentabel heeft ook een uniek ID in de entiteitentabel (foreign key) en het bevat tijdgeordende dynamische informatie. Zie onderstaande illustratie.

Basbeall spelers en hun statistieken in één tabel
Eén tabel werd gescheiden in entiteitstabellen en gekoppelde tabellen, statische (spelers) en dynamische (seizoenen) informatie tonen, respectievelijk
Illustratie van de één-op-veelrelatie van spelers- en seizoentabellen