LogoLogo
Go to Syntho.AI
Dutch (AI Translated)
Dutch (AI Translated)
  • Welcome to Syntho
  • Overzicht
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Werkruimten instellen
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Een gegevensgeneratietaak configureren
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Syntho implementeren
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Subsetting
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • Vergelijking van gegevens gegenereerd met verschillende generatiemethoden
  • AI-gegenereerde synthetische data is toegepast op spelers tabel
  • Mockers](../../configure-a-data-generation-job/configure-column-settings/mockers/) worden toegepast op de tabel met spelers.
  • Consistent Mapping met Mockers is toegepast op de tabel spelers.
  • Berekende kolommen

Was this helpful?

  1. Overzicht
  2. Get started

Introduction to data generation methods

PreviousGet startedNextUse Case: AI-generated synthetic data

Last updated 10 months ago

Was this helpful?

Het Syntho-platform biedt verschillende methoden voor het genereren van gegevens voor verschillende scenario's, waarbij rekening wordt gehouden met de aard van de gegevens, privacybelangen en specifieke gebruiksscenario's, zodat gebruikers de meest geschikte opties kunnen kiezen. De samenvattende tabel geeft een overzicht van deze methoden, waarbij hun relevantie en gebruiksscenario's hieronder worden beschreven. U kunt een van de methoden voor het genereren van gegevens selecteren om te worden doorgestuurd naar de gedetailleerde secties van de gebruikershandleiding.

Gegevensgeneratiemethode
Beschrijving
Wanneer gebruiken
Wanneer niet gebruiken

AI-gegenereerde synthetische gegevens bestaan uit volledig nieuwe rijen die een nabootsing zijn van, maar geen 1-op-1-relatie hebben met, originele rijen.

  • Om een synthetische dataset met kenmerken te genereren voor de ontwikkeling van ML-modellen

  • Wanneer statistische nauwkeurigheid en maximale privacy nodig zijn

  • Om rijen in de dataset uit te breiden met behoud van de oorspronkelijke statistische verdelingen

  • Wanneer u met meerdere onderling gerelateerde tabellen werkt

  • Wanneer gegevensconsistentie tussen systemen vereist is

  • Wanneer u moet kunnen terugkeren naar de oorspronkelijke records

  • Als er geheel nieuwe, ongeziene categorieën moeten worden gegenereerd

Slimme opsporing en bescherming van de meest gevoelige gegevenskolommen (d.w.z. PII/PHI) in een database.

  • Wanneer gegevensconsistentie tussen tabellen, systemen en jobs voor gegevensgeneratie moet worden behouden

  • Wanneer met grote en complexe databases wordt gewerkt voor interne doeleinden

  • Om de dataset uit te breiden (d. w. z. upsampling)

  • Om de dataset te vergroten (d. w. z.

  • Als de gegevens niet gevoelig zijn

Genereer gegevens vanuit het niets op basis van door de gebruiker gedefinieerde logica en regels.

  • Als er nog geen echte gegevens beschikbaar zijn

  • Om bestaande gegevens uit te breiden of te verbeteren

  • Als gegevens die worden gebruikt voor analyse of ML-modellering

De onderstaande kenmerken zijn essentieel voor de slimme methoden voor desidentificatie en op regels gebaseerde synthetische gegevens.

Key feature
Description
Wanneer gebruiken
Wanneer niet gebruiken

Het trainen van een generatief AI-model op de oorspronkelijke gegevens om nieuwe rijen te genereren die lijken op, maar geen 1-op-1-relatie hebben met de oorspronkelijke rijen.

  • Om een synthetische dataset met kenmerken te genereren voor de ontwikkeling van ML-modellen

  • Wanneer statistische nauwkeurigheid en maximale privacy vereist zijn

  • Om rijen in de dataset uit te breiden met behoud van de oorspronkelijke statistische eigenschappen

  • Wanneer u met meerdere gerelateerde tabellen werkt

  • Wanneer gegevensconsistentie tussen systemen vereist is

  • Wanneer u moet kunnen terugkeren naar de oorspronkelijke records

  • Als er geheel nieuwe, ongeziene tekstwaarden moeten worden gegenereerd

Het genereren van geheel nieuwe, door de gebruiker gedefinieerde waarden

Voor het genereren van aangepaste gegevens zonder rekening te houden met het behoud van de oorspronkelijke relaties tussen kolomwaarden

Als u relaties met oorspronkelijke gegevens moet behouden

Om schijnwaarden te genereren die consistent worden gemapt ten opzichte van de oorspronkelijke waarden (bijv. Hank wordt altijd Jeffrey)

Om consistentie van gegevens te waarborgen tussen tabellen, systemen en jobs voor gegevensgeneratie

Als volledig willekeurige gegevens zonder consistentie gewenst zijn

Het genereren van door de gebruiker gedefinieerde waarden op basis van aangepaste logica

Voor complexe datamanipulaties waarvoor specifieke bedrijfslogica is vereist

Voor eenvoudige datageneratietaken waarvoor geen aangepaste logica is vereist

Automatische opsporing van de meest gevoelige (d.w.z..PII/PHI) in uw database

Om de meest gevoelige kolommen (d.w.z. PII/PHI) te ontdekken

Wanneer uw gegevens niet gevoelig zijn

Vergelijking van gegevens gegenereerd met verschillende generatiemethoden

We demonstreren de toepassing van elke generatiemethode op een echte honkbaldataset, die het volgende bevat players en seasons tabellen.

In het eerste voorbeeld zien we dat een geheel nieuwe synthetische dataset is gegenereerd door het generatieve AI-model op basis van de oorspronkelijke dataset. De synthetische dataset behoudt de statistieken van de originele dataset, maar er is geen 1:to:1 overeenkomst tussen synthetische records en originele records. Merk op dat voor AI-gegenereerde synthetische gegevens een vervangingswaarde voor zeldzame categorieën van 10 is toegepast. Dit betekent dat elke naam die minder dan 10 keer voorkomt in de kolommen nameFirst en nameLast werd vervangen door een sterretje om de privacy te beschermen.

Mockers](../../configure-a-data-generation-job/configure-column-settings/mockers/) worden toegepast op de tabel met spelers.

Mockers worden toegepast op specifieke kolommen in de tabel met spelers, die geel gemarkeerd zijn in de tabel hierboven: 'land', 'geboortedatum', 'sterfdatum', 'naamVoornaam' en 'naamLaatst'.

Als u [consistente mapping] (../../configure-a-data-generation-job/configure-column-settings/mockers/consistent-mapping.md) inschakelt, worden de waarden in alle tabellen consistent naar dezelfde waarde gemapt. We hebben bijvoorbeeld consistente mapping ingeschakeld voor twee kolommen: "nameFirst" en "nameLast". We willen dezelfde synthetische namen en achternamen (spotters) genereren voor de originele namen. Zie de illustraties van MySQL-tabellen hieronder, waar mockers met consistente mapping de naam "Bill Kennedy" toewijzen aan "Danielle Olson".

Merk op dat andere namen ook kunnen worden toegewezen aan "Danielle" of "Olson"; echter, wanneer Syntho "Bill" detecteert, zal het deze altijd vervangen door een mocker met de voornaam "Danielle". Hetzelfde geldt voor "Kennedy" en "Olson" in de achternaamkolom. Consistentie kan worden geverifieerd met andere kolommen omdat ze worden gedupliceerd zonder enige verandering van bron naar bestemming, waardoor originele en synthetische tabellen kunnen worden gematcht voor een beter begrip van consistentie.

IFNA(IFS(height>74, "Tall", height>72, "Medium", height>70, "Small"), "NA")

&

(met , , en )

Op regels gebaseerde synthetische gegevens (met en )

is toegepast op spelers tabel

is toegepast op de tabel spelers.

stellen gebruikers in staat om een breed spectrum aan bewerkingen op gegevens uit te voeren, variërend van eenvoudige rekenkundige tot complexe logische en statistische berekeningen. In bovenstaande illustratie wordt de volgende bewerking toegepast:

AI-gegenereerde synthetische data
Consistent Mapping met Mockers
Berekende kolommen
Berekende kolommen
Mockers
PII-scanner
AI-gegenereerde synthetische gegevens
AI-gegenereerde synthetische tijdreeksgegevens
PII-scanner
Slimme de-identificatie met
Consistent Mapping
Mockers
Calculated Columns
Mockers
Berekende kolommen
AI-gegenereerde synthetische gegevens
Consistent Mapping met Mockers
Berekende kolommen
Kolommen van tabel met spelers
AI-gegenereerde synthetische data wordt toegepast op spelers tabel
Mocker wordt toegepast op tabel spelers
Inschakelen van Consistent Mapping onder kolominstellingen voor kolom met de naam "nameFirst" in tabel spelers
Consistente mapping met spotters wordt toegepast op spelers tabellen