LogoLogo
Go to Syntho.AI
Dutch (AI Translated)
Dutch (AI Translated)
  • Welcome to Syntho
  • Overzicht
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • Werkruimten instellen
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • Een gegevensgeneratietaak configureren
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hashing
      • Calculated columns
      • Primary Key / Foreign Key
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • Syntho implementeren
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • Subsetting
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • Syntho API
    • Syntho REST API
Powered by GitBook
On this page
  • Je gegevens voorbereiden
  • Entiteitentabellen
  • Dataset van entiteitstabel-gekoppelde tabel
  • Ondersteunde gegevenstypen
  • Discreet
  • Continu
  • Categorisch
  • Tekst die PII bevat
  • Datum
  • UUID
  • GEO
  • Zeldzame categorie bescherming
  • Geavanceerde instellingen
  • Geavanceerde generatorinstellingen
  • Geavanceerde kolominstellingen

Was this helpful?

  1. Een gegevensgeneratietaak configureren
  2. Configure column settings

AI-powered generation

PreviousConfigure column settingsNextSequence model

Last updated 10 months ago

Was this helpful?

Onder Column settings > Generation Methodkiezen AI-powered generation om Syntho's machine learning (ML) modellen automatisch de gegevens in uw tabellen te laten synthetiseren.

Kies Generatiemethode in Kolominstellingen

Je gegevens voorbereiden

Bij het gebruik van AI-gestuurde synthetische gegevensgeneratie is het belangrijk dat je gegevens geschikt zijn om te synthetiseren.

Entiteitentabellen

Syntho verwacht dat uw gegevens worden opgeslagen in entity tables die aan het volgende voldoen:

  • Om privacyrisico's te minimaliseren en het generalisatievermogen van het trainingsalgoritme te verbeteren, geldt als vuistregel dat een minimum column-to-row ratio of 1:500 wordt aanbevolen. Als uw brontabel bijvoorbeeld 6 kolommen heeft, moet deze minimaal 3000 rijen bevatten.

  • Elke entiteit wordt beschreven in één rij.

  • Elke rij kan worden behandeld independently. De volgorde van de rijen bevat geen informatie. De inhoud van een rij heeft ook geen invloed op andere rijen.

  • Vermijd kolomnamen met privacy-sensitive informationzoals patient_a_medicijnen, patient_b_medicijnen, enz. Gebruik in plaats daarvan een kolom met de namen. Dit voorkomt dat patiëntnamen worden blootgelegd in metadata of dat zeldzame categoriebescherming wordt omzeild (er is bijvoorbeeld een kolom patiënt_a, maar deze patiënt komt maar vijf keer voor in de hele dataset).

  • Kolommen verwijderen die derived directly from other columns. Je kunt bijvoorbeeld een kolom netto_bedrag hebben die is afgeleid van de kolommen bruto_bedrag en belastingen. Voor categorische kolommen kunnen er hiërarchische relaties zijn, zoals een overbodige kolom behandelingscategorie die verwijst naar een kolom behandeling. Het verwijderen van dergelijke overbodige kolommen zal het modelleringsproces vereenvoudigen en leiden tot synthetische gegevens van hogere kwaliteit.

Dataset van entiteitstabel-gekoppelde tabel

Syntho kan gegevens verwerken in de vorm van lists, sequencesof time series wanneer ze gestructureerd zijn in een tabelstructuur met entiteitstabellen. Zorg ervoor dat uw gegevens aan het volgende voldoen:

  • De structuur is afgestemd op het verwerken van lists, sequencesof time-series data.

  • Het bevat twee tabellen:

    • een entity table die voldoet aan de [Entity tables requirements(./#entiteitentabellen).

    • a linked table.

  • Elk record in de entiteittabel heeft een uniek ID (primary key).

  • Elk record in de gekoppelde tabel moet verwijzen naar de unieke ID van de entiteittabel (foreign key).

  • Verwijder rijwaarden die direct zijn afgeleid van waarden in andere rijen. Bijvoorbeeld, als je dataset rijen bevat met start_datum en einde_datum kolommen, en elke start_datum komt overeen met de einde_datum van de rij ervoor, verwijder dan een van deze overbodige waarden, onder start_datum of einde_datum.

Ondersteunde gegevenstypen

Het Syntho-platform ondersteunt een grote verscheidenheid aan datatypes. Onder de motorkap gebruikt Syntho een coderingsschema waarbij elk gegevenstype wordt toegewezen aan een van de volgende coderingstypen.

Discreet

Syntho gebruikt een discreet coderingstype om numerieke waarden te synthetiseren die een telbaar aantal waarden tussen twee willekeurige waarden hebben. Bijvoorbeeld het aantal klachten van klanten of het aantal gebreken of defecten.

Continu

Om numerieke waarden te synthetiseren die een oneindig aantal waarden tussen twee willekeurige waarden hebben, zoals gewicht en lengte, gebruikt Syntho een continu codeertype.

Categorisch

Een categorische kolom heeft een van een vast aantal mogelijke waarden. Deze variabelen, zoals de bloedgroep van een persoon (d.w.z., A, B, AB of O), hebben een vaste set categorieën. Categorische codering voorkomt dat willekeurige waarden (bijvoorbeeld M, X of Z) in je synthetische dataset verschijnen.

Note: Het categorische coderingstype is de default fallback encoding type gebruikt door Syntho. Dit betekent dat alle databasetypen die niet bekend zijn bij Syntho automatisch worden gecodeerd als categorisch.

Tekst die PII bevat

Het coderingstype Tekst kan worden gebruikt om PII in ongestructureerde natuurlijke taalteksten te versluieren.

Note: Waarden in kolommen met ongestructureerde tekst zijn van nature vaak uniek. Om te voorkomen dat waarden wegvallen voordat de tekstcodering kan worden toegepast, wordt aanbevolen om de [Rare category protection threshold(./#rare-category-protection) waarde op 0.

Datum

Het coderingstype bekend als Datetime wordt gebruikt om waarden te beschrijven die een of beide datum- en tijdcomponenten bevatten.

Door dit coderingstype te gebruiken, kan Syntho deze waarden synthetiseren en data en tijden genereren die statistisch geldig en representatief zijn.

Beperkingen

  • Datetime kolommen ondersteunen precisie tot milliseconden. Nanoseconde precisie wordt niet ondersteund.

UUID

Een universeel unieke identifier (UUID) is een 128-bits unieke waarde die praktisch gegarandeerd verschilt van andere gegenereerde UUID. Deze eigenschap wordt gebruikt voor een snelle en betrouwbare indexering van gegevens. Omdat het niet voldoet aan een distributie kan het niet gemodelleerd worden, omdat het geen intrinsieke informatie bevat behalve voor indexeringsdoeleinden.

GEO

GEO-types vereisen speciale behandelingslogica vanwege hun verschillende opmaak en logische weergave. Er zijn opties zoals POINT, POLYGON, LINE die informatie kunnen weergeven zoals afzonderlijke geolocaties, maar ook geografische gebieden of paden.

Beperkingen

  • Syntho kan het volgende genereren POINTSzonder enige externe logica of heuristiek. Sommige GEO ingestelde types zijn limieten voor nieuwe gegevenspunten, zoals landen of steden. Syntho bewaart dergelijke logica niet automatisch.

Zeldzame categorie bescherming

Volgens het privacy-by-design principe vervangt Syntho automatisch alle zeldzame categorische waarnemingen door een door de gebruiker gedefinieerde waarde in een kolom die is gecodeerd als een categorische kolom.

Het vervangen van deze zeldzame categorieën helpt voorkomen dat deze gevoelige waarden weglekken in de synthetische gegevens.

  • Rare category protection threshold: Alle kolomwaarden die even vaak of minder vaak voorkomen dan de beschermingsdrempel voor zeldzame categorieën, worden automatisch vervangen.

  • Rare category replacement value: Alle kolomwaarden die even vaak of minder vaak voorkomen dan de beschermingsdrempel voor zeldzame categorieën, worden automatisch vervangen door deze vervangende waarde.

Onder Column settings > Encoding type, selecteer Advanced settings om de rare category protection threshold.

Standaard is de rare category protection threshold waarde is ingesteld op 10. Dit betekent dat alle kolomwaarden die 10 keer of minder voorkomen automatisch worden vervangen door de door de gebruiker gedefinieerde waarde.

Onder Column settings > Encoding type, selecteer Advanced settings om de rare category replacement value.

Standaard wordt de rare category replacement value is een sterretje (*). Dit betekent dat alle waarden die minder vaak voorkomen dan de rare category protection value wordt vervangen door de vervangingswaarde.

Geavanceerde instellingen

Geavanceerde generatorinstellingen

Ga naar Table settings op het rechterpaneel, scroll naar beneden om te zien Advanced settings om instellingen op generatorniveau te bekijken en aan te passen. Afhankelijk van de taakconfiguratie wordt een generator toegepast op een of meer kolommen.

U kunt de volgende geavanceerde generatorinstellingen aanpassen:

  1. Maximum rows used for training: Het maximale aantal rijen dat wordt gebruikt voor de training. Het gebruik van minder rijen kan het proces versnellen. Laat deze waarde op Geen staan om alle rijen te gebruiken voor de training.

  2. Take random sample:

    • OnNeemt een willekeurige steekproef van rijen die worden gebruikt voor training.

    • Off: neemt de bovenste rijen zoals gedefinieerd in de database.

Geavanceerde kolominstellingen

Selecteer Advanced settings onder Encoding type om instellingen op kolomniveau te bekijken en aan te passen.

Je kunt de volgende geavanceerde kolominstellingen aanpassen, afhankelijk van het geselecteerde coderingstype:

Discreet | Continu | Datetime

  1. Clipping threshold: De vloer en het plafond van een kolom als de Nth laagste en hoogste waarde, waarbij N is de afkapdrempel. De drempelwaarde zorgt ervoor dat de waarden het plafond en de ondergrens niet overschrijden.

Categorisch | Tekst met PII

  1. Rare category protection threshold: Alle kolomwaarden die even vaak of minder vaak voorkomen dan de beschermingsdrempel voor zeldzame categorieën, worden automatisch vervangen.

  2. Rare category replacement value: Alle kolomwaarden die even vaak of minder vaak voorkomen dan de beschermingsdrempel voor zeldzame categorieën, worden automatisch vervangen door deze vervangende waarde.

  3. Locale: De locale die wordt gebruikt door de tekstverwerkingsmodellen voor kolommen met tekst die PII bevat.

Voorbeeld van een entiteitentabel (elke rij beschrijft een individuele patiënt en wordt onafhankelijk behandeld)

Vergelijkbaar met de vereisten voor , elimineer kolommen waarvan de waarden directly derived from other columns.

Voor meer informatie over het voorbereiden van je gegevens bij het synthetiseren van complexe tabelrelaties, zie: .

Voorbeeld van een gekoppelde tabel (meerdere rijen kunnen aan dezelfde patiënt worden gekoppeld, waardoor een reeks tijdsgebeurtenissen voor die patiënt wordt beschreven)

Onder de Encoding > , de verschijnt, die gebruikt kan worden om zeldzame categorieën te beschermen. Deze categorieën kunnen mogelijk uitschieters binnen de synthetische gegevens opnieuw identificeren.

Voor meer informatie, zie: .

Syntho ondersteunt alle datum en datetime datatypes voor de .

Geavanceerde instellingen voor een zeldzame categorie
sequence-model
Obfuscate PII in text
Syntho connectors
Entity tables
Advanced settings
Rare category protection settings