AI-powered generation
Last updated
Last updated
Onder Column settings > Generation Methodkiezen AI-powered generation om Syntho's machine learning (ML) modellen automatisch de gegevens in uw tabellen te laten synthetiseren.
Bij het gebruik van AI-gestuurde synthetische gegevensgeneratie is het belangrijk dat je gegevens geschikt zijn om te synthetiseren.
Syntho verwacht dat uw gegevens worden opgeslagen in entity tables die aan het volgende voldoen:
Om privacyrisico's te minimaliseren en het generalisatievermogen van het trainingsalgoritme te verbeteren, geldt als vuistregel dat een minimum column-to-row ratio of 1:500 wordt aanbevolen. Als uw brontabel bijvoorbeeld 6 kolommen heeft, moet deze minimaal 3000 rijen bevatten.
Elke entiteit wordt beschreven in één rij.
Elke rij kan worden behandeld independently. De volgorde van de rijen bevat geen informatie. De inhoud van een rij heeft ook geen invloed op andere rijen.
Vermijd kolomnamen met privacy-sensitive informationzoals patient_a_medicijnen
, patient_b_medicijnen
, enz. Gebruik in plaats daarvan een kolom met de namen. Dit voorkomt dat patiëntnamen worden blootgelegd in metadata of dat zeldzame categoriebescherming wordt omzeild (er is bijvoorbeeld een kolom patiënt_a
, maar deze patiënt komt maar vijf keer voor in de hele dataset).
Kolommen verwijderen die derived directly from other columns. Je kunt bijvoorbeeld een kolom netto_bedrag
hebben die is afgeleid van de kolommen bruto_bedrag
en belastingen
. Voor categorische kolommen kunnen er hiërarchische relaties zijn, zoals een overbodige kolom behandelingscategorie
die verwijst naar een kolom behandeling
. Het verwijderen van dergelijke overbodige kolommen zal het modelleringsproces vereenvoudigen en leiden tot synthetische gegevens van hogere kwaliteit.
Syntho kan gegevens verwerken in de vorm van lists, sequencesof time series wanneer ze gestructureerd zijn in een tabelstructuur met entiteitstabellen. Zorg ervoor dat uw gegevens aan het volgende voldoen:
De structuur is afgestemd op het verwerken van lists, sequencesof time-series data.
Het bevat twee tabellen:
een entity table die voldoet aan de [Entity tables requirements(./#entiteitentabellen).
a linked table.
Elk record in de entiteittabel heeft een uniek ID (primary key).
Elk record in de gekoppelde tabel moet verwijzen naar de unieke ID van de entiteittabel (foreign key).
Vergelijkbaar met de vereisten voor Entity tables, elimineer kolommen waarvan de waarden directly derived from other columns.
Verwijder rijwaarden die direct zijn afgeleid van waarden in andere rijen. Bijvoorbeeld, als je dataset rijen bevat met start_datum
en einde_datum
kolommen, en elke start_datum
komt overeen met de einde_datum
van de rij ervoor, verwijder dan een van deze overbodige waarden, onder start_datum
of einde_datum
.
Voor meer informatie over het voorbereiden van je gegevens bij het synthetiseren van complexe tabelrelaties, zie: sequence-model.
Het Syntho-platform ondersteunt een grote verscheidenheid aan datatypes. Onder de motorkap gebruikt Syntho een coderingsschema waarbij elk gegevenstype wordt toegewezen aan een van de volgende coderingstypen.
Syntho gebruikt een discreet coderingstype om numerieke waarden te synthetiseren die een telbaar aantal waarden tussen twee willekeurige waarden hebben. Bijvoorbeeld het aantal klachten van klanten of het aantal gebreken of defecten.
Om numerieke waarden te synthetiseren die een oneindig aantal waarden tussen twee willekeurige waarden hebben, zoals gewicht en lengte, gebruikt Syntho een continu codeertype.
Een categorische kolom heeft een van een vast aantal mogelijke waarden. Deze variabelen, zoals de bloedgroep van een persoon (d.w.z., A, B, AB of O
), hebben een vaste set categorieën. Categorische codering voorkomt dat willekeurige waarden (bijvoorbeeld M, X of Z
) in je synthetische dataset verschijnen.
Onder de Encoding > Advanced settings, de Rare category protection settings verschijnt, die gebruikt kan worden om zeldzame categorieën te beschermen. Deze categorieën kunnen mogelijk uitschieters binnen de synthetische gegevens opnieuw identificeren.
Note: Het categorische coderingstype is de default fallback encoding type gebruikt door Syntho. Dit betekent dat alle databasetypen die niet bekend zijn bij Syntho automatisch worden gecodeerd als categorisch.
Het coderingstype Tekst kan worden gebruikt om PII in ongestructureerde natuurlijke taalteksten te versluieren.
Note: Waarden in kolommen met ongestructureerde tekst zijn van nature vaak uniek. Om te voorkomen dat waarden wegvallen voordat de tekstcodering kan worden toegepast, wordt aanbevolen om de [Rare category protection threshold(./#rare-category-protection) waarde op 0.
Voor meer informatie, zie: Obfuscate PII in text.
Het coderingstype bekend als Datetime wordt gebruikt om waarden te beschrijven die een of beide datum- en tijdcomponenten bevatten.
Door dit coderingstype te gebruiken, kan Syntho deze waarden synthetiseren en data en tijden genereren die statistisch geldig en representatief zijn.
Syntho ondersteunt alle datum en datetime datatypes voor de Syntho connectors.
Datetime kolommen ondersteunen precisie tot milliseconden. Nanoseconde precisie wordt niet ondersteund.
Een universeel unieke identifier (UUID) is een 128-bits unieke waarde die praktisch gegarandeerd verschilt van andere gegenereerde UUID. Deze eigenschap wordt gebruikt voor een snelle en betrouwbare indexering van gegevens. Omdat het niet voldoet aan een distributie kan het niet gemodelleerd worden, omdat het geen intrinsieke informatie bevat behalve voor indexeringsdoeleinden.
GEO-types vereisen speciale behandelingslogica vanwege hun verschillende opmaak en logische weergave. Er zijn opties zoals POINT, POLYGON, LINE die informatie kunnen weergeven zoals afzonderlijke geolocaties, maar ook geografische gebieden of paden.
Syntho kan het volgende genereren POINTSzonder enige externe logica of heuristiek. Sommige GEO ingestelde types zijn limieten voor nieuwe gegevenspunten, zoals landen of steden. Syntho bewaart dergelijke logica niet automatisch.
Volgens het privacy-by-design principe vervangt Syntho automatisch alle zeldzame categorische waarnemingen door een door de gebruiker gedefinieerde waarde in een kolom die is gecodeerd als een categorische kolom.
Het vervangen van deze zeldzame categorieën helpt voorkomen dat deze gevoelige waarden weglekken in de synthetische gegevens.
Rare category protection threshold: Alle kolomwaarden die even vaak of minder vaak voorkomen dan de beschermingsdrempel voor zeldzame categorieën, worden automatisch vervangen.
Rare category replacement value: Alle kolomwaarden die even vaak of minder vaak voorkomen dan de beschermingsdrempel voor zeldzame categorieën, worden automatisch vervangen door deze vervangende waarde.
Onder Column settings > Encoding type, selecteer Advanced settings om de rare category protection threshold.
Standaard is de rare category protection threshold waarde is ingesteld op 10. Dit betekent dat alle kolomwaarden die 10 keer of minder voorkomen automatisch worden vervangen door de door de gebruiker gedefinieerde waarde.
Onder Column settings > Encoding type, selecteer Advanced settings om de rare category replacement value.
Standaard wordt de rare category replacement value is een sterretje (*). Dit betekent dat alle waarden die minder vaak voorkomen dan de rare category protection value wordt vervangen door de vervangingswaarde.
Ga naar Table settings op het rechterpaneel, scroll naar beneden om te zien Advanced settings om instellingen op generatorniveau te bekijken en aan te passen. Afhankelijk van de taakconfiguratie wordt een generator toegepast op een of meer kolommen.
U kunt de volgende geavanceerde generatorinstellingen aanpassen:
Maximum rows used for training: Het maximale aantal rijen dat wordt gebruikt voor de training. Het gebruik van minder rijen kan het proces versnellen. Laat deze waarde op Geen staan om alle rijen te gebruiken voor de training.
Take random sample:
OnNeemt een willekeurige steekproef van rijen die worden gebruikt voor training.
Off: neemt de bovenste rijen zoals gedefinieerd in de database.
Selecteer Advanced settings onder Encoding type om instellingen op kolomniveau te bekijken en aan te passen.
Je kunt de volgende geavanceerde kolominstellingen aanpassen, afhankelijk van het geselecteerde coderingstype:
Clipping threshold: De vloer en het plafond van een kolom als de Nth laagste en hoogste waarde, waarbij N is de afkapdrempel. De drempelwaarde zorgt ervoor dat de waarden het plafond en de ondergrens niet overschrijden.
Rare category protection threshold: Alle kolomwaarden die even vaak of minder vaak voorkomen dan de beschermingsdrempel voor zeldzame categorieën, worden automatisch vervangen.
Rare category replacement value: Alle kolomwaarden die even vaak of minder vaak voorkomen dan de beschermingsdrempel voor zeldzame categorieën, worden automatisch vervangen door deze vervangende waarde.
Locale: De locale die wordt gebruikt door de tekstverwerkingsmodellen voor kolommen met tekst die PII bevat.