Duplicate

Onder Column settings > Generation Methodkiezen Duplicate om de kolom as-is. te kopiëren van de brontabel naar de bestemmingstabel.

Kies Duplicaat in het paneel Generatiemethode

Note: Als je een kolom dupliceert, wordt de kolom nog steeds gebruikt tijdens het trainingsproces, omdat deze waardevolle informatie kan bevatten.

Dit betekent echter dat het uitsluiten van kolommen niet kan worden gebruikt om de hardwarevereisten te verlagen of de snelheid van je synthetische gegevenstaken te verhogen.

Schudden

De Shuffle knop om de gegenereerde waarden te schudden, met behoud van de algemene frequentie van waarden. Als je bijvoorbeeld 4 Hoge, 3 Middelmatige en 5 Lage waarden in de brondatabase hebt, zullen dezelfde aantallen waarden bestaan in de doeldatabase, behalve dat ze in een andere volgorde worden geschud.

Merk op dat de shuffle-functionaliteit batchgewijs in batches werkt, dus elke batchgeneratie volgens de Generatie Batchgrootte batch wordt onafhankelijk geschud. volgens de set Generation Batch Size (de standaardwaarde is 100k).

Merk op dat NULL waarden ook worden beschouwd als een afzonderlijke waarde, en zullen worden geschud zoals elke andere waarde.

PII detecteren en versluieren

Caution: Door gebruik te maken van dezelfde onderliggende modelleertechnieken als de PII-tekstverdubbelingsmodule, kan het erg lang duren voordat de functie Detect and obfuscate PII wordt uitgevoerd.

Schakel de toggle in Detect and obfuscate PII om Syntho's PII-tekstverduisteringsmodule te gebruiken om PII-entiteiten in kolommen met vrije tekstinformatie te detecteren en te verduisteren.

Indien ingeschakeld, selecteert u de juiste Locale, gebaseerd op de gegevens in uw tekstkolom, om ervoor te zorgen dat Syntho de juiste taalmodellen gebruikt om PII in uw tekstkolom te identificeren en te versluieren.

Na het inschakelen van deze opties en het instellen van de juiste locale, worden alle geïdentificeerde PII-entiteiten geobfusceerd en vervolgens gekopieerd naar de bestemmingstabel.

Ordering and Indexing Considerations

Voor een nauwkeurige ordening is het essentieel dat de toepassing een index of een primaire sleutel in de brontabel heeft. Als deze ontbreken, sorteert de toepassing standaard op basis van de eerste kolom van de tabel. Als de eerste kolom echter dubbele waarden bevat, kan de volgorde niet worden gegarandeerd, omdat deze afhankelijk is van het sorteeralgoritme van de database om dubbele waarden te verwerken. Het toevoegen van een index aan de brontabel lost dit probleem op.

Het is belangrijk om op te merken dat het gebruik van consistente mapping in een tabel zonder gedefinieerde primaire sleutels of indexen kan leiden tot onverwachte resultaten. In dergelijke gevallen gebruikt de toepassing de eerste kolom voor het ordenen, die mogelijk geen unieke waarden bevat, wat leidt tot niet-deterministische resultaten.

Last updated