Sequence model
Last updated
Was this helpful?
Last updated
Was this helpful?
Syntho kan gegevens verwerken in de vorm van lists, sequencesof time-series wanneer gestructureerd in entity table-linked table structuur.
Met Syntho's modellen voor synthetische gegevensreeksen kunt u relationele informatie vastleggen tussen elke entiteittabel en gekoppelde tabel. Entiteitstabellen bevatten de profielen van gegevensentiteiten, terwijl gelinkte tabellen ernaar verwijzen.
Entity tables kunnen worden geïdentificeerd aan de hand van hun attributen, die privacygevoelige informatie over gegevensentiteiten beschrijven, zoals namen, geboortedata, telefoonnummers, adressen en meer. Linked tables bevatten vaak gebeurtenisinformatie over een entiteit waarnaar wordt verwezen, die meerdere rijen per entiteit kan omvatten, zoals een maandelijkse salarisbetaling.
Laten we eens kijken naar de Patients en PatientMedications tabellen hieronder. De Patients tabel is de entiteittabel. De PatientMedications tabellen is de gekoppelde tabel.
Om deze tabellen te synthetiseren met behulp van Syntho's sequentiemodellen:
Syntho begint met het synthetiseren van de Patiënten
tabel.
Vervolgens synthetiseert het de PatientMedications
tabel met behulp van de synthetische Patients tabel als context.
Om Syntho's synthetische gegevensvolgordenmodellen te gebruiken, kun je het volgende doen:
Op de Job Configuration paneel, drag de tabel met verwante entiteiten en de gekoppelde tabel onder Synthesize.
Sleep eventuele andere tabellen onder De-identify of Exclude.
Op de Job configuration paneel, selecteer Generate.
Op de Job configuration paneel, schakel de Enable sequence modeling toggle
Selecteer ten slotte Start generating.
Voordat je het generatieproces start, heb je de mogelijkheid om sequentiemodelparameters aan te passen. Hier volgt een overzicht:
Max sequence length: Stelt een limiet in op de lengte van reeksen en kort elke reeks in die deze limiet overschrijdt.
Rare long sequence protection threshold: Bepaalt een limiet voor de lengte van gegevensreeksen die worden gebruikt in training, waarbij de langste reeksen worden aangepast aan de lengte van de N-de reeks.
N generated entities: Bepaalt het aantal entiteiten dat moet worden gegenereerd, elk geassocieerd met een reeks.
Read batch size: De hoeveelheid rijen die van elke brontabel worden gelezen per batch.
Write batch size: De hoeveelheid rijen die per batch in elke bestemmingstabel worden ingevoegd.
N connections: Geeft het aantal verbindingen op.
Het is belangrijk om rekening te houden met het volgende bij het gebruik van Syntho's sequentiemodellen:
2 tables: Syntho heeft het gebruik van zijn sequentiemodellen beperkt tot 2 tabellen om de bruikbaarheid van synthetische gegevens te maximaliseren.
Mockers Not Supported: Je kunt geen spotters gebruiken in combinatie met het sequentiemodel.
Resource Consumption: Deze functie kost veel middelen en kan het genereren van gegevens vertragen. Overweeg om de invoergegevens te beperken of de parameters van het sequentiemodel aan te passen om de tijd en middelen voor uw taak te beperken.
Als je deze beperkingen en aanbevelingen begrijpt, haal je het meeste uit Syntho.