Sequence model
Last updated
Last updated
Note: Voordat u deze functie gebruikt, moet u ervoor zorgen dat uw gegevens zijn ingesteld zoals beschreven in [Prepare your sequence data{{}(prepare-your-sequence-data.md) sectie.
Syntho kan gegevens verwerken in de vorm van lists, sequencesof time-series wanneer gestructureerd in entity table-linked table structuur.
Met Syntho's modellen voor synthetische gegevensreeksen kunt u relationele informatie vastleggen tussen elke entiteittabel en gekoppelde tabel. Entiteitstabellen bevatten de profielen van gegevensentiteiten, terwijl gelinkte tabellen ernaar verwijzen.
Entity tables kunnen worden geïdentificeerd aan de hand van hun attributen, die privacygevoelige informatie over gegevensentiteiten beschrijven, zoals namen, geboortedata, telefoonnummers, adressen en meer. Linked tables bevatten vaak gebeurtenisinformatie over een entiteit waarnaar wordt verwezen, die meerdere rijen per entiteit kan omvatten, zoals een maandelijkse salarisbetaling.
Laten we eens kijken naar de Patients en PatientMedications tabellen hieronder. De Patients tabel is de entiteittabel. De PatientMedications tabellen is de gekoppelde tabel.
Om deze tabellen te synthetiseren met behulp van Syntho's sequentiemodellen:
Syntho begint met het synthetiseren van de Patiënten
tabel.
Vervolgens synthetiseert het de PatientMedications
tabel met behulp van de synthetische Patients tabel als context.
Om Syntho's synthetische gegevensvolgordenmodellen te gebruiken, kun je het volgende doen:
Op de Job Configuration paneel, drag de tabel met verwante entiteiten en de gekoppelde tabel onder Synthesize.
Sleep eventuele andere tabellen onder De-identify of Exclude.
Op de Job configuration paneel, selecteer Generate.
Op de Job configuration paneel, schakel de Enable sequence modeling toggle
Selecteer ten slotte Start generating.
Voordat je het generatieproces start, heb je de mogelijkheid om sequentiemodelparameters aan te passen. Hier volgt een overzicht:
Max sequence length: Stelt een limiet in op de lengte van reeksen en kort elke reeks in die deze limiet overschrijdt.
Rare long sequence protection threshold: Bepaalt een limiet voor de lengte van gegevensreeksen die worden gebruikt in training, waarbij de langste reeksen worden aangepast aan de lengte van de N-de reeks.
N generated entities: Bepaalt het aantal entiteiten dat moet worden gegenereerd, elk geassocieerd met een reeks.
Read batch size: De hoeveelheid rijen die van elke brontabel worden gelezen per batch.
Write batch size: De hoeveelheid rijen die per batch in elke bestemmingstabel worden ingevoegd.
N connections: Geeft het aantal verbindingen op.
Het is belangrijk om rekening te houden met het volgende bij het gebruik van Syntho's sequentiemodellen:
2 tables: Syntho heeft het gebruik van zijn sequentiemodellen beperkt tot 2 tabellen om de bruikbaarheid van synthetische gegevens te maximaliseren.
Mockers Not Supported: Je kunt geen spotters gebruiken in combinatie met het sequentiemodel.
Hint: Als workaround, om mockers te kunnen toepassen in combinatie met de sequentiemodel functie van Syntho, kunt u twee sequentiële gegevensgeneratietaken uitvoeren. De eerste job met de 2 tabellen onder tabelmodus Synthesize en het sequentiemodel ingeschakeld. De database die door de eerste job wordt geretourneerd, wordt dan gebruikt als de brondatabase van de tweede job. De tweede opdracht past dan de spotters toe in combinatie met het instellen van de relevante tabelmodi op De-identificeren. Merk op dat dit twee aparte doeldatabases vereist voor elke volgende opdracht.
Resource Consumption: Deze functie kost veel middelen en kan het genereren van gegevens vertragen. Overweeg om de invoergegevens te beperken of de parameters van het sequentiemodel aan te passen om de tijd en middelen voor uw taak te beperken.
Als je deze beperkingen en aanbevelingen begrijpt, haal je het meeste uit Syntho.