Introduction to data generation methods
Het Syntho-platform biedt verschillende methoden voor het genereren van gegevens voor verschillende scenario's, waarbij rekening wordt gehouden met de aard van de gegevens, privacybelangen en specifieke gebruiksscenario's, zodat gebruikers de meest geschikte opties kunnen kiezen. De samenvattende tabel geeft een overzicht van deze methoden, waarbij hun relevantie en gebruiksscenario's hieronder worden beschreven. U kunt een van de methoden voor het genereren van gegevens selecteren om te worden doorgestuurd naar de gedetailleerde secties van de gebruikershandleiding.
Gegevensgeneratiemethode | Beschrijving | Wanneer gebruiken | Wanneer niet gebruiken | |
---|---|---|---|---|
AI-gegenereerde synthetische gegevens bestaan uit volledig nieuwe rijen die een nabootsing zijn van, maar geen 1-op-1-relatie hebben met, originele rijen. |
|
| ||
Slimme de-identificatie met (met PII-scanner, Consistent Mapping, Mockers en Calculated Columns) | Slimme opsporing en bescherming van de meest gevoelige gegevenskolommen (d.w.z. PII/PHI) in een database. |
|
|
|
Op regels gebaseerde synthetische gegevens (met Mockers en Berekende kolommen) | Genereer gegevens vanuit het niets op basis van door de gebruiker gedefinieerde logica en regels. |
|
|
De onderstaande kenmerken zijn essentieel voor de slimme methoden voor desidentificatie en op regels gebaseerde synthetische gegevens.
Key feature | Description | Wanneer gebruiken | Wanneer niet gebruiken |
---|---|---|---|
Het trainen van een generatief AI-model op de oorspronkelijke gegevens om nieuwe rijen te genereren die lijken op, maar geen 1-op-1-relatie hebben met de oorspronkelijke rijen. |
|
| |
Mockers | Het genereren van geheel nieuwe, door de gebruiker gedefinieerde waarden | Voor het genereren van aangepaste gegevens zonder rekening te houden met het behoud van de oorspronkelijke relaties tussen kolomwaarden | Als u relaties met oorspronkelijke gegevens moet behouden |
Om schijnwaarden te genereren die consistent worden gemapt ten opzichte van de oorspronkelijke waarden (bijv. Hank wordt altijd Jeffrey) | Om consistentie van gegevens te waarborgen tussen tabellen, systemen en jobs voor gegevensgeneratie | Als volledig willekeurige gegevens zonder consistentie gewenst zijn | |
Het genereren van door de gebruiker gedefinieerde waarden op basis van aangepaste logica | Voor complexe datamanipulaties waarvoor specifieke bedrijfslogica is vereist | Voor eenvoudige datageneratietaken waarvoor geen aangepaste logica is vereist | |
PII-scanner | Automatische opsporing van de meest gevoelige (d.w.z..PII/PHI) in uw database | Om de meest gevoelige kolommen (d.w.z. PII/PHI) te ontdekken | Wanneer uw gegevens niet gevoelig zijn |
Vergelijking van gegevens gegenereerd met verschillende generatiemethoden
We demonstreren de toepassing van elke generatiemethode op een echte honkbaldataset, die het volgende bevat players en seasons tabellen.
AI-gegenereerde synthetische data is toegepast op spelers tabel
In het eerste voorbeeld zien we dat een geheel nieuwe synthetische dataset is gegenereerd door het generatieve AI-model op basis van de oorspronkelijke dataset. De synthetische dataset behoudt de statistieken van de originele dataset, maar er is geen 1:to:1 overeenkomst tussen synthetische records en originele records. Merk op dat voor AI-gegenereerde synthetische gegevens een vervangingswaarde voor zeldzame categorieën van 10 is toegepast. Dit betekent dat elke naam die minder dan 10 keer voorkomt in de kolommen nameFirst
en nameLast
werd vervangen door een sterretje om de privacy te beschermen.
Mockers](../../configure-a-data-generation-job/configure-column-settings/mockers/) worden toegepast op de tabel met spelers.
Mockers worden toegepast op specifieke kolommen in de tabel met spelers, die geel gemarkeerd zijn in de tabel hierboven: 'land', 'geboortedatum', 'sterfdatum', 'naamVoornaam' en 'naamLaatst'.
Consistent Mapping met Mockers is toegepast op de tabel spelers.
Als u [consistente mapping] (../../configure-a-data-generation-job/configure-column-settings/mockers/consistent-mapping.md) inschakelt, worden de waarden in alle tabellen consistent naar dezelfde waarde gemapt. We hebben bijvoorbeeld consistente mapping ingeschakeld voor twee kolommen: "nameFirst" en "nameLast". We willen dezelfde synthetische namen en achternamen (spotters) genereren voor de originele namen. Zie de illustraties van MySQL-tabellen hieronder, waar mockers met consistente mapping de naam "Bill Kennedy" toewijzen aan "Danielle Olson".
Merk op dat andere namen ook kunnen worden toegewezen aan "Danielle" of "Olson"; echter, wanneer Syntho "Bill" detecteert, zal het deze altijd vervangen door een mocker met de voornaam "Danielle". Hetzelfde geldt voor "Kennedy" en "Olson" in de achternaamkolom. Consistentie kan worden geverifieerd met andere kolommen omdat ze worden gedupliceerd zonder enige verandering van bron naar bestemming, waardoor originele en synthetische tabellen kunnen worden gematcht voor een beter begrip van consistentie.
Berekende kolommen stellen gebruikers in staat om een breed spectrum aan bewerkingen op gegevens uit te voeren, variërend van eenvoudige rekenkundige tot complexe logische en statistische berekeningen. In bovenstaande illustratie wordt de volgende bewerking toegepast:
IFNA(IFS(height>74, "Tall", height>72, "Medium", height>70, "Small"), "NA")
Last updated