Use Case: Database de-identification

Voordat je begint met het gebruik van de-identificatie van databases, moet je eerst de onderstaande video bekijken, die een korte introductie geeft over methoden voor het genereren van gegevens:

Syntho helpt klanten ervoor te zorgen dat kolommen die personally identifiable information (PII) goed beheerd en beheerd worden. Het biedt snelle ontdekking en de-identificatie van PII-kolommen, waarbij de inhoud wordt vervangen voor entiteiten zoals persoonsnamen, locaties, socialezekerheidsnummers, telefoonnummers, financiële/gezondheidsgegevens en meer. Hieronder vindt u de belangrijkste functies die veel door klanten worden gebruikt en die we in deze handleiding zullen behandelen:

  1. Gebruik de PII scanner om gevoelige kolommen te identificeren.

  2. Identificeer PII met behulp van Mockers of Exclude.

  3. Zet in. consistent mapping met Syntho spotters.

  4. Gebruik de nieuwste functie calculated columns om een groot aantal bewerkingen op gegevens uit te voeren.

  5. De foreign key scanner om foreign keys te erven van de database.

  6. Gebruik de Sync knop om het bronschema met de werkruimte te synchroniseren.

Wat wordt er behandeld in de videogidsen over database-identificatie?

Vereisten

  • Maak een workspace zoals beschreven in de [Create a workspace(../../setup-workspaces/create-a-workspace/) gedeelte.

    • De werkruimte moet bestaan uit een source en een destination database. De destination database moet exact dezelfde, maar lege tabellen en kolommen hebben als de source database, met schrijftoegang.

    • Zorg ervoor dat de data types van kolommen in zowel de source en destination databases accurately represent their content. Bijvoorbeeld, date kolommen moeten van het type Date, integer kolommen van het type Integeren decimal kolommen van het type Decimal/Float.

  • Nadat u de werkruimte hebt geopend en om relaties tussen tabellen te behouden, houdt u CTRL + SHIFT + ALT + 0 om de Workspace Default Settings menu. Als deze sneltoets gereserveerd is op uw systeem, kunt u het volgende toevoegen /global_settings aan het einde van de URL van de werkruimte. Onder de key_generation_method Stel de waarde in op:

    • "duplicate": om relaties tussen tabellen te behouden en de originele sleutelwaarden te dupliceren.

    • "hash": om relaties tussen tabellen te behouden en de originele sleutelwaarden te hashen.

Voorwaarden voor De-identificatie

Gezondheidszorgdatabase

Laten we aannemen dat de klant actief is in de gezondheidszorg. De database van de klant bevat medische gegevens over hun patiënten, medicijnen, voorraden, apparaten, enz. De onderstaande schermafbeelding toont alle tabellen in de database aan de linkerkant en een voorbeeld van rijen in de patients tafel:

Een werkruimte instellen

Tabelmodes, zichtbaar aan de linkerkant, bepalen hoe tabellen worden verwerkt en overgedragen. De De-identify Met de modus kun je kolomgegevens transformeren door PII te verwijderen of na te bootsen via twee opties: Mockers en Exclude. De standaard kolommodus is Duplicate, wat betekent dat de kolom direct wordt gekopieerd zonder wijzigingen. Deze instelling kan echter worden gewijzigd om gegevens te bespotten met Mockers of specifieke kolommen uitsluiten.

  1. Create of open the workspace met de kolommen die u wilt desidentificeren.

  2. Om alle relaties tussen tabellen te behouden, houd je CTRL + SHIFT + ALT + 0 ingedrukt om het menu Workspace Default Settings te openen. Als deze korte toets is gereserveerd op jouw systeem, kun je /global_settings toevoegen aan het einde van de URL van de werkruimte.

  3. Stel onder key_generation_method de waarde in op:

    • "duplicate": om relaties tussen tabellen te behouden en de originele sleutelwaarden te dupliceren.

    • "hash": om relaties tussen tabellen te behouden en de originele sleutelwaarden te hashen.

  4. Op de Job configuration paneel, sleep alle tabellen met kolommen die u wilt de-identificeren onder De-identify. Je kunt CTRL of SHIFT gebruiken om meerdere tabellen tegelijk te selecteren.

  5. Open de column settings voor de geselecteerde tabel.

  6. De kolommodus is standaard ingesteld op Duplicate.

  7. Wijzig de kolommodus in een van de volgende opties:

    • Mocker: Gebruik deze optie om de kolommen te vullen met schijngegevens.

    • Exclude: Kies deze optie als je specifieke kolommen niet wilt opnemen in de gedupliceerde tabel. Met deze modi kunt u PII veilig de-identificeren door deze te vervangen door nepgegevens (Mockers) of uitsluiten (Exclude) van de doeldatabase (voor meer informatie, zie Kolominstellingen configureren). Voor de duidelijkheid toont de onderstaande illustratie het onderscheid tussen tabel- en kolomconfiguraties.

Tabelmodus instellen - De-identificeren

Kolommen ontdekken en anonimiseren

In de PII tabkunt u nieuwe kolommen toevoegen aan de lijst van PII kolommen, ofwel manually of door Syntho's PII scanner. U hebt de optie om manually label columns die PII bevat door de kolomnaam te selecteren en optioneel een spotter te kiezen om toe te passen. Door op "Confirm" wordt de kolom gemarkeerd als PII bevattend en wordt de selectie van de spotter bevestigd.

U kunt ook automatische PII-ontdekking implementeren met de PII-scanner. Start een scan om PII te detecteren in alle databasekolommen op het tabblad PII in het venster **Job Configuration** paneel. Merk op dat de scanner zowel **Shallow** en **Deep** scanmodi: * De **shallow scan** beoordeelt kolommen met behulp van reguliere expressieregels om PII te identificeren, geoptimaliseerd voor snelheid maar met variabele nauwkeurigheid. * De **deep scan** onderzoekt zowel metagegevens als gegevens binnen kolommen voor een grondige identificatie van PII. Na een **deep scan**Syntho kan kolommen onthullen die waarschijnlijk PII bevatten, waarbij aan elke kolom een waarschijnlijkheidsscore wordt toegekend (bijvoorbeeld 80% voor de "**ADDRESS**" kolom). Om ongewenste configuraties te verwijderen, klikt u op het verwijderpictogram aan de rechterkant van het paneel. Als u op "**Configure**" opent een nieuw venster voor kolominstellingen, die in de volgende sectie worden beschreven.

Ontdekken en de-identificeren van PII-kolommen

Zie voor meer informatie - Automatische PII-ontdekking met PII-scanner.

De-identificeer met behulp van mockers & consistent mapping

Nadat u op de knop "Configure"Op het tabblad PII verschijnt het onderstaande venster.

Het bovenstaande venster kan **also** worden bereikt door te klikken op de kolominstellingen voor de geselecteerde tabel. Zie hieronder hoe je het venster opent.

Voor kolommen waarvan niet is vastgesteld dat ze PII bevatten, zoals de "**COUNTRY**" kolom, is de standaardmodus **Duplicate**wat betekent dat het veilig kan worden gedupliceerd naar de **destination** database. Voor kolommen waarvan wordt gedetecteerd dat ze PII bevatten, zoals "**NAME**", kunt u een **Mocker**. Om instellingen te configureren voor de "**NAME**" kolom (zoals in de vorige afbeelding), kiezen we voor schijngegevens boven echte namen. Het gegevenstype "**Name**" wordt automatisch geselecteerd en we kunnen ook kiezen voor de "**unique**" optie om ervoor te zorgen dat alleen unieke waarden worden gegenereerd. **Consistent mapping**, een geavanceerde functie, genereert identieke mock gegevens voor elke set van originele waarden elke keer dat het wordt toegepast. Bijvoorbeeld, de namaaknaam "Jack" zal "Alan" consequent vervangen, **maintaining value consistency across** tabellen, databases en taken. Door op de knop "**Preview**" knop kun je een voorbeeld bekijken van de nagebootste gegevens met de gedefinieerde instellingen.

Kijk voor meer informatie op mockers & consistent mapping.

Tabellen inkorten voor elke nieuwe opdracht voor gegevensgeneratie

Gebruikers moeten handmatig TRUNCATE hun tafels in de DESTINATION database voordat elke nieuwe taak voor het genereren van gegevens wordt gestart. Als trunceren wordt belemmerd door bestaande beperkingen, dan moeten deze beperkingen tijdelijk worden uitgeschakeld voor het trunceren en daarna weer worden ingeschakeld. Bijvoorbeeld, om het truncatie proces te vergemakkelijken wanneer foreign key beperkingen dit verhinderen, gebruik de volgende SQL commando's: Schakel eerst de beperkingen uit door SET FOREIGN_KEY_CHECKS = 0; uit te voeren, en vervolgens TRUNCATE de tabel en activeer tenslotte de beperkingen opnieuw met SET FOREIGN_KEY_CHECKS = 1;. Deze volgorde zorgt ervoor dat tabellen goed worden voorbereid voor het genereren van gegevens zonder dat de beperkingen worden geschonden.

De-identificeer met Berekende kolommen

This feature is planned for release and not part of the Syntho platform yet. The calculated column function list will be rolled out in a phased approach. Please contact your Syntho contact person if you have suggestions for this feature.

Een ander voorbeeld is de voornaam spotter. Stel je voor dat je een tabel hebt met een kolom voor voornamen. De gebruiker wil echter mockgegevens voor mannelijke namen en mockgegevens voor vrouwelijke namen genereren op basis van het controleren van hun geslacht in de kolom voor geslacht. Dit verzoek kan worden uitgedrukt met de onderstaande formule: Excel-formule IF([Geslacht] = 'M', MOCK_FIRST_NAME, IF([Geslacht] = 'F', MOCK_LAST_NAME_FEMALE, 'nothing'))

<div align="left">
<figure><img src="../../.gitbook/assets/image (64).png" alt="" width="563"><figcaption><p>Berekende kolom en het bijbehorende formuleveld</p></figcaption></figure>
</div>
Zie voor meer informatie - [Berekende kolommen] (use-case-database-de-identification.md#calculated-columns).
## [Verify ](../../configure-a-data-generation-job/manage-foreign-keys/add-virtual-foreign-keys/use-foreign-key-scanner.md)of [Add Foreign Keys](../../configure-a-data-generation-job/manage-foreign-keys/add-virtual-foreign-keys/)
De **Foreign Key tab**, naast de PII tab, toont Syntho's automatische overerving van vreemde sleutels van uw **source** database. Als ze niet expliciet gedefinieerd zijn, kun je ze toevoegen via **import** (JSON-bestanden), handmatig of scannend.
<figure><img src="../../.gitbook/assets/pii4.png" alt=""><figcaption><p>Buitenlandse sleutel tab</p></figcaption></figure>
Voor databases zonder expliciete foreign key relaties kun je met Syntho handmatig virtuele foreign keys toevoegen. Selecteer hiervoor de tabellen en kolommen voor de foreign en primary keys in het tabblad **Foreign Keys** tabblad en klik op "**Add foreign key**" om af te ronden.
Om de installatie te stroomlijnen, kunt u **import** vreemde sleutels via een **JSON** bestand. Klik gewoon op "**Upload foreign keys**", gebruik dan de **Browse** om uw bestand te selecteren en klik op "**Import**" om uw **Foreign Keys** lijst.
Syntho biedt ook een **foreign key scanner** voor het ontdekken van potentiële virtuele vreemde sleutels, handig in grote databases. Om een scan te starten, ga je naar de **Foreign Keys** tabblad, druk op "**Scan**," pas indien nodig filters toe en bevestig om te starten. U kunt dan alle geïdentificeerde kandidaten voor vreemde sleutels bekijken, bevestigen of verwijderen.

<div data-gb-custom-block data-tag="embed" data-url='https://youtu.be/2xZa6qralAY'>

Vreemde sleutels controleren en toevoegen

</div>
Zie voor meer informatie [Buitenlandse sleutels beheren](../../configure-a-data-generation-job/manage-foreign-keys/).
## Houd uw brondatabase in [sync ](https://docs.syntho.ai/configure-a-data-generation-job/validate-and-synchronize-workspace#source-schema-synchronization)met uw werkruimte
De **Sync** knop is handig voor het weergeven van frequente schemawijzigingen in Syntho. Het zorgt ervoor dat de werkruimte de huidige status van de **source** database, met ruimte voor toevoegingen, verwijderingen en wijzigingen in de **source** database.
Laten we aannemen dat we een **source** database genaamd gezondheidszorg en de kolom "**Drivers**" werd verwijderd uit de tabel **patients** in de **source MySQL database**. Als u na het verwijderen van de kolom op **Sync** knop, wordt de huidige versie van de **source** database.
<figure><img src="../../.gitbook/assets/pii-complete (1).png" alt=""><figcaption><p>Schemawijzigingen kunnen direct worden weergegeven in Syntho met de synchronisatieknop</p></figcaption></figure>

Last updated