Use Case: Database de-identification
Last updated
Last updated
Voordat je begint met het gebruik van de-identificatie van databases, moet je eerst de onderstaande video bekijken, die een korte introductie geeft over methoden voor het genereren van gegevens:
Syntho helpt klanten ervoor te zorgen dat kolommen die personally identifiable information (PII) goed beheerd en beheerd worden. Het biedt snelle ontdekking en de-identificatie van PII-kolommen, waarbij de inhoud wordt vervangen voor entiteiten zoals persoonsnamen, locaties, socialezekerheidsnummers, telefoonnummers, financiële/gezondheidsgegevens en meer. Hieronder vindt u de belangrijkste functies die veel door klanten worden gebruikt en die we in deze handleiding zullen behandelen:
Gebruik de PII scanner om gevoelige kolommen te identificeren.
Identificeer PII met behulp van Mockers of Exclude.
Zet in. consistent mapping met Syntho spotters.
Gebruik de nieuwste functie calculated columns om een groot aantal bewerkingen op gegevens uit te voeren.
De foreign key scanner om foreign keys te erven van de database.
Gebruik de Sync knop om het bronschema met de werkruimte te synchroniseren.
Maak een workspace zoals beschreven in de [Create a workspace(../../setup-workspaces/create-a-workspace/) gedeelte.
De werkruimte moet bestaan uit een source en een destination database. De destination database moet exact dezelfde, maar lege tabellen en kolommen hebben als de source database, met schrijftoegang.
Zorg ervoor dat de data types van kolommen in zowel de source en destination databases accurately represent their content. Bijvoorbeeld, date kolommen moeten van het type Date, integer kolommen van het type Integeren decimal kolommen van het type Decimal/Float.
Nadat u de werkruimte hebt geopend en om relaties tussen tabellen te behouden, houdt u CTRL + SHIFT + ALT + 0 om de Workspace Default Settings menu. Als deze sneltoets gereserveerd is op uw systeem, kunt u het volgende toevoegen /global_settings aan het einde van de URL van de werkruimte. Onder de key_generation_method Stel de waarde in op:
"duplicate": om relaties tussen tabellen te behouden en de originele sleutelwaarden te dupliceren.
"hash": om relaties tussen tabellen te behouden en de originele sleutelwaarden te hashen.
Laten we aannemen dat de klant actief is in de gezondheidszorg. De database van de klant bevat medische gegevens over hun patiënten, medicijnen, voorraden, apparaten, enz. De onderstaande schermafbeelding toont alle tabellen in de database aan de linkerkant en een voorbeeld van rijen in de patients tafel:
Tabelmodes, zichtbaar aan de linkerkant, bepalen hoe tabellen worden verwerkt en overgedragen. De De-identify Met de modus kun je kolomgegevens transformeren door PII te verwijderen of na te bootsen via twee opties: Mockers en Exclude. De standaard kolommodus is Duplicate, wat betekent dat de kolom direct wordt gekopieerd zonder wijzigingen. Deze instelling kan echter worden gewijzigd om gegevens te bespotten met Mockers of specifieke kolommen uitsluiten.
Create of open the workspace met de kolommen die u wilt desidentificeren.
Om alle relaties tussen tabellen te behouden, houd je CTRL + SHIFT + ALT + 0
ingedrukt om het menu Workspace Default Settings te openen. Als deze korte toets is gereserveerd op jouw systeem, kun je /global_settings
toevoegen aan het einde van de URL van de werkruimte.
Stel onder key_generation_method
de waarde in op:
"duplicate": om relaties tussen tabellen te behouden en de originele sleutelwaarden te dupliceren.
"hash": om relaties tussen tabellen te behouden en de originele sleutelwaarden te hashen.
Op de Job configuration paneel, sleep alle tabellen met kolommen die u wilt de-identificeren onder De-identify. Je kunt CTRL
of SHIFT
gebruiken om meerdere tabellen tegelijk te selecteren.
Open de column settings voor de geselecteerde tabel.
De kolommodus is standaard ingesteld op Duplicate.
Wijzig de kolommodus in een van de volgende opties:
Mocker: Gebruik deze optie om de kolommen te vullen met schijngegevens.
Exclude: Kies deze optie als je specifieke kolommen niet wilt opnemen in de gedupliceerde tabel. Met deze modi kunt u PII veilig de-identificeren door deze te vervangen door nepgegevens (Mockers) of uitsluiten (Exclude) van de doeldatabase (voor meer informatie, zie Kolominstellingen configureren). Voor de duidelijkheid toont de onderstaande illustratie het onderscheid tussen tabel- en kolomconfiguraties.
In de PII tabkunt u nieuwe kolommen toevoegen aan de lijst van PII kolommen, ofwel manually of door Syntho's PII scanner. U hebt de optie om manually label columns die PII bevat door de kolomnaam te selecteren en optioneel een spotter te kiezen om toe te passen. Door op "Confirm" wordt de kolom gemarkeerd als PII bevattend en wordt de selectie van de spotter bevestigd.
U kunt ook automatische PII-ontdekking implementeren met de PII-scanner. Start een scan om PII te detecteren in alle databasekolommen op het tabblad PII in het venster **Job Configuration** paneel. Merk op dat de scanner zowel **Shallow** en **Deep** scanmodi: * De **shallow scan** beoordeelt kolommen met behulp van reguliere expressieregels om PII te identificeren, geoptimaliseerd voor snelheid maar met variabele nauwkeurigheid. * De **deep scan** onderzoekt zowel metagegevens als gegevens binnen kolommen voor een grondige identificatie van PII. Na een **deep scan**Syntho kan kolommen onthullen die waarschijnlijk PII bevatten, waarbij aan elke kolom een waarschijnlijkheidsscore wordt toegekend (bijvoorbeeld 80% voor de "**ADDRESS**" kolom). Om ongewenste configuraties te verwijderen, klikt u op het verwijderpictogram aan de rechterkant van het paneel. Als u op "**Configure**" opent een nieuw venster voor kolominstellingen, die in de volgende sectie worden beschreven.
Zie voor meer informatie - Automatische PII-ontdekking met PII-scanner.
Nadat u op de knop "Configure"Op het tabblad PII verschijnt het onderstaande venster.
Het bovenstaande venster kan **also** worden bereikt door te klikken op de kolominstellingen voor de geselecteerde tabel. Zie hieronder hoe je het venster opent.
Voor kolommen waarvan niet is vastgesteld dat ze PII bevatten, zoals de "**COUNTRY**" kolom, is de standaardmodus **Duplicate**wat betekent dat het veilig kan worden gedupliceerd naar de **destination** database. Voor kolommen waarvan wordt gedetecteerd dat ze PII bevatten, zoals "**NAME**", kunt u een **Mocker**. Om instellingen te configureren voor de "**NAME**" kolom (zoals in de vorige afbeelding), kiezen we voor schijngegevens boven echte namen. Het gegevenstype "**Name**" wordt automatisch geselecteerd en we kunnen ook kiezen voor de "**unique**" optie om ervoor te zorgen dat alleen unieke waarden worden gegenereerd. **Consistent mapping**, een geavanceerde functie, genereert identieke mock gegevens voor elke set van originele waarden elke keer dat het wordt toegepast. Bijvoorbeeld, de namaaknaam "Jack" zal "Alan" consequent vervangen, **maintaining value consistency across** tabellen, databases en taken. Door op de knop "**Preview**" knop kun je een voorbeeld bekijken van de nagebootste gegevens met de gedefinieerde instellingen.
Kijk voor meer informatie op mockers & consistent mapping.
Gebruikers moeten handmatig TRUNCATE hun tafels in de DESTINATION database voordat elke nieuwe taak voor het genereren van gegevens wordt gestart. Als trunceren wordt belemmerd door bestaande beperkingen, dan moeten deze beperkingen tijdelijk worden uitgeschakeld voor het trunceren en daarna weer worden ingeschakeld. Bijvoorbeeld, om het truncatie proces te vergemakkelijken wanneer foreign key beperkingen dit verhinderen, gebruik de volgende SQL commando's: Schakel eerst de beperkingen uit door SET FOREIGN_KEY_CHECKS = 0;
uit te voeren, en vervolgens TRUNCATE de tabel en activeer tenslotte de beperkingen opnieuw met SET FOREIGN_KEY_CHECKS = 1;
. Deze volgorde zorgt ervoor dat tabellen goed worden voorbereid voor het genereren van gegevens zonder dat de beperkingen worden geschonden.
This feature is planned for release and not part of the Syntho platform yet. The calculated column function list will be rolled out in a phased approach. Please contact your Syntho contact person if you have suggestions for this feature.
Een ander voorbeeld is de voornaam spotter. Stel je voor dat je een tabel hebt met een kolom voor voornamen. De gebruiker wil echter mockgegevens voor mannelijke namen en mockgegevens voor vrouwelijke namen genereren op basis van het controleren van hun geslacht in de kolom voor geslacht. Dit verzoek kan worden uitgedrukt met de onderstaande formule: Excel-formule IF([Geslacht] = 'M', MOCK_FIRST_NAME, IF([Geslacht] = 'F', MOCK_LAST_NAME_FEMALE, 'nothing'))