Use Case: Database de-identification
Last updated
Last updated
Synthoは、以下を含む列が確実に生成されるようにお客様を支援します。 personally identifiable information (PII) は適切に管理され、統制されています。PIIカラムの迅速な発見と非識別化を提供し、人名、場所、社会保障番号、電話番号、財務/健康データなどのエンティティの内容を置き換えます。 このガイドで取り上げる、お客様に広く利用されている最も重要な機能を以下に示します: 1.使用方法 PII scanner を使用して、機密性の高い列を特定する。 2.を使用してPIIを非特定化する。 Mockers または Exclude. 3.配置する consistent mapping シンソモッカーとともに。 4.最新機能を使う calculated columns データに対する幅広い操作を実行する。 5.を活用する。 foreign key scanner データベースから外部キーを継承する。 6.データベースから外部キーを継承するには Sync ボタンをクリックして、ソース・スキーマをワークスペースと同期します。 {URL="https://youtu.be/xmR1ycrEDx4" %}を埋め込みます。 データベースの非識別化に関するビデオガイドでは、どのようなことが説明されていますか? {%} を参照してください。
を作成する。 workspace にあるとおりである。Create a workspace](../../setup-workspaces/create-a-workspace/)セクションを参照してください。
ワークスペースは source そして destination データベースその destination データベースとまったく同じ、しかし空のテーブルとカラムを持っていなければなりません。 source データベースへの書き込みが可能であること。
を確保すること。 data types の両方の列の source そして destination データベース accurately represent their content.例えば、 date カラムは Date, integer 型の列 Integerそして decimal 型の列 Decimal/Float.
ワークスペースを開いた後、テーブル間の関係を保持するために、次のようにします。 CTRL + SHIFT + ALT + 0 を開きます。 Workspace Default Settings メニューに追加することができます。お使いのシステムでこのショートキーが予約されている場合は、このショートキーに /global_settings をワークスペースURLの末尾に追加する。ワークスペースの key_generation_method エントリーでは、値を次のいずれかに設定する:
"duplicate": テーブル間の関係を保持し、元のキー値を複製する。
"hash": テーブル間の関係を保持し、元のキー値をハッシュ化する。
{埋め込みurl="https://youtu.be/dubPW24-4Jk" %}。 非識別化の前提条件 {エンドエンベッド %}
顧客が医療業界で働いていると仮定しよう。この顧客のデータベースは、患者、薬、消耗品、機器などに関する医療データで構成されています。以下のスクリーンショットは、左側にデータベースに存在するすべてのテーブルを表示し、右側に行のサンプルを表示します。 patients テーブル
。 {URL="https://youtu.be/bNgZnacMfFM" %}を埋め込みます。 ワークスペースを設定する {ワークスペースを設定します。} ## [テーブルモード: ID解除](../../configure-a-data-generation-job/configure-table-settings.md) 左側に表示されているテーブル・モードは、テーブルがどのように処理され転送されるかを制御します。左側に表示されている **De-identify** モードでは、2つのオプションを使ってPIIを削除したりモックしたりしてカラムデータを変換することができます: **Mockers** そして **Exclude**.デフォルトの列モードは **Duplicate**つまり、カラムはそのままコピーされる。しかし、この設定は、モックデータを **Mockers** または特定の列を除外する。 1. **Create** または **open** **the workspace** に、識別を解除したいカラムを追加する。 2.すべてのテーブル間の関係を保持するには、`CTRL + SHIFT + ALT + 0` を押しながら、ワークスペースのデフォルト設定メニューを開きます。このショートキーがシステムで予約されている場合は、ワークスペースのURLの最後に`/global_settings`を追加します。 3.3. `key_generation_method` の項目で、値を次のいずれかに設定します: * "**duplicate**": テーブル間の関係を保持し、元のキー値を複製する。 * "**hash**": テーブル間の関係を保持し、元のキー値をハッシュ化する。 4.テーブルの **Job configuration** パネルの下に、識別を解除したいカラムを含むすべてのテーブルをドラッグします。 **De-identify**.CTRL`や`SHIFT`を使えば、複数のテーブルを同時に選択することができる。 5.テーブルにアクセスする。 **column settings** 選択したテーブルの 6.デフォルトでは、列モードは **Duplicate**. 7.カラムモードを以下のオプションのいずれかに変更する: * **Mocker**:このオプションを使用して、列を模擬データで埋めます。 * **Exclude**:複製されたテーブルに特定の列を含めたくない場合は、このオプションを選択します。
これらのモードを使用すると、PIIを模擬データ(Mockers)、またはそれを除外する(Exclude詳細については、列設定の構成 を参照)。
わかりやすくするために、下図はテーブルとカラムの設定の違いを示しています。
テーブルとカラムの設定
の中で PII tabのリストに新しい列を追加することができる。 PII 列のどちらかです。 manually またはシンソの PII scanner.以下のオプションがあります。 manually label columns カラム名を選択し、オプションで適用するモッカーを選択することにより、PIIを含む。をクリックする。Confirm"は列をPIIを含むものとしてマークし、モッカーの選択を確定する。
PII タブ
詳細については、 - PIIスキャナによる自動PII発見を参照してください。
をクリックした後、"Configure"ボタンをクリックすると、以下のウィンドウが表示されます。
列の設定
列設定を開く別の方法
モック値をプレビューする
モック値をプレビューする
詳細については、mockers & consistent mapping を確認してください。
ユーザーは手動で TRUNCATE のテーブルの DESTINATION データベースのトランケーションは、各新規データ生成ジョブを開始する前に行われる。既存の制約によって切り捨てが妨げられる場合は、切り捨ての前にこれらの制約を一時的に無効にし、切り捨て後に再び有効にする必要があります。例えば、外部キー制約によって切り捨てができない場合に切り捨て処理を容易にするには、以下のSQLコマンドを使用します:まず、SET FOREIGN_KEY_CHECKS = 0;
を実行して制約を無効にし、次に TRUNCATE そして最後に、SET FOREIGN_KEY_CHECKS = 1;
で制約を再度有効にします。このシーケンスにより、テーブルが制約違反なしにデータ生成のために適切に準備されることが保証されます。
{ヒント style="info" %}。 This feature is planned for release and not part of the Syntho platform yet. The calculated column function list will be rolled out in a phased approach. Please contact your Syntho contact person if you have suggestions for this feature.
もう一つの例は姓名モッカーです。姓のカラムを持つテーブルがあるとします。しかし、ユーザは男性の名前に対しては男性のモックデータを生成し、女性の名前に対しては性別カラムの性別をチェックすることに基づいて女性のモックデータを生成したいと考えています。このリクエストは以下の式で表すことができます: ``excel-formula IF([Gender] = 'M', MOCK_FIRST_NAME, IF([Gender] = 'F', MOCK_LAST_NAME_FEMALE, 'nothing'))