Automatic PII discovery with PII scanner

スキャナで PII tab にある。 Job Configuration パネル, を立ち上げる。 personally identifiable information (PII) スキャンは、データベースのすべてのカラムをスキャンし、PIIを検出する。

ポジティブなスキャン結果は、すべて PII tab.

について Job Settings タブ, PIIタブに表示されるPIIエンティティには、次のようなラベルも付けられている。 PII をカラムヘッダに追加する。

を起動できる。 metadata PIIスキャンまたは data PIIスキャン。メタデータのスキャンが高速に実行される, なぜなら、正規表現ルールが適用される個々のカラム名に基づいているからである。一方, データスキャンは、PIIカラムをより正確に検出できる可能性が高い。, 最先端の自然言語処理モデルを使ってカラム内のデータを分析するからだ。

{ヒント style="info" %}。 Hint: PIIスキャナーを使用する場合, PIIとしてマークされた結果の列は常に検証する。, というのも、スキャナが誤ってPIIでない列をPIIと判定してしまう可能性があるからである。また、特定のPII要素を見逃してしまうかもしれません。 {endhint %}。

浅いスキャン(メタデータを使用)

について PII タブ, の右側にあるドロップダウンアイコンを選択します。 Start scan ボタンをクリックし Shallow scan.

シャロー・スキャンは、データベースで利用可能なすべてのカラムを評価し、正規表現ルールを使用して、各カラムに含まれる可能性のあるPIIのタイプを推測する。このプロセスは速度のために最適化され、並列で実行される。, 予測精度が落ちることもあるだろう。

メタデータスキャンの性質上, の結果は一般的に信頼度が高い。これは、Syntho によって確立されたルールに依存しているためである。新しいルールを追加して、カスタム定義のPIIエンティティを検出することも可能です。詳細はこちら, シンソーの担当者にご連絡ください。

ディープスキャン(メタデータ+データを使用)

について PII タブ, の右側にあるドロップダウンアイコンを選択します。 Start scan ボタンをクリックし Deep scan.

場合によっては, Synthoは浅いスキャンではPIIエンティティを検出しないかもしれない, 特にカラム名が内容を説明するものでない場合は。ルールの網羅的なリストを作成することは、必ずしも現実的ではありません。したがって, Synthoは、潜在的なPIIエンティティを特定するために、メタデータだけでなく、列内のデータもスキャンするオプションを提供しています。

PIIスキャンを開始すると、まずメタデータのスキャンが開始されます。PIIとして識別されず、"string「またはtext"がディープスキャン対象である。スキャンをこれらのタイプに限定するのは natural language processing (NLP) モデルは、テキストデータからPIIを識別し、抽出するように訓練されている。, 単語文脈に頼った予測

{ヒント style="warning" %}。 Caution: データPIIスキャナは、各列の内容を検査する。, つまり、スキャン時間はデータベースのサイズが大きくなるほど長くなる。スキャン時間を短縮するには, を使用すると、列ごとの読み取り行数を制限することができる。ただし, これはスキャン結果に悪影響を及ぼす可能性があります。 {endhint %}。

メタデータスキャンと比較して, データスキャンの結果は信頼度が低くなる可能性がある。列に複数のPIIタイプが含まれる場合, 当社のソフトウェアは、その列が特定のPIIタイプであることの確信度を、その列についてスキャンされた行の総数に対するそのPIIタイプの検出頻度に基づいて計算する。

制限事項(ディープスキャンのみ)

  • ディープスキャンは、自然言語処理(NLP)モデルを使ってデータの各列を検査する。, これは、正確な結果を出すために周囲の文脈に依存している。しかし, 個人を特定できる情報(PII)を含む列, のようなものだ。 First_Name 列, 通常、このような文脈は欠けている。例えば, a First_Name カラムは姓のみを含む, NLPモデルにとって、追加的な文脈なしにそれらを正確に識別することは困難である。

##サポートされるPIIエンティティ

Syntho がサポートする PII エンティティの詳細については、以下を参照してください。, 見る Supported PII entities.

PII スキャナのパラメータ

  • Cardinality トグル, オンにすると, を使うと、あるカラムに一意な値が行の数だけあるかどうかをチェックすることができます。この場合、そのカラムにはPIIが含まれている可能性が高い。

  • 選択時 Add, をクリックすると、生成方法/カラムのモーダルが表示され、ユーザーは設定を調整/確認する必要があります。その後, その Add ボタンが消え、ホイールアイコンが表示されます。

  • について Allowlist を使用すると、そのエンティティ・タイプの他のトークンを識別したい場合でも、PII としてマークすべきでないトークンのリストを定義できます。

  • について Add new PII エンティティがモーダルを起動し、ユーザーが新しいPIIエンティティを作成できるようにします。, の3つのフィールドに入力する。

    1. ユーザー定義エンティティの名前,

    2. a RegEx (または単語リスト),

    3. 信頼パーセント。

  • について PII entities を探す, は、利用可能なすべてのPIIエンティティ(ユーザーが作成したエンティティを含む)を示す複数選択可能なドロップダウン(スキーマドロップダウンと同じ)です。

  • について PII scan acceptance threshold スライダーを使用して、ユーザーに表示されるPIIエンティティを制御することができます。

  • について Learn more about PII ボタンをクリックすると、シントーのユーザードキュメンテーションの PII セクションに転送されます。

さらに:

  • PIIスキャンでロケールを定義する場合, そのロケールをデフォルトとして、PIIスキャンで提案されたすべてのモッカーにも使ってください。

さらに, 以下の点を考慮する。:

  • "de-identify "の下にあるPII列のヘッダーが赤い場合, モッカーやエクスルードが適用されていないことを意味する。

  • 左のテーブルの横にある感嘆符(!), テーブルの概要パネルの下に、そのテーブルが"de-identify"であり、DuplicateにPIIラベルを持つ列がある(MockerやExcludeは適用されていない)。(!)マークは、このテーブルに個人を特定できる情報(PII)としてラベル付けされたカラムがあることをユーザーに知らせます。, このPIIは複製される, これは、機密データの意図しない共有につながる可能性がある。これを避けるために, ユーザーには2つの選択肢があります。: 1.モッカーを適用する。 2.PII列を除外する。

感嘆符(!)は、非識別化としてマークされたテーブルは非識別化されなければならないことをユーザーに理解させる。以下の点に注意してください。 de-identification に等しい。 excluding or mocking PII columns.モッカーの適用や除外では処理できないPII列がある場合, それは危険にさらされている。それゆえ, PIIのラベルが赤くなり、テーブルの横に感嘆符のマークが付く。

制限事項

  • Scanner Accuracy: PIIスキャナーの精度はメタデータに依存する, データ, およびPIIのタイプ。より正確なPII検出のために, のような説明的なカラム名を使用するのが最も効果的です。 FirstName のような一般的な名前ではなく Col1.

  • Multiple PII Detections: PIIスキャナは、1つの列で複数のPII項目を識別することができる。このため、非PII項目を誤認したり、PIIタイプを誤って分類したりする可能性がある。

  • Selecting PII Types: 現在, ユーザーはスキャンする PII エンティティのタイプを指定できません。Syntho がスキャンする PII エンティティの種類の包括的なリストについては、以下を参照してください。, の項を参照してください。 Supported PII entities.

これらの点を理解することで、PIIスキャナーをよりよく活用し、その限界を認識することができる。

{ヒント style="info" %}。 注意事項: PIIスキャナーは、最初のPII検出のための優れたツールである。, が、すべての機密データを捕捉できるとは限らない。ユーザは、すべての PII が適切に識別されていることを確認するために、徹底的なレビューを行うことをお勧めします。 {エンドヒント}

Last updated