Automatic PII discovery and de-identification in free text columns

{ヒント style="warning" %}。 Caution: この機能を使用すると、データ生成ジョブが大幅に遅くなります。ジョブを高速化するには、入力レコードの数を減らしてください。 {endhint %}。

Syntho がサポートする PII エンティティの詳細については、以下を参照してください。, 見る Supported PII entities.

Syntho PII テキストスキャナーを使う

SynthoのPIIテキストスキャナーを使うには2つの方法があります。列の生成方法と組み合わせて使用する方法です。 Duplicate または AI-powered generation.

重複した列で PII テキストスキャナーを使用する

PIIテキストスキャナーを Duplicate 生成方法, の場合、PIIテキストスキャナが適用された後にカラムが複製されます。これを適用するには:

  1. Column settings > Generation Method, 選ぶ Duplicate. 2.そして, ドロップダウンの下, select the locale PII エンティティの検出に使用する。 3.オプションで, イネーブル Replace PII with mock data. このオプションを有効にすると, PIIは模擬値に置き換えられる。このオプションがdisabled_, PIIにはPIIラベルが付される;

{ヒント style="info" %}。 Note

PIIテキストスキャナーとAI生成機能を併用した場合, これらの手順は、以下の順序で行われる。:

  1. Data Preprocessing: 最初は, レアカテゴリー保護しきい値」や「置換値」などの設定がデータに適用されます。

  2. PII Text Processing: 次のページ, PIIテキストスキャナは、PIIを識別し、処理するためにデータを調べます。

  3. AI-Powered Generation: 最後に, AIが新しいデータを生成する, 処理されたテキスト・カラムを、カテゴリ・エンコーディング・タイプであるかのように扱う。

このシーケンスを理解することで, であれば、生成されるデータがどのようなものになるかをよりよく予想することができる。

です。

PII detection flow

特定の列にPIIテキストスキャナーを適用する場合, Synthoはこれらの列のPII要素を自動的にスキャンする。特定されたPII要素は、模擬データに置き換えることができます。Synthoはスキャンプロセスを改善するために様々なアルゴリズムと方法を採用しています。

以下は、検出プロセスで行われるステップの概要です。, 年代順:

  1. Regex: パターン認識のために。

  2. Named Entity Recognition (NER): 自然言語の PII エンティティを認識する。

  3. Checksums: 検出されたパターンを検証する。

  4. Context words: 検出の確実性を高める。

  5. Label: 検出された PII エンティティに、エンティティの記述子をラベル付けする。

  6. (Optional) Obfuscate: 検出されたPII記述子を模擬データに置き換える。

サポート言語

対応言語 Encoding type > Locale, を使用すると、PIIを含むテキスト列に対してテキスト処理モデルが使用するロケールを定義することができます。

Syntho は以下の言語の PII フィールドの検出と非識別化をサポートしています。 English そして Dutch 自由テキストデータを含む列の

Synthoは、次のような追加を可能にします。 NLP (natural language processing) モデルで、異なる言語のサポートは限られている(次項参照)。

他のNLPモデルを使う(サポートに制限あり)

{ヒント style="info" %}。 Note: デフォルト以外の NLP モデルを使用するには、これらのモデルを取得するためにアクティブなインターネット接続が必要です。 {endhint}

Synthoは主に次の2つのタスクにNLPエンジンを使用します。: NERベースのPII識別, およびカスタムルールベースのロジックのための特徴抽出(検出を改善するためのコンテキストワードの活用など) 

デフォルトでは, 配備のたびに, Synthoは、spaCyの以下のオープンソースモデルを出荷しています。:

  • en_core_web_sm

  • nl_core_news_sm

これらのモデルは、他のNLPモデルを活用することで置き換えることができます。, 公開されているものでも専有されているものでもどちらでもよい。これらのモデルは、以下のような既存のNLPフレームワークからトレーニングまたはダウンロードすることができる。 spaCy, Stanza そして transformers.

Synthoの限定的なサポートにより、ご要望に応じて他のNLPモデルを追加することも可能です。他のモデルを使用すると、PII検出フローとそのパフォーマンスに影響を与えることを覚えておくことが重要です。

制限事項

  • PII Detection and Confidence Score: PIIテキストスキャナは、複数の潜在的なテキストを識別することができる。 Personally Identifiable Information (PII) エンティティがテキスト列内に存在する。この場合, の場合、信頼スコアが最も高いエンティティがユーザに提示される。しかし, 高い信頼性スコアが正確性を保証するものではないことを理解することが重要です。その結果、検出されたPIIのタイプを誤って表示する可能性がある。

  • Internet Requirement for Non-Default NLP Models: 専門的なものを使用する場合 Natural Language Processing (NLP) 異なる言語や地域に対応するモデル, これらのモデルをダウンロードするには、アクティブなインターネット接続が必要です。

  • Detection Methods: スキャナーは、PII検出のために複数の方法によるアプローチを採用している。, の使用を含む Regex パターン, Named Entity Recognition (NER) モデル, チェックサム検証, と文脈語の検討。NERモデルの有効性は学習データによって異なる可能性がある。例えば, ウィキペディアのテキストのみで訓練されたモデルは、医療データに適用するとうまく機能しない可能性がある。

これらの詳細を理解することで, PIIテキストスキャナーがどのように機能し、どのような制限があるのかをよりよく理解することができます。

Last updated