LogoLogo
Go to Syntho.AI
Japanese (AI Translated)
Japanese (AI Translated)
  • Welcome to Syntho
  • 概要
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • ワークスペースの設定
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • データ生成ジョブの設定
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hash
      • Calculated columns
      • Primary Key / Foreign Key
        • Key generators
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • デプロイ・シント
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • サブセット
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • シンセAPI
    • Syntho REST API
Powered by GitBook
On this page
  • Syntho PII テキストスキャナーを使う
  • 重複した列で PII テキストスキャナーを使用する
  • PII detection flow
  • サポート言語
  • 他のNLPモデルを使う(サポートに制限あり)
  • 制限事項

Was this helpful?

  1. データ生成ジョブの設定
  2. Manage personally identifiable information (PII)

Automatic PII discovery and de-identification in free text columns

PreviousRemove columns from PII listNextSupported PII & PHI entities

Last updated 10 months ago

Was this helpful?

{ヒント style="warning" %}。 Caution: この機能を使用すると、データ生成ジョブが大幅に遅くなります。ジョブを高速化するには、入力レコードの数を減らしてください。 {endhint %}。

Syntho がサポートする PII エンティティの詳細については、以下を参照してください。, 見る .

Syntho PII テキストスキャナーを使う

SynthoのPIIテキストスキャナーを使うには2つの方法があります。列の生成方法と組み合わせて使用する方法です。 Duplicate または AI-powered generation.

重複した列で PII テキストスキャナーを使用する

PIIテキストスキャナーを Duplicate 生成方法, の場合、PIIテキストスキャナが適用された後にカラムが複製されます。これを適用するには:

  1. Column settings > Generation Method, 選ぶ Duplicate. 2.そして, ドロップダウンの下, select the locale PII エンティティの検出に使用する。 3.オプションで, イネーブル Replace PII with mock data. このオプションを有効にすると, PIIは模擬値に置き換えられる。このオプションがdisabled_, PIIにはPIIラベルが付される;

{ヒント style="info" %}。 Note

PIIテキストスキャナーとAI生成機能を併用した場合, これらの手順は、以下の順序で行われる。:

  1. Data Preprocessing: 最初は, レアカテゴリー保護しきい値」や「置換値」などの設定がデータに適用されます。

  2. PII Text Processing: 次のページ, PIIテキストスキャナは、PIIを識別し、処理するためにデータを調べます。

  3. AI-Powered Generation: 最後に, AIが新しいデータを生成する, 処理されたテキスト・カラムを、カテゴリ・エンコーディング・タイプであるかのように扱う。

このシーケンスを理解することで, であれば、生成されるデータがどのようなものになるかをよりよく予想することができる。

です。

PII detection flow

特定の列にPIIテキストスキャナーを適用する場合, Synthoはこれらの列のPII要素を自動的にスキャンする。特定されたPII要素は、模擬データに置き換えることができます。Synthoはスキャンプロセスを改善するために様々なアルゴリズムと方法を採用しています。

以下は、検出プロセスで行われるステップの概要です。, 年代順:

  1. Regex: パターン認識のために。

  2. Named Entity Recognition (NER): 自然言語の PII エンティティを認識する。

  3. Checksums: 検出されたパターンを検証する。

  4. Context words: 検出の確実性を高める。

  5. Label: 検出された PII エンティティに、エンティティの記述子をラベル付けする。

  6. (Optional) Obfuscate: 検出されたPII記述子を模擬データに置き換える。

サポート言語

対応言語 Encoding type > Locale, を使用すると、PIIを含むテキスト列に対してテキスト処理モデルが使用するロケールを定義することができます。

Syntho は以下の言語の PII フィールドの検出と非識別化をサポートしています。 English そして Dutch 自由テキストデータを含む列の

Synthoは、次のような追加を可能にします。 NLP (natural language processing) モデルで、異なる言語のサポートは限られている(次項参照)。

他のNLPモデルを使う(サポートに制限あり)

{ヒント style="info" %}。 Note: デフォルト以外の NLP モデルを使用するには、これらのモデルを取得するためにアクティブなインターネット接続が必要です。 {endhint}

Synthoは主に次の2つのタスクにNLPエンジンを使用します。: NERベースのPII識別, およびカスタムルールベースのロジックのための特徴抽出(検出を改善するためのコンテキストワードの活用など) 

デフォルトでは, 配備のたびに, Synthoは、spaCyの以下のオープンソースモデルを出荷しています。:

  • en_core_web_sm

  • nl_core_news_sm

Synthoの限定的なサポートにより、ご要望に応じて他のNLPモデルを追加することも可能です。他のモデルを使用すると、PII検出フローとそのパフォーマンスに影響を与えることを覚えておくことが重要です。

制限事項

  • PII Detection and Confidence Score: PIIテキストスキャナは、複数の潜在的なテキストを識別することができる。 Personally Identifiable Information (PII) エンティティがテキスト列内に存在する。この場合, の場合、信頼スコアが最も高いエンティティがユーザに提示される。しかし, 高い信頼性スコアが正確性を保証するものではないことを理解することが重要です。その結果、検出されたPIIのタイプを誤って表示する可能性がある。

  • Internet Requirement for Non-Default NLP Models: 専門的なものを使用する場合 Natural Language Processing (NLP) 異なる言語や地域に対応するモデル, これらのモデルをダウンロードするには、アクティブなインターネット接続が必要です。

  • Detection Methods: スキャナーは、PII検出のために複数の方法によるアプローチを採用している。, の使用を含む Regex パターン, Named Entity Recognition (NER) モデル, チェックサム検証, と文脈語の検討。NERモデルの有効性は学習データによって異なる可能性がある。例えば, ウィキペディアのテキストのみで訓練されたモデルは、医療データに適用するとうまく機能しない可能性がある。

これらの詳細を理解することで, PIIテキストスキャナーがどのように機能し、どのような制限があるのかをよりよく理解することができます。

これらのモデルは、他のNLPモデルを活用することで置き換えることができます。, 公開されているものでも専有されているものでもどちらでもよい。これらのモデルは、以下のような既存のNLPフレームワークからトレーニングまたはダウンロードすることができる。 , そして .

spaCy
Stanza
transformers
Supported PII entities
発電方法パネル