LogoLogo
Go to Syntho.AI
Japanese (AI Translated)
Japanese (AI Translated)
  • Welcome to Syntho
  • 概要
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • ワークスペースの設定
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • データ生成ジョブの設定
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hash
      • Calculated columns
      • Primary Key / Foreign Key
        • Key generators
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • デプロイ・シント
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • サブセット
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • シンセAPI
    • Syntho REST API
Powered by GitBook
On this page
  • 鍵生成法による個人識別の解除: 重複
  • キー生成メソッドによる非識別化: ハッシュ
  • キー生成メソッドによる非識別化: 生成する(推奨しない)
  • 鍵生成法を用いたシーケンスモデルによる合成: 生成する
  • キー生成法を用いたシーケンスモデルによる合成: 重複 / ハッシュ
  • キー生成法を用いた単一テーブルモデルによる合成: 生成する
  • キー生成法を用いた単一テーブルモデルによる合成: ハッシュ/重複

Was this helpful?

  1. データ生成ジョブの設定
  2. Configure column settings
  3. Primary Key / Foreign Key

Key generators

PreviousPrimary Key / Foreign KeyNextManage personally identifiable information (PII)

Last updated 9 months ago

Was this helpful?

ここでは、さまざまな鍵生成方法の違いと、参照整合性の保持とテーブル間の関係に与える影響を可視化することを目的とする。, 説明のために簡単なサンプルデータを使用する。実際のシナリオ, データの方がはるかに大きい。

鍵生成法による個人識別の解除: 重複

このメソッドでは, 主キー(PK)と外部キー(FK)は、ソースデータと全く同じように複製される。, 元の関係を維持する。

Preservation of Keys: 非識別化データの主キー(ID)と外部キー(患者ID)は、元データのものと完全に重複している  

Referential Integrity: キーは変更されないので、PatientsテーブルとMedicationsテーブルの間の関係は保持されます;

Consistency: キーは重複しているので, 参照整合性が維持される, Medicationsテーブルの各外部キーがPatientsテーブルの既存の主キーに対応していることを確認する。

キー生成メソッドによる非識別化: ハッシュ

このメソッドでは, 主キー(PK)と外部キー(FK)は、ハッシュ関数を使って変換される。これにより、キーを匿名化しながら参照整合性を保つことができる。主キーと外部キーはハッシュ化される。, キーを匿名化しながら、テーブル間の関係を保持する。

Preservation of Keys: 主キー(ID)と外部キー(患者ID)は、ハッシュ関数を使って変換される。, テーブルの参照整合性を維持しながら、匿名化されていることを保証する。PatientsテーブルとMedicationsテーブルの関係は、Medicationsテーブルのハッシュ化された外部キーがPatientsテーブルのハッシュ化された主キーに対応するため、維持される。ハッシュ関数は一貫して同じオリジナルキーを同じハッシュキーにマッピングする。, テーブル間の関係の整合性を維持する;

Referential Integrity: PatientsテーブルとMedicationsテーブルの関係は、Medicationsテーブルのハッシュ化された外部キーがPatientsテーブルのハッシュ化された主キーと一致するため、保持されます;

Consistency: ハッシュ関数は一貫して同じオリジナル・キーを同じハッシュ・キーにマッピングする。, テーブル間の関係の整合性を維持する。

キー生成メソッドによる非識別化: 生成する(推奨しない)

このメソッドでは, 完全に新しいキー値が生成される, これは参照整合性は保つが、元のキー値の順序は維持しない。主キーと外部キーの両方に新しいキーが生成される。, 参照整合性は保たれるが、元の順序は保たれない。

Generation of New Keys: 新しい主キー(ID)と外部キー(患者ID)が生成される。, そのため、元の順番を維持することはできない;

Referential Integrity: PatientsテーブルとMedicationsテーブルの間の関係は、Medicationsテーブルの外部キーがPatientsテーブルの新しい主キーに対応するため、保持されます;

Order of Keys: 新しいキーは元の順序を維持しない。Medicationsテーブルの外部キーはPatientsテーブルの主キーに基づいて生成され、"タイリング "メソッドを使用してMedicationsテーブルに一様に割り当てられます。これはIDが均一なパターンで繰り返されることを意味します。, 101のような, 102, 103, 104, 105, 101, 102, 103, 104, 105, その他

鍵生成法を用いたシーケンスモデルによる合成: 生成する

このメソッドでは, まったく新しいキー値とキー以外の値の組み合わせが生成される, これは、参照整合性とすべてのカラム間のリレーションを保持します。, しかし、キー値の元の順序は維持されない。統計的特性や他のカラムとの関係も保持されます。主キー, 外部キー, およびキー以外の値の組み合わせ。すべてのカラム間の関係は保持される。

Generation of New Values: 新しい主キー(ID), 外部キー(患者ID), とキー以外の値の組み合わせ(性別, 国名, 薬, 理由)が生成される。合成カラムには元のカラムの値が残っているかもしれませんが, 生成された行(すなわち, 値の組み合わせ)は、学習された生成モデルによって完全に新しく生成される;

Referential Integrity: PatientsテーブルとMedicationsテーブルの間の関係は、Medicationsテーブルの外部キーがPatientsテーブルの新しい主キーに対応するため、保持されます;

Order of Keys: 新しいキーは元の順序を維持しない。これは、シーケンスモデルを使用しない生成オプションにのみ適用されます。シーケンスモデルはタイリング法を適用しない。  

Statistical Properties: キー以外の値の組み合わせはまったく新しいものだが, 統計的特性(例, 度数分布, 分散)は維持される, 他の列との関係も同様である;

Relationships Between Non-Key Columns: 全カラム間の関係, 例えば、MedicationとReasonの間、外部キーと他のカラムの間などである。, は生成されたデータに保存される。

キー生成法を用いたシーケンスモデルによる合成: 重複 / ハッシュ

このメソッドでは, 非キー・カラムにはまったく新しいデータを生成する一方で、キー値は複製されるかハッシュ化される。これにより、参照整合性と非キーカラム間の関係は保持されるが、キーカラムと非キーカラム間の関係は保持されない。非キーカラムには新しい値が生成される, キーは複製されるかハッシュ化される, 関係や統計的特性は保持するが、非キー値の元の順序や、キー列と非キー列の関係は保持しない。

Duplication/Hashing of Keys: 主キー(ID)と外部キー(患者ID)は重複しているか、ハッシュ化されている。, 一意であることを保証し、参照整合性を維持する。しかし, 非キー値の組み合わせは、学習された生成モデルによって新たに生成される;

Generation of New Non-Key Values: キー以外の値 (Gender, 国名, 薬, 理由)はモデルによって生成される。, 一方、合成カラムには元のカラムの値が残っている可能性がある;

Referential Integrity: Medicationsテーブルの外部キーはPatientsテーブルの主キーに対応しているため、PatientsテーブルとMedicationsテーブルの関係は保持されます;

Statistical Properties: キー以外の値の組み合わせはまったく新しいものだが, 統計的特性(例, 度数分布, 分散)は維持される, 他の非キーカラムとの関係も同様である;

Relationships Between Non-Key Columns: MedicationとReasonのような非キー列間のリレーションシップは、生成されたデータで保持されます。しかし, キー・カラムと非キー・カラムの間の関係は、キー・カラムが元のデータとまったく同じ順序を維持するため、保持されない。, 一方、キー以外の列はまったく新しく生成された。

キー生成法を用いた単一テーブルモデルによる合成: 生成する

このメソッドでは, 単一のテーブルモデルに対して、まったく新しいキー値と非キー値の組み合わせが生成される。, 非キー列と統計的特性との間の関係の保持, ただし、非キー値の元の順序は維持しない。新しい値は、主キーとキー以外の値の組み合わせの両方に対して生成される。, 非キー列と統計的特性との間の関係の保持, しかし、キー以外の値の元の順序は違う。

Generation of New Values: 新しい主キー(ID), 外部キー(患者ID), とキー以外の値の組み合わせ(性別, 国名, 薬, 理由)が生成される。合成カラムには元のカラムの値が残っているかもしれませんが, 生成された行(すなわち, 値の組み合わせ)は、学習された生成モデルによって完全に新しく生成される;

Referential Integrity: PatientsテーブルとMedicationsテーブルの間の関係は、Medicationsテーブルの外部キーがPatientsテーブルの新しい主キーに対応するため、保持されます;

Order of Keys: 新しいキーは元の順序を維持しない。Medicationsテーブルの外部キーはPatientsテーブルの主キーに基づいて生成され、"タイリング "メソッドを使用してMedicationsテーブルに一律に割り当てられます。, 201, 202, 203, 204, 205, 201, 202, 203, 204, 205, その他, これは、元の行と1対1の関係がないことを示している;

Statistical Properties: キー以外の値の組み合わせはまったく新しいものだが, 統計的特性(例, 度数分布, 分散)は維持される, 他の非キーカラムとの関係も同様である;

Relationships Between Non-Key Columns: 生成されたデータには、投薬と理由の関係などが保持される。

キー生成法を用いた単一テーブルモデルによる合成: ハッシュ/重複

このメソッドでは, キーの値はハッシュ化されるか複製されるが、非キー・カラムにはまったく新しいデータが生成される。これにより、参照整合性と非キーカラム間のリレーションシップが保持される。, しかし、非キー値の元の順序は維持されない。データの統計的特性は保持される。非キー列には新しい値が生成される, キーは複製されるかハッシュ化される, 関係や統計的特性は保持するが、非キー値の元の順序は保持しない。

Duplication/Hashing of Keys: 主キー(ID)と外部キー(患者ID)は重複しているか、ハッシュ化されている。, 一意であることを保証し、参照整合性を維持する;

Generation of New Non-Key Values: まったく新しいキー以外の値(性別, 国名, 薬, 理由)が生成される;

Referential Integrity: Medicationsテーブルの外部キーはPatientsテーブルの主キーに対応しているため、PatientsテーブルとMedicationsテーブルの関係は保持されます;

Statistical Properties: キー以外の値はまったく新しいものだが, 統計的特性(例, 度数分布, 分散)は維持される;

Relationships Between Non-Key Columns: 生成されたデータには、投薬と理由の関係などが保持される。

非識別化における鍵生成方法としての複製
非識別化における鍵生成方法としてのハッシュ
非識別化における鍵生成方法として生成する。
シーケンスモデルを合成する際のキー生成方法として生成する。
配列モデルを合成する際のキー生成方法としての複製/ハッシュ
単一テーブルモデルを合成する際のキー生成方法として生成する。
単一テーブルモデルを合成する際のキー生成方法としてのハッシュ/デュプリケート