Introduction to data generation methods
Last updated
Last updated
Synthoプラットフォームは、様々なシナリオに対応した様々なデータ生成方法を提供します。, データの性質を考慮する, プライバシーに関する懸念, および具体的な使用例, これにより、ユーザーは最も適切なオプションを選択することができる。要約表は、これらの方法の概要を示している。, その関連性と使用シナリオを以下に詳述する。データ生成方法のいずれかを選択すると、詳細なユーザーガイドのセクションに転送されます。
データ作成方法 | 説明 | 使用時期 | 使用しない場合 |
---|---|---|---|
AIが生成する合成データは、まったく新しい人工的なデータで構成される。, が、元のデータポイントとは1対1の関係はない。 |
|
| |
を使用したスマートなデアイデンティフィケーション (を使用して PIIスキャナー, 一貫性のあるマッピング, モッカーズ そして 計算カラム) | データベース内の最も機密性の高いデータ列(PII/PHIなど)をスマートに発見し、保護します。 |
|
|
ユーザー定義のロジックとルールに基づいて、ゼロからデータを生成します。 |
|
|
以下の特徴が、スマートな非識別化とルールベースの合成データ手法の鍵となる。
主な特徴 | 説明 | 使用時期 | 使用しない場合 |
---|---|---|---|
まったく新しいものを生み出す, ユーザー定義値 | 元の列の値の関係を保持せずにカスタムデータを生成する場合 | オリジナルデータとの関係を維持する必要がある場合 | |
元の値から一貫してマッピングされたモック値を生成する(例えば、ハンクは常にジェフリーになる)。 | テーブル間のデータの一貫性を確保する, システムおよびデータ生成の仕事 | 完全にランダムなデータの場合, 一貫性を求めない | |
カスタムロジックに基づくユーザー定義値の生成 | 特定のビジネスロジックを必要とする複雑なデータ操作 | カスタム・ロジックを必要としないシンプルなデータ生成タスク用 | |
PIIスキャナー | データベース内の最も機密性の高い(PII/PHIなど)カラムの自動検出 | 最も機密性の高い列(PII / PHIなど)を発見する。 | データが機密でない場合 |
実際の野球データセットを用いて、それぞれの生成方法の適用を実証する。, を含む。 players そして seasons テーブル
最初の例では, を見ると、元のデータセットに基づいて生成AIモデルによって全く新しい合成データセットが生成されたことがわかる。この合成データセットは、元のデータセットの統計量を保持している。, しかし、1がない:への:1 合成レコードとオリジナルレコードの対応。AIが生成した合成データ, レアカテゴリー置換値10が適用された。つまり nameFirst
そして nameLast
カラムはプライバシー保護のためアスタリスクに置き換えられている。
モッカーは選手表の特定の列に適用される, 上の表では黄色でハイライトされている: 国, 誕生日, 死亡日, 'nameFirst', と'nameLast'。
を有効にした場合 consistent mapping, の場合、値はテーブル間で一貫して同じ値にマップされます。例えば, つのカラムに対して一貫したマッピングを可能にした。: "nameFirst "と "nameLast"。元の名前と同じ合成名と姓(モッカー)を生成したい。以下のMySQLテーブルの図を参照。, ビル・ケネディ」を「ダニエル・オルソン」にマッピングする。
他の名前も "Danielle "や "Olson "にマッピングできることに注意してください。, シンセが "ビル "を検出するたびに, を入力すると、常にモッカー姓の「ダニエル」に置き換わる。姓の列の "Kennedy "と "Olson "も同様である。他のカラムについても、ソースからデスティネーションへ変更することなく複製されるため、一貫性を検証することができる。, これにより、オリジナル表と合成表を照合し、整合性をよりよく理解することができる。
Calculated columns データに対する幅広い操作を可能にする, 単純な算術計算から複雑な論理・統計計算まで。上の図では, 次の操作が適用される。:
IFNA(IFS(height>74, "Tall", height>72, "Medium", height>70, "Small"), "NA")