Introduction to data generation methods
Last updated
Last updated
Synthoプラットフォームは、様々なシナリオに対応した様々なデータ生成方法を提供します。, データの性質を考慮する, プライバシーに関する懸念, および具体的な使用例, これにより、ユーザーは最も適切なオプションを選択することができる。要約表は、これらの方法の概要を示している。, その関連性と使用シナリオを以下に詳述する。データ生成方法のいずれかを選択すると、詳細なユーザーガイドのセクションに転送されます。
データ作成方法 | 説明 | 使用時期 | 使用しない場合 |
---|---|---|---|
以下の特徴が、スマートな非識別化とルールベースの合成データ手法の鍵となる。
主な特徴 | 説明 | 使用時期 | 使用しない場合 |
---|---|---|---|
実際の野球データセットを用いて、それぞれの生成方法の適用を実証する。, を含む。 players そして seasons テーブル
最初の例では, を見ると、元のデータセットに基づいて生成AIモデルによって全く新しい合成データセットが生成されたことがわかる。この合成データセットは、元のデータセットの統計量を保持している。, しかし、1がない:への:1 合成レコードとオリジナルレコードの対応。AIが生成した合成データ, レアカテゴリー置換値10が適用された。つまり nameFirst
そして nameLast
カラムはプライバシー保護のためアスタリスクに置き換えられている。
モッカーは選手表の特定の列に適用される, 上の表では黄色でハイライトされている: 国, 誕生日, 死亡日, 'nameFirst', と'nameLast'。
を有効にした場合 consistent mapping, の場合、値はテーブル間で一貫して同じ値にマップされます。例えば, つのカラムに対して一貫したマッピングを可能にした。: "nameFirst "と "nameLast"。元の名前と同じ合成名と姓(モッカー)を生成したい。以下のMySQLテーブルの図を参照。, ビル・ケネディ」を「ダニエル・オルソン」にマッピングする。
他の名前も "Danielle "や "Olson "にマッピングできることに注意してください。, シンセが "ビル "を検出するたびに, を入力すると、常にモッカー姓の「ダニエル」に置き換わる。姓の列の "Kennedy "と "Olson "も同様である。他のカラムについても、ソースからデスティネーションへ変更することなく複製されるため、一貫性を検証することができる。, これにより、オリジナル表と合成表を照合し、整合性をよりよく理解することができる。
Calculated columns データに対する幅広い操作を可能にする, 単純な算術計算から複雑な論理・統計計算まで。上の図では, 次の操作が適用される。:
IFNA(IFS(height>74, "Tall", height>72, "Medium", height>70, "Small"), "NA")
AIが生成する合成データは、まったく新しい人工的なデータで構成される。, が、元のデータポイントとは1対1の関係はない。
MLモデル開発のための合成特徴データセットの生成
元の統計分布を維持しながらデータセットサイズを拡大する
統計的な正確さと最大限のプライバシーが必要な場合
相互に関連する複数のテーブルを扱う場合
システム間でデータの一貫性が必要な場合
元の記録に戻す必要がある場合
まったく新しい場合, 未知のカテゴリーを生成しなければならない
を使用したスマートなデアイデンティフィケーション (を使用して PIIスキャナー, 一貫性のあるマッピング, モッカーズ そして 計算カラム)
データベース内の最も機密性の高いデータ列(PII/PHIなど)をスマートに発見し、保護します。
テーブル間のデータの一貫性, システム, データ生成の仕事は保存されなければならない
社内で大規模かつ複雑なデータベースを扱う場合
データセットサイズを拡大する(アップサンプリングなど)
データに機密性がない場合
ユーザー定義のロジックとルールに基づいて、ゼロからデータを生成します。
実際のデータがまだない場合
既存のデータを拡張または強化する
分析またはMLモデリングに使用されるデータとして
まったく新しいものを生み出す, ユーザー定義値
元の列の値の関係を保持せずにカスタムデータを生成する場合
オリジナルデータとの関係を維持する必要がある場合
元の値から一貫してマッピングされたモック値を生成する(例えば、ハンクは常にジェフリーになる)。
テーブル間のデータの一貫性を確保する, システムおよびデータ生成の仕事
完全にランダムなデータの場合, 一貫性を求めない
カスタムロジックに基づくユーザー定義値の生成
特定のビジネスロジックを必要とする複雑なデータ操作
カスタム・ロジックを必要としないシンプルなデータ生成タスク用
PIIスキャナー
データベース内の最も機密性の高い(PII/PHIなど)カラムの自動検出
最も機密性の高い列(PII / PHIなど)を発見する。
データが機密でない場合