Introduction to data generation methods

Synthoプラットフォームは、様々なシナリオに対応した様々なデータ生成方法を提供します。, データの性質を考慮する, プライバシーに関する懸念, および具体的な使用例, これにより、ユーザーは最も適切なオプションを選択することができる。要約表は、これらの方法の概要を示している。, その関連性と使用シナリオを以下に詳述する。データ生成方法のいずれかを選択すると、詳細なユーザーガイドのセクションに転送されます。

データ作成方法	説明	使用時期	使用しない場合
AIが生成した合成データ & AIが生成した合成時系列データ	AIが生成する合成データは、まったく新しい人工的なデータで構成される。, が、元のデータポイントとは1対1の関係はない。	MLモデル開発のための合成特徴データセットの生成元の統計分布を維持しながらデータセットサイズを拡大する統計的な正確さと最大限のプライバシーが必要な場合	相互に関連する複数のテーブルを扱う場合システム間でデータの一貫性が必要な場合元の記録に戻す必要がある場合まったく新しい場合, 未知のカテゴリーを生成しなければならない
を使用したスマートなデアイデンティフィケーション (を使用して PIIスキャナー, 一貫性のあるマッピング, モッカーズそして計算カラム)	データベース内の最も機密性の高いデータ列（PII/PHIなど）をスマートに発見し、保護します。	テーブル間のデータの一貫性, システム, データ生成の仕事は保存されなければならない社内で大規模かつ複雑なデータベースを扱う場合	データセットサイズを拡大する（アップサンプリングなど）データに機密性がない場合
ルールに基づく合成データモッカーズそして計算カラム)	ユーザー定義のロジックとルールに基づいて、ゼロからデータを生成します。	実際のデータがまだない場合既存のデータを拡張または強化する	分析またはMLモデリングに使用されるデータとして

データ作成方法

説明

使用時期

使用しない場合

AIが生成した合成データ & AIが生成した合成時系列データ

AIが生成する合成データは、まったく新しい人工的なデータで構成される。, が、元のデータポイントとは1対1の関係はない。

MLモデル開発のための合成特徴データセットの生成
元の統計分布を維持しながらデータセットサイズを拡大する
統計的な正確さと最大限のプライバシーが必要な場合

相互に関連する複数のテーブルを扱う場合
システム間でデータの一貫性が必要な場合
元の記録に戻す必要がある場合
まったく新しい場合, 未知のカテゴリーを生成しなければならない

を使用したスマートなデアイデンティフィケーション (を使用して PIIスキャナー, 一貫性のあるマッピング, モッカーズそして計算カラム)

データベース内の最も機密性の高いデータ列（PII/PHIなど）をスマートに発見し、保護します。

テーブル間のデータの一貫性, システム, データ生成の仕事は保存されなければならない
社内で大規模かつ複雑なデータベースを扱う場合

データセットサイズを拡大する（アップサンプリングなど）
データに機密性がない場合

ルールに基づく合成データモッカーズそして計算カラム)

ユーザー定義のロジックとルールに基づいて、ゼロからデータを生成します。

実際のデータがまだない場合
既存のデータを拡張または強化する

分析またはMLモデリングに使用されるデータとして

以下の特徴が、スマートな非識別化とルールベースの合成データ手法の鍵となる。

主な特徴	説明	使用時期	使用しない場合
モッカーズ	まったく新しいものを生み出す, ユーザー定義値	元の列の値の関係を保持せずにカスタムデータを生成する場合	オリジナルデータとの関係を維持する必要がある場合
モッカーによる一貫したマッピング	元の値から一貫してマッピングされたモック値を生成する（例えば、ハンクは常にジェフリーになる）。	テーブル間のデータの一貫性を確保する, システムおよびデータ生成の仕事	完全にランダムなデータの場合, 一貫性を求めない
計算カラム	カスタムロジックに基づくユーザー定義値の生成	特定のビジネスロジックを必要とする複雑なデータ操作	カスタム・ロジックを必要としないシンプルなデータ生成タスク用
PIIスキャナー	データベース内の最も機密性の高い（PII/PHIなど）カラムの自動検出	最も機密性の高い列（PII / PHIなど）を発見する。	データが機密でない場合

主な特徴

説明

使用時期

使用しない場合

モッカーズ

まったく新しいものを生み出す, ユーザー定義値

元の列の値の関係を保持せずにカスタムデータを生成する場合

オリジナルデータとの関係を維持する必要がある場合

モッカーによる一貫したマッピング

元の値から一貫してマッピングされたモック値を生成する（例えば、ハンクは常にジェフリーになる）。

テーブル間のデータの一貫性を確保する, システムおよびデータ生成の仕事

完全にランダムなデータの場合, 一貫性を求めない

計算カラム

カスタムロジックに基づくユーザー定義値の生成

特定のビジネスロジックを必要とする複雑なデータ操作

カスタム・ロジックを必要としないシンプルなデータ生成タスク用

PIIスキャナー

データベース内の最も機密性の高い（PII/PHIなど）カラムの自動検出

最も機密性の高い列（PII / PHIなど）を発見する。

データが機密でない場合

異なる生成方法で生成されたデータの比較

実際の野球データセットを用いて、それぞれの生成方法の適用を実証する。, を含む。 players そして seasons テーブル

AI-generated synthetic data を選手テーブルに適用する。

最初の例では, を見ると、元のデータセットに基づいて生成AIモデルによって全く新しい合成データセットが生成されたことがわかる。この合成データセットは、元のデータセットの統計量を保持している。, しかし、1がない:への:1 合成レコードとオリジナルレコードの対応。AIが生成した合成データ, レアカテゴリー置換値10が適用された。つまり nameFirstそして nameLast カラムはプライバシー保護のためアスタリスクに置き換えられている。

Mockers は選手テーブルに適用される

モッカーは選手表の特定の列に適用される, 上の表では黄色でハイライトされている: 国, 誕生日, 死亡日, 'nameFirst', と'nameLast'。

Consistent Mapping with Mockers を選手テーブルに適用する。

を有効にした場合 consistent mapping, の場合、値はテーブル間で一貫して同じ値にマップされます。例えば, つのカラムに対して一貫したマッピングを可能にした。: "nameFirst "と "nameLast"。元の名前と同じ合成名と姓（モッカー）を生成したい。以下のMySQLテーブルの図を参照。, ビル・ケネディ」を「ダニエル・オルソン」にマッピングする。

他の名前も "Danielle "や "Olson "にマッピングできることに注意してください。, シンセが "ビル "を検出するたびに, を入力すると、常にモッカー姓の「ダニエル」に置き換わる。姓の列の "Kennedy "と "Olson "も同様である。他のカラムについても、ソースからデスティネーションへ変更することなく複製されるため、一貫性を検証することができる。, これにより、オリジナル表と合成表を照合し、整合性をよりよく理解することができる。

Calculated Columns

Calculated columns データに対する幅広い操作を可能にする, 単純な算術計算から複雑な論理・統計計算まで。上の図では, 次の操作が適用される。:

IFNA(IFS(height>74, "Tall", height>72, "Medium", height>70, "Small"), "NA")

PreviousGet started NextUse Case: AI-generated synthetic data

Last updated 1 month ago