LogoLogo
Go to Syntho.AI
Japanese (AI Translated)
Japanese (AI Translated)
  • Welcome to Syntho
  • 概要
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • ワークスペースの設定
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • データ生成ジョブの設定
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hash
      • Calculated columns
      • Primary Key / Foreign Key
        • Key generators
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • デプロイ・シント
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • サブセット
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • シンセAPI
    • Syntho REST API
Powered by GitBook
On this page
  • 異なる生成方法で生成されたデータの比較
  • AI-generated synthetic data を選手テーブルに適用する。
  • Mockers は選手テーブルに適用される
  • Consistent Mapping with Mockers を選手テーブルに適用する。
  • Calculated Columns

Was this helpful?

  1. 概要
  2. Get started

Introduction to data generation methods

PreviousGet startedNextUse Case: AI-generated synthetic data

Last updated 9 months ago

Was this helpful?

Synthoプラットフォームは、様々なシナリオに対応した様々なデータ生成方法を提供します。, データの性質を考慮する, プライバシーに関する懸念, および具体的な使用例, これにより、ユーザーは最も適切なオプションを選択することができる。要約表は、これらの方法の概要を示している。, その関連性と使用シナリオを以下に詳述する。データ生成方法のいずれかを選択すると、詳細なユーザーガイドのセクションに転送されます。

データ作成方法
説明
使用時期
使用しない場合

AIが生成する合成データは、まったく新しい人工的なデータで構成される。, が、元のデータポイントとは1対1の関係はない。

  • MLモデル開発のための合成特徴データセットの生成

  • 元の統計分布を維持しながらデータセットサイズを拡大する

  • 統計的な正確さと最大限のプライバシーが必要な場合

  • 相互に関連する複数のテーブルを扱う場合

  • システム間でデータの一貫性が必要な場合

  • 元の記録に戻す必要がある場合

  • まったく新しい場合, 未知のカテゴリーを生成しなければならない

データベース内の最も機密性の高いデータ列(PII/PHIなど)をスマートに発見し、保護します。

  • テーブル間のデータの一貫性, システム, データ生成の仕事は保存されなければならない

  • 社内で大規模かつ複雑なデータベースを扱う場合

  • データセットサイズを拡大する(アップサンプリングなど)

  • データに機密性がない場合

ユーザー定義のロジックとルールに基づいて、ゼロからデータを生成します。

  • 実際のデータがまだない場合

  • 既存のデータを拡張または強化する

  • 分析またはMLモデリングに使用されるデータとして

以下の特徴が、スマートな非識別化とルールベースの合成データ手法の鍵となる。

主な特徴
説明
使用時期
使用しない場合

まったく新しいものを生み出す, ユーザー定義値

元の列の値の関係を保持せずにカスタムデータを生成する場合

オリジナルデータとの関係を維持する必要がある場合

元の値から一貫してマッピングされたモック値を生成する(例えば、ハンクは常にジェフリーになる)。

テーブル間のデータの一貫性を確保する, システムおよびデータ生成の仕事

完全にランダムなデータの場合, 一貫性を求めない

カスタムロジックに基づくユーザー定義値の生成

特定のビジネスロジックを必要とする複雑なデータ操作

カスタム・ロジックを必要としないシンプルなデータ生成タスク用

データベース内の最も機密性の高い(PII/PHIなど)カラムの自動検出

最も機密性の高い列(PII / PHIなど)を発見する。

データが機密でない場合

異なる生成方法で生成されたデータの比較

実際の野球データセットを用いて、それぞれの生成方法の適用を実証する。, を含む。 players そして seasons テーブル

最初の例では, を見ると、元のデータセットに基づいて生成AIモデルによって全く新しい合成データセットが生成されたことがわかる。この合成データセットは、元のデータセットの統計量を保持している。, しかし、1がない:への:1 合成レコードとオリジナルレコードの対応。AIが生成した合成データ, レアカテゴリー置換値10が適用された。つまり nameFirstそして nameLast カラムはプライバシー保護のためアスタリスクに置き換えられている。

モッカーは選手表の特定の列に適用される, 上の表では黄色でハイライトされている: 国, 誕生日, 死亡日, 'nameFirst', と'nameLast'。

他の名前も "Danielle "や "Olson "にマッピングできることに注意してください。, シンセが "ビル "を検出するたびに, を入力すると、常にモッカー姓の「ダニエル」に置き換わる。姓の列の "Kennedy "と "Olson "も同様である。他のカラムについても、ソースからデスティネーションへ変更することなく複製されるため、一貫性を検証することができる。, これにより、オリジナル表と合成表を照合し、整合性をよりよく理解することができる。

IFNA(IFS(height>74, "Tall", height>72, "Medium", height>70, "Small"), "NA")

&

(を使用して , , そして )

ルールに基づく合成データ そして )

を選手テーブルに適用する。

は選手テーブルに適用される

を選手テーブルに適用する。

を有効にした場合 , の場合、値はテーブル間で一貫して同じ値にマップされます。例えば, つのカラムに対して一貫したマッピングを可能にした。: "nameFirst "と "nameLast"。元の名前と同じ合成名と姓(モッカー)を生成したい。以下のMySQLテーブルの図を参照。, ビル・ケネディ」を「ダニエル・オルソン」にマッピングする。

データに対する幅広い操作を可能にする, 単純な算術計算から複雑な論理・統計計算まで。上の図では, 次の操作が適用される。:

AI-generated synthetic data
Mockers
Consistent Mapping with Mockers
consistent mapping
Calculated Columns
Calculated columns
PIIスキャナー
AIが生成した合成データ
AIが生成した合成時系列データ
PIIスキャナー
を使用したスマートなデアイデンティフィケーション
一貫性のあるマッピング
モッカーズ
計算カラム
モッカーズ
計算カラム
モッカーズ
モッカーによる一貫したマッピング
計算カラム
選手表の列
AIが作成した合成データを選手に適用
モッカーを選手表に適用
選手テーブルの "nameFirst "というカラムのカラム設定で一貫性のあるマッピングを有効にする
モッカーとの一貫したマッピングが選手表に適用される