LogoLogo
Go to Syntho.AI
Japanese (AI Translated)
Japanese (AI Translated)
  • Welcome to Syntho
  • 概要
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • ワークスペースの設定
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • データ生成ジョブの設定
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hash
      • Calculated columns
      • Primary Key / Foreign Key
        • Key generators
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • デプロイ・シント
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • サブセット
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • シンセAPI
    • Syntho REST API
Powered by GitBook
On this page
  • シャッフル
  • PIIの検出と難読化
  • Ordering and Indexing Considerations

Was this helpful?

  1. データ生成ジョブの設定
  2. Configure column settings

Duplicate

PreviousSupported languagesNextExclude

Last updated 9 months ago

Was this helpful?

以下 Column settings > Generation Method, 選ぶ Duplicate カラムをコピー元テーブルからコピー先テーブルにそのままコピーする。

{ヒント style="info" %}。 Note: カラムを複製する場合, カラムはトレーニングプロセスでも使用される, 貴重な情報が含まれている可能性があるからだ。

つまり, しかし, カラムを除外することで、ハードウェア要件を削減したり、合成データジョブの速度を向上させたりすることはできません。

を参照してください。

シャッフル

を有効にします。 Shuffle ボタンをクリックして、生成された値をシャッフルする。, 全体的な値の頻度を維持しながら。例えば, 4ハイの場合, 3 ソースデータベースの中位値と低位値, 宛先データベースにも同じ数の値が存在する。, ただし、シャッフルされた順番は異なる。

シャッフル機能はバッチ単位で動作することに注意してください。, 従って、生成バッチサイズに従った各バッチ生成は、独立してシャッフルされる。 Generation Batch Size (デフォルト値は100k)。

以下の点に注意。 NULL 値も明確な値とみなされる, で、他の値と同じようにシャッフルされる。

PIIの検出と難読化

有効にすると, 正しいものを選ぶ Locale, テキストカラムのデータに基づいて, Synthoが適切な言語モデルを使用して、テキストカラム内のPIIを識別し、難読化するようにします。

このオプションを有効にし、適切なロケールを設定した後, 特定されたPIIエンティティは難読化され、宛先テーブルにコピーされる。

Ordering and Indexing Considerations

正確な発注のために, アプリケーションには、ソース・テーブルにインデックスかプライマリ・キーが必要不可欠です。これらがない場合, の場合、アプリケーションのデフォルトはテーブルの最初のカラムに基づいてソートされます。しかし, 最初の列に重複した値がある場合, 順序は保証されません, これは、重複値の処理をデータベースのソート・アルゴリズムに依存しているためです。ソース・テーブルにインデックスを追加することで、この問題は解決されます。

主キーやインデックスが定義されていないテーブルで一貫性のあるマッピングを使用すると、予期しない結果になる可能性があることに注意することが重要です。このような場合, アプリケーションは最初の列を順序付けに使用する, 一意な値を含まないことがある, 非決定論的な結果につながる。

{ヒント style="warning" %}。 Caution_:として同じモデリング技法を用いている。 , PIIを検出して難読化する機能の実行には非常に時間がかかります。 {endhint %}。

トグルを有効にする Detect and obfuscate PII シンセの フリーテキスト情報を含む列のPIIエンティティを検出し、難読化する。

PII text obfuscation module
PII text obfuscation module
生成方法パネルで複製を選択する