Duplicate

以下 Column settings > Generation Method, 選ぶ Duplicate カラムをコピー元テーブルからコピー先テーブルにそのままコピーする。

{ヒント style="info" %}。 Note: カラムを複製する場合, カラムはトレーニングプロセスでも使用される, 貴重な情報が含まれている可能性があるからだ。

つまり, しかし, カラムを除外することで、ハードウェア要件を削減したり、合成データジョブの速度を向上させたりすることはできません。

を参照してください。

シャッフル

を有効にします。 Shuffle ボタンをクリックして、生成された値をシャッフルする。, 全体的な値の頻度を維持しながら。例えば, 4ハイの場合, 3 ソースデータベースの中位値と低位値, 宛先データベースにも同じ数の値が存在する。, ただし、シャッフルされた順番は異なる。

シャッフル機能はバッチ単位で動作することに注意してください。, 従って、生成バッチサイズに従った各バッチ生成は、独立してシャッフルされる。 Generation Batch Size (デフォルト値は100k)。

以下の点に注意。 NULL 値も明確な値とみなされる, で、他の値と同じようにシャッフルされる。

PIIの検出と難読化

{ヒント style="warning" %}。 Caution_:として同じモデリング技法を用いている。 PII text obfuscation module, PIIを検出して難読化する機能の実行には非常に時間がかかります。 {endhint %}。

トグルを有効にする Detect and obfuscate PII シンセの PII text obfuscation module フリーテキスト情報を含む列のPIIエンティティを検出し、難読化する。

有効にすると, 正しいものを選ぶ Locale, テキストカラムのデータに基づいて, Synthoが適切な言語モデルを使用して、テキストカラム内のPIIを識別し、難読化するようにします。

このオプションを有効にし、適切なロケールを設定した後, 特定されたPIIエンティティは難読化され、宛先テーブルにコピーされる。

Ordering and Indexing Considerations

正確な発注のために, アプリケーションには、ソース・テーブルにインデックスかプライマリ・キーが必要不可欠です。これらがない場合, の場合、アプリケーションのデフォルトはテーブルの最初のカラムに基づいてソートされます。しかし, 最初の列に重複した値がある場合, 順序は保証されません, これは、重複値の処理をデータベースのソート・アルゴリズムに依存しているためです。ソース・テーブルにインデックスを追加することで、この問題は解決されます。

主キーやインデックスが定義されていないテーブルで一貫性のあるマッピングを使用すると、予期しない結果になる可能性があることに注意することが重要です。このような場合, アプリケーションは最初の列を順序付けに使用する, 一意な値を含まないことがある, 非決定論的な結果につながる。

Last updated