AI-powered generation
Last updated
Last updated
アンダー Column settings > Generation Method, 選ぶ AI-powered generation を使用して、Synthoの機械学習(ML)モデルがテーブルのデータを自動的に合成できるようにします。
AIによる合成データ生成を使用する場合, データが合成に適していることが重要である。
Syntho はあなたのデータが entity tables を満たすものである。:
プライバシーのリスクを最小限に抑え、学習アルゴリズムの汎化能力を向上させる。, 経験則として, 最低限 column-to-row ratio of 1:500 が推奨される。例えば, ソース・テーブルに6つのカラムがある場合, 最低でも3000行が必要である。
各エンティティは1行に記述されている。
それぞれの行は independently. 行の順番は何の情報も伝えない。ある行の内容が他の行に影響することもない。
を含むカラム名は避けてください。 privacy-sensitive information, ようなpatient_a_medications
, patient_b_medications
, 等々。その代わり, には、患者名を含む患者カラムがあります。これにより、患者名がメタデータで公開されたり、稀なカテゴリー保護(例, そこには patient_a
列, しかし、この患者はデータセット全体で5回しか登場していない)。
以下の列を削除する。 derived directly from other columns.例えば, を持っているかもしれない。 net_amount
カラムに由来する。 gross_amount
そして taxes
カラムを使用します。カテゴリーカラムの場合, 上下関係があるかもしれない, 冗長な Treatment category
列を参照している。 Treatment
カラムがある。このような冗長な列を削除することで、モデリングプロセスが簡素化され、より質の高い合成データにつながる。
シントーは、以下の形式のデータを処理することができます。 lists, sequences, または time series エンティティ・テーブル・リンク・テーブル構造の場合。データが以下を満たしていることを確認してください。:
を扱うための構造になっている。 lists, sequences, または time-series data.
これには2つの表が含まれている。:
アン entity table を満たす。 Entity tables requirements.
a linked table.
エンティティ・テーブルの各レコードには、一意のID (primary key).
リンクされたテーブルの各レコードは、エンティティテーブル (foreign key).
の要件と似ている。 Entity tables, である列は除外する。 directly derived from other columns.
他の行の値から直接派生した行の値を削除する。例えば, を持つ配列がデータセットに含まれている場合 start_date
そして end_date
列, そして start_date
と一致する。 end_date
その前の行の, これらの冗長な値のいずれかを削除する, アンダーstart_date
または end_date
.
複雑なテーブル関係を合成する際のデータ準備の詳細については、以下を参照してください。: Sequence model.
Syntho プラットフォームは様々なデータ型をサポートしています。ボンネットの下, Syntho は、各データ型が以下のエンコード型のいずれかにマッピングされるエンコード方式を採用しています。
Syntho は離散エンコーディング型を使用して、任意の 2 つの値の間に数えられる数の値を持つ数値を合成します。例えば, 顧客からのクレームの数、あるいは欠陥や不良品の数。
任意の2つの値の間に無限の値を持つ数値を合成すること。, 体重や身長など, Synthoは連続エンコーディング・タイプを使用しています。
カテゴリカルなカラムは、一定数の可能な値のいずれかを持ちます。これらの変数は, 人の血液型のように(つまり, A, B, AB or O
), には固定のカテゴリーセットがある。カテゴリー・エンコーディングは、ランダムな値(たとえば, M, X or Z
)が合成データセットに現れないようにする。
そのため Encoding > Advanced settings, その Rare category protection settings が表示されます。, これは希少なカテゴリーを保護するために使用できる。これらのカテゴリーは、合成データ内の外れ値を再識別する可能性がある。
{ヒント style="info" %}。 Note: カテゴリカルエンコーディングタイプは default fallback encoding type は Syntho で使用されます。つまり、Syntho が知らないデータベースタイプは、自動的にカテゴリカルとしてエンコードされます。
です。
テキストエンコーディングタイプは、構造化されていない自然言語テキストの PII を難読化するために使用できます。
{ヒント style="info" %}。 Note: 構造化されていないテキストを含むカラムの値は、もともと一意であることが多い。テキストエンコーディングが適用される前に値が落ちてしまうのを防ぐために, を設定することをお勧めします。 Rare category protection threshold の値を 0 にします。 {endhint %}。
詳細はこちら, 見る: Obfuscate PII in text.
として知られるエンコーディング・タイプ。 Datetime のいずれかを組み込んだ値を記述するために使用される。, または、日付と時刻の両方を含む。
このエンコーディング・タイプを使うことで, Synthoはこれらの値を合成し、統計的に有効で代表的な日時を生成することができます。
Syntho は以下のすべての日付と日時のデータ型をサポートしています。 Syntho connectors.
Datetimeカラムはミリ秒までの精度をサポートします。ナノ秒の精度はサポートされていません。
UUID (universally unique identifier) は128ビットの一意な値です。, これは、他の生成されたUUIDと異なることが実質的に保証されている。この特性は、データの高速で信頼性の高いインデックス作成に使用される。どのような分布にも従わないため、モデル化することはできない。, というのも、インデックスを作る目的以外に、本質的な情報を持っていないからだ。
GEOタイプは特別な処理ロジックを必要とする, 多様なフォーマットと論理表現があるからだ。以下のようなオプションがある。 POINT, POLYGON, LINE これは、単一のジオロケーションのような情報を表すことができる。, しかし、地理的なエリアや道も含まれる。
シンセオは次のようなものを生成できる。 POINTS, 外部の論理やヒューリスティックに制限されることなく。いくつかの GEO 設定されたタイプは、新しいデータポイントの制限である。, 国や都市のように。Synthoはそのようなロジックを自動的に保存しません。
プライバシー・バイ・デザインの原則に従う, Syntho は、すべてのまれなカテゴリカル・オブザベーションを、カテゴリカル列としてエンコードされた列のユーザー定義値で自動的に置換する。
それらのまれなカテゴリを置き換えることは、それらのセンシティブな値が合成データに漏れるのを防ぐのに役立つ。
Rare category protection threshold: 出現頻度がレア・カテゴリの保護しきい値以下である列の値は、すべて自動的に置き換えられる。
Rare category replacement value: 出現頻度がレア・カテゴリの保護しきい値以下である列の値はすべて、この置換値で自動的に置き換えられる。
以下 Column settings > Encoding type, 選ぶ Advanced settings を調整する。 rare category protection threshold.
デフォルト, その rare category protection threshold の値は10に設定される。つまり、10回以下しか出現しない列の値はすべて、自動的にユーザー定義の値に置き換えられる。
以下 Column settings > Encoding type, 選ぶ Advanced settings を調整する。 rare category replacement value.
デフォルトでは, その rare category replacement value はアスタリスク(*).つまり rare category protection value は置換値で置き換えられる。
次へ Table settings 右パネル, スクロールダウンして見る Advanced settings をクリックして、ジェネレーター・レベルの設定を表示および 調整します。ジョブ構成に応じて, ジェネレーターが1つ以上の列に適用される。
以下の高度なジェネレーター設定を調整できます。:
Maximum rows used for training: トレーニングに使用する行の最大数。より少ない行数を使用することで、処理を高速化することができる。すべての行をトレーニングに使用する場合は、この値をNoneのままにします。
Take random sample:
On: は、トレーニングに使用される行のランダムなサンプルを取ります。
Off: は、データベースで定義されている先頭行を取ります。
選択 Advanced settings アンダー Encoding type をクリックして、列レベルの設定を表示し、調整します。
以下の高度な列の設定を調整することができます。, 選択されたエンコーディング・タイプに応じて:
Clipping threshold: 柱の床と天井 Nth 最低値と最高値, どこ N はクリッピングしきい値。しきい値は天井と床を超えないように値を処理する。
Rare category protection threshold: 出現頻度がレア・カテゴリの保護しきい値以下である列の値は、すべて自動的に置換される。
Rare category replacement value: 出現頻度がレア・カテゴリの保護しきい値以下であるすべての列値は、この置換値で自動的に置換される。
Locale: PIIを含むテキストを含むカラムに対してテキスト処理モデルが使用するロケール。