Sequence model
Last updated
Last updated
{ヒント style="info" %}。 Note: この機能を使用する前に, の説明に従ってデータがセットアップされていることを確認してください。 Prepare your sequence data セクションを参照してください。 {endhint %}。
シンセは、以下のような形式でデータを処理することができます。 lists, sequences, または time-series で構成されている場合 entity table-linked table 構造になっている。
Synthoの合成データシーケンスモデルでは、任意のエンティティテーブルとリンクテーブル間の関係情報をキャプチャすることができます。エンティティテーブルにはデータエンティティのプロファイルが含まれます。, リンクされたテーブルはそれらを参照する。
Entity tables 属性によって識別できる, データ・エンティティに関するプライバシーに配慮した情報を記述する。, 名前など, 生年月日, 電話番号, アドレス, などなど。 Linked tables 参照されるエンティティに関するイベント情報を含むことが多い, エンティティごとに複数の行にまたがることができる, 例えば、月給の支払いなどである。
を考えてみよう。 Patients そして PatientMedications 以下のテーブルを参照されたい。ここに, その Patients テーブルはエンティティ・テーブルである。その PatientMedications テーブルがリンクされたテーブルである。
シントーのシーケンスモデルを使ってこれらのテーブルを合成するには:
1.シンセはまず Patients
テーブル 2.次に, を合成する。 PatientMedications
合成 Patients テーブルをコンテキストとする。
Syntho の合成データシーケンスモデルを使うには, 次のことができる。:
1.1. Job Configuration パネル, drag の下にある関連エンティティ・テーブルとリンク・テーブル。 Synthesize. 2.他のテーブルを De-identify または Exclude. 3.3. Job configuration パネル, 選ぶ Generate. 4.4. Job configuration パネル, を有効にする。 Enable sequence modeling toggle**. 5.最後に, 選ぶ Start generating.
生成プロセスを開始する前に, では、シーケンスモデルのパラメータを変更するオプションがあります。以下はその概要である。:
Max sequence length: シーケンスの長さに上限を設定, この制限を超えるシーケンスは切り捨てられる。
Rare long sequence protection threshold: トレーニングに使用するデータ列の長さの制限を定義する。, 最長のシーケンスをN番目のシーケンスの長さに調整する。
N generated entities: 生成するエンティティの数を決定する, それぞれがシーケンスに関連している。
Read batch size: バッチごとに各ソース・テーブルから読み取られる行の量。
Write batch size: バッチごとに各デスティネーション・テーブルに挿入される行数。
N connections: 接続数を指定する。
Syntho のシーケンスモデルを使用する際には、以下の点を考慮することが重要です。:
2 tables: Synthoは、合成データの有用性を最大化するため、配列モデルの使用を2テーブルに制限している。
Mockers Not Supported: シーケンスモデルと組み合わせてモッカーを使用することはできません。
{ヒント style="info" %}。 Hint: 回避策として, Synthoのシーケンスモデル機能と組み合わせてモッカーを適用できるようにする。, の場合、2つの逐次データ生成ジョブを実行できる。最初のジョブは、2つのテーブルをテーブル・モードSynthesizeで、シーケンス・モデルを有効にして実行します。最初のジョブが返したデータベースは、2番目のジョブのソース・データベースとして使用されます。2番目のジョブは、関連するテーブル・モードをDe-identifyに設定した上で、モッカーを適用します。これには、後続のジョブごとに2つの個別の宛先データベースが必要であることに注意してください。
です。
Resource Consumption: この機能はリソースを消費するため、データ生成プロセスが遅くなる可能性があります。入力データを減らすか、シーケンス・モデルのパラメータを調整して、作業時間とリソースを削減してください。
これらの制限と推奨事項を理解することで、Syntho を最大限に活用することができます。