LogoLogo
Go to Syntho.AI
Japanese (AI Translated)
Japanese (AI Translated)
  • Welcome to Syntho
  • 概要
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • ワークスペースの設定
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • データ生成ジョブの設定
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hash
      • Calculated columns
      • Primary Key / Foreign Key
        • Key generators
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • デプロイ・シント
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • サブセット
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • シンセAPI
    • Syntho REST API
Powered by GitBook
On this page
  • シントーの合成データシーケンスモデルの適用方法
  • シーケンスモデルパラメータ
  • 限界と提言

Was this helpful?

  1. データ生成ジョブの設定
  2. Configure column settings
  3. AI-powered generation

Sequence model

PreviousAI-powered generationNextPrepare your sequence data

Last updated 9 months ago

Was this helpful?

{ヒント style="info" %}。 Note: この機能を使用する前に, の説明に従ってデータがセットアップされていることを確認してください。 セクションを参照してください。 {endhint %}。

シンセは、以下のような形式でデータを処理することができます。 lists, sequences, または time-series で構成されている場合 entity table-linked table 構造になっている。

Synthoの合成データシーケンスモデルでは、任意のエンティティテーブルとリンクテーブル間の関係情報をキャプチャすることができます。エンティティテーブルにはデータエンティティのプロファイルが含まれます。, リンクされたテーブルはそれらを参照する。

Entity tables 属性によって識別できる, データ・エンティティに関するプライバシーに配慮した情報を記述する。, 名前など, 生年月日, 電話番号, アドレス, などなど。 Linked tables 参照されるエンティティに関するイベント情報を含むことが多い, エンティティごとに複数の行にまたがることができる, 例えば、月給の支払いなどである。

を考えてみよう。 Patients そして PatientMedications 以下のテーブルを参照されたい。ここに, その Patients テーブルはエンティティ・テーブルである。その PatientMedications テーブルがリンクされたテーブルである。

シントーのシーケンスモデルを使ってこれらのテーブルを合成するには:

1.シンセはまず Patients テーブル 2.次に, を合成する。 PatientMedications 合成 Patients テーブルをコンテキストとする。

シントーの合成データシーケンスモデルの適用方法

Syntho の合成データシーケンスモデルを使うには, 次のことができる。:

1.1. Job Configuration パネル, drag の下にある関連エンティティ・テーブルとリンク・テーブル。 Synthesize. 2.他のテーブルを De-identify または Exclude. 3.3. Job configuration パネル, 選ぶ Generate. 4.4. Job configuration パネル, を有効にする。 Enable sequence modeling toggle**. 5.最後に, 選ぶ Start generating.

シーケンスモデルパラメータ

生成プロセスを開始する前に, では、シーケンスモデルのパラメータを変更するオプションがあります。以下はその概要である。:

  • Max sequence length: シーケンスの長さに上限を設定, この制限を超えるシーケンスは切り捨てられる。

  • Rare long sequence protection threshold: トレーニングに使用するデータ列の長さの制限を定義する。, 最長のシーケンスをN番目のシーケンスの長さに調整する。

  • N generated entities: 生成するエンティティの数を決定する, それぞれがシーケンスに関連している。

  • Read batch size: バッチごとに各ソース・テーブルから読み取られる行の量。

  • Write batch size: バッチごとに各デスティネーション・テーブルに挿入される行数。

  • N connections: 接続数を指定する。

限界と提言

Syntho のシーケンスモデルを使用する際には、以下の点を考慮することが重要です。:

  • 2 tables: Synthoは、合成データの有用性を最大化するため、配列モデルの使用を2テーブルに制限している。

  • Mockers Not Supported: シーケンスモデルと組み合わせてモッカーを使用することはできません。

{ヒント style="info" %}。 Hint: 回避策として, Synthoのシーケンスモデル機能と組み合わせてモッカーを適用できるようにする。, の場合、2つの逐次データ生成ジョブを実行できる。最初のジョブは、2つのテーブルをテーブル・モードSynthesizeで、シーケンス・モデルを有効にして実行します。最初のジョブが返したデータベースは、2番目のジョブのソース・データベースとして使用されます。2番目のジョブは、関連するテーブル・モードをDe-identifyに設定した上で、モッカーを適用します。これには、後続のジョブごとに2つの個別の宛先データベースが必要であることに注意してください。

です。

  • Resource Consumption: この機能はリソースを消費するため、データ生成プロセスが遅くなる可能性があります。入力データを減らすか、シーケンス・モデルのパラメータを調整して、作業時間とリソースを削減してください。

これらの制限と推奨事項を理解することで、Syntho を最大限に活用することができます。

Prepare your sequence data
テーブルのドラッグ&ドロップ
シーケンス・モデリングの有効化
シーケンスモデルパラメーター