LogoLogo
Go to Syntho.AI
Japanese (AI Translated)
Japanese (AI Translated)
  • Welcome to Syntho
  • 概要
    • About Syntho
    • Get started
      • Introduction to data generation methods
      • Use Case: AI-generated synthetic data
      • Use Case: AI-generated synthetic time series data
      • Use Case: Database de-identification
    • Frequently asked questions
  • ワークスペースの設定
    • View workspaces
    • Create a workspace
      • Connect to a database
        • PostgreSQL
        • MySQL / MariaDB
        • Oracle
        • Microsoft SQL Server
        • DB2
        • Databricks
        • Hive
        • SAP Sybase
        • Azure Data Lake Storage (ADLS)
        • Amazon Simple Storage Service (S3)
    • Edit a workspace
    • Delete a workspace
    • Share a workspace
    • Transfer workspace ownership
  • データ生成ジョブの設定
    • Configure table settings
    • Configure column settings
      • AI-powered generation
        • Sequence model
          • Prepare your sequence data
      • Mockers
        • Consistent mapping
        • Supported languages
      • Duplicate
      • Exclude
      • Hash
      • Calculated columns
      • Primary Key / Foreign Key
        • Key generators
    • Manage personally identifiable information (PII)
      • Discover and de-identify PII columns
        • Identify PII columns manually
        • Automatic PII discovery with PII scanner
      • Remove columns from PII list
      • Automatic PII discovery and de-identification in free text columns
      • Supported PII & PHI entities
    • Manage foreign keys
      • Foreign key inheritance
      • Add virtual foreign keys
        • Add virtual foreign keys
        • Use foreign key scanner
        • Import foreign keys via JSON
        • Export foreign keys via JSON
      • Delete foreign keys
      • Circular foreign key references
    • Validate and Synchronize workspace
    • View and adjust generation settings
    • Table relationships
      • Verify foreign keys
      • Synthesize individual tables with automatic key matching
      • De-identify PII columns
  • デプロイ・シント
    • Introduction
      • Syntho architecture
      • Requirements
        • Requirements for Docker deployments
        • Requirements for Kubernetes deployments
      • Access Docker images
        • Using internet
        • Without internet
    • Deploy Syntho using Docker
      • Preparations
      • Deploy using Docker Compose
      • Run the application
      • Manually saving logs
    • Deploy Syntho using Kubernetes
      • Preparations
      • Deploy Ray using Helm
        • Troubleshooting
      • Deploy Syntho using Helm
      • Validate the deployment
      • Troubleshooting
      • Upgrading the applications
    • Manage users and access
      • Single Sign-On (SSO) in Azure
      • Manage admin users
      • Manage non-admin users
    • Logs and monitoring
  • サブセット
    • What is subsetting
    • Verify foreign keys
    • Configure subsetting
  • シンセAPI
    • Syntho REST API
Powered by GitBook
On this page
  • 1.単一のシーケンシャルデータセットをエンティティテーブルとリンクテーブルに分割する
  • How to Split Data into Entity and Events
  • 2.すべての静的データをエンティティテーブルに転送

Was this helpful?

  1. データ生成ジョブの設定
  2. Configure column settings
  3. AI-powered generation
  4. Sequence model

Prepare your sequence data

PreviousSequence modelNextMockers

Last updated 9 months ago

Was this helpful?

生データが1つのテーブルに一連のイベントを含む場合, に分ける必要があります。 そして .以下の手順に従ってください。, これを達成するために

例えば, 下の表は、一連のイベント(野球選手の情報と毎シーズンの統計)を持っています。

1.単一のシーケンシャルデータセットをエンティティテーブルとリンクテーブルに分割する

イベントデータを別のテーブルに移す, この新しいテーブルが、エンティティ・テーブルの主キーに対応する外部キーを介してエンティティ・テーブルに接続されていることを確認します。このセットアップでは, エンティティ・テーブルにリストされた各個人またはエンティティは、リンクされたテーブルに対応する ID を持っています。

シーケンシャルデータの配置は非常に重要です。イベント・データが列, 列の形を変える, 各行が固有のイベントを記述している。

How to Split Data into Entity and Events

さまざまな用途のために設計された一般的なデータセットの例を以下に挙げる。:

  • 医療イベントの表が個々の患者にリンクされているペイシェント・ジャーニー。

  • エンティティテーブルがセンサーを一覧表示する、さまざまなタイプのセンサー測定値, リンク先のテーブルには、それらのセンサーに関連する測定値が記録されている。

  • eコマース, 合成データは、エンティティ・テーブルに顧客情報が含まれる購買データセットに由来することが多い。, とリンクされたテーブルは、それらの顧客による購入を保存する。

これらは時系列に並んでいる。, 連続データセット, そこでは、出来事の順序とタイミングが重要な洞察を与えてくれる。

さらなる処理のためにデータセットを整理する場合, これらの要件に従うこと:

エンティティ・テーブル
リンクテーブル

各行がユニークな個人を表す

複数の行が同じ個人に対応することもある

一意なエンティティID(プライマリキー)を持つこと。

各行は、エンティティテーブル(外部キー)の一意のIDにリンクする必要があります。

行は互いに独立している

複数の行を相互に関連付けることができる

静的な情報のみを含む

動的な情報のみを含む。シーケンスは可能であれば時間順に並べるべきである。

2.すべての静的データをエンティティテーブルに転送

イベントを含むリンクされたテーブルを調べます。エンティティを記述する静的情報が含まれている場合, これはエンティティ・テーブルに移すべきである。例えば, 各購入イベントが特定の顧客に属するEコマースシナリオを考えてみましょう。顧客のEメールは、様々なイベントで同じままです。これは静的なもので、顧客を特徴づけるものです。, イベントではない。その場合, その email_address カラムはエンティティ・テーブルに転送されるべきである。

別の例として、野球選手のテーブルとシーズンごとの統計情報を示すテーブルがあります。この場合, 野球選手テーブルは主キー(player id), 行は互いに独立し、ユニークな個人を表し、静的な情報を含む。一方, seasonsテーブルは、1人の野球選手が複数のシーズンでプレーできるため、1人の個人に対して異なる行を持つことになります。また、シーズン・テーブルは、エンティティ・テーブル(foreign key)であり、時間順に並んだ動的情報を含んでいる。下の図を参照。

バスボールの選手とその統計を1つの表にまとめた。
1つのテーブルをエンティティ・テーブルとリンク・テーブルに分離, 静的情報(選手)と動的情報(シーズン)の表示, それぞれ
選手テーブルとシーズン・テーブルの1対多の関係を示す図
entity table
linked table