Prepare your sequence data

生データが1つのテーブルに一連のイベントを含む場合, に分ける必要があります。 entity table そして linked table.以下の手順に従ってください。, これを達成するために

例えば, 下の表は、一連のイベント(野球選手の情報と毎シーズンの統計)を持っています。

1.単一のシーケンシャルデータセットをエンティティテーブルとリンクテーブルに分割する

イベントデータを別のテーブルに移す, この新しいテーブルが、エンティティ・テーブルの主キーに対応する外部キーを介してエンティティ・テーブルに接続されていることを確認します。このセットアップでは, エンティティ・テーブルにリストされた各個人またはエンティティは、リンクされたテーブルに対応する ID を持っています。

シーケンシャルデータの配置は非常に重要です。イベント・データが列, 列の形を変える, 各行が固有のイベントを記述している。

How to Split Data into Entity and Events

さまざまな用途のために設計された一般的なデータセットの例を以下に挙げる。:

  • 医療イベントの表が個々の患者にリンクされているペイシェント・ジャーニー。

  • エンティティテーブルがセンサーを一覧表示する、さまざまなタイプのセンサー測定値, リンク先のテーブルには、それらのセンサーに関連する測定値が記録されている。

  • eコマース, 合成データは、エンティティ・テーブルに顧客情報が含まれる購買データセットに由来することが多い。, とリンクされたテーブルは、それらの顧客による購入を保存する。

これらは時系列に並んでいる。, 連続データセット, そこでは、出来事の順序とタイミングが重要な洞察を与えてくれる。

さらなる処理のためにデータセットを整理する場合, これらの要件に従うこと:

エンティティ・テーブルリンクテーブル

各行がユニークな個人を表す

複数の行が同じ個人に対応することもある

一意なエンティティID(プライマリキー)を持つこと。

各行は、エンティティテーブル(外部キー)の一意のIDにリンクする必要があります。

行は互いに独立している

複数の行を相互に関連付けることができる

静的な情報のみを含む

動的な情報のみを含む。シーケンスは可能であれば時間順に並べるべきである。

2.すべての静的データをエンティティテーブルに転送

イベントを含むリンクされたテーブルを調べます。エンティティを記述する静的情報が含まれている場合, これはエンティティ・テーブルに移すべきである。例えば, 各購入イベントが特定の顧客に属するEコマースシナリオを考えてみましょう。顧客のEメールは、様々なイベントで同じままです。これは静的なもので、顧客を特徴づけるものです。, イベントではない。その場合, その email_address カラムはエンティティ・テーブルに転送されるべきである。

別の例として、野球選手のテーブルとシーズンごとの統計情報を示すテーブルがあります。この場合, 野球選手テーブルは主キー(player id), 行は互いに独立し、ユニークな個人を表し、静的な情報を含む。一方, seasonsテーブルは、1人の野球選手が複数のシーズンでプレーできるため、1人の個人に対して異なる行を持つことになります。また、シーズン・テーブルは、エンティティ・テーブル(foreign key)であり、時間順に並んだ動的情報を含んでいる。下の図を参照。

Last updated