Prepare your sequence data

Als je ruwe gegevens een reeks gebeurtenissen in één tabel bevatten, moet je het scheiden in een entity table en een linked table. Volg de onderstaande stappen, om dit te bereiken.

Bijvoorbeeld, de onderstaande tabel heeft een reeks gebeurtenissen (informatie en statistieken van honkbalspelers per seizoen).

1. Enkelvoudige sequentiële datasets splitsen in entiteittabellen en gekoppelde tabellen

Verplaats de gebeurtenisgegevens naar een andere tabel, ervoor zorgen dat deze nieuwe tabel verbonden is met de entiteittabel via een foreign key die overeenkomt met de primary key van de entiteittabel. In deze opzet, elk individu of elke entiteit in de entiteittabel heeft een corresponderend ID in de gekoppelde tabel.

De rangschikking van je sequentiële gegevens is cruciaal. Als uw gebeurtenisgegevens bestaan in kolommen, je moet ze omvormen tot rijen, waarbij elke rij een unieke gebeurtenis beschrijft.

How to Split Data into Entity and Events

Voorbeelden van veelgebruikte datasets die zijn ontworpen voor een reeks toepassingen zijn onder andere:

  • Patiëntreizen waarbij een tabel met medische gebeurtenissen wordt gekoppeld aan individuele patiënten.

  • Verschillende soorten sensormetingen waarbij een entiteitentabel sensoren vermeldt, en de gekoppelde tabel registreert de metingen van die sensoren.

  • In e-commerce, synthetische gegevens zijn vaak afkomstig van inkoopdatasets waarin entiteittabellen klantinformatie bevatten, en gekoppelde tabellen slaan de aankopen van die klanten op.

Deze zijn chronologisch geordend, sequentiële datasets, waarbij de volgorde en timing van gebeurtenissen belangrijke inzichten verschaffen.

Bij het organiseren van je datasets voor verdere verwerking, voldoen aan deze vereisten:

EntiteitentabelGekoppelde tabel

Elke rij vertegenwoordigt een uniek individu

Meerdere rijen kunnen overeenkomen met hetzelfde individu

Moet een unieke entiteits-ID hebben (primaire sleutel)

Elke rij moet linken naar een unieke ID in de entiteittabel (foreign key)

Rijen zijn onafhankelijk van elkaar

Meerdere rijen kunnen met elkaar verbonden zijn

Bevat alleen statische informatie

Bevat alleen dynamische informatie; sequenties moeten indien mogelijk in de tijd worden geordend

2. Breng alle statische gegevens over naar de entiteitentabel

Inspecteer uw gekoppelde tabel met gebeurtenissen. Als deze statische informatie bevat die de entiteit beschrijft, moet dit worden verplaatst naar de entiteittabel. Bijvoorbeeld, Beschouw een e-commerce scenario waarbij elke aankoop bij specifieke klanten hoort. Het e-mailadres van de klant blijft hetzelfde voor verschillende gebeurtenissen. Het is statisch en kenmerkt de klant, niet de gebeurtenis. In zo'n geval, de email_address kolom moet worden overgebracht naar de entiteittabel.

Een ander voorbeeld is een tabel met honkbalspelers en een tabel met hun statistieken per seizoen. In dit geval, honkbalspelers moet worden beschouwd als een entiteitstabel aangezien de tabel honkbalspelers een primaire sleutel (player id), rijen zijn onafhankelijk van elkaar en vertegenwoordigen een uniek individu en bevatten statische informatie. Aan de andere kant, seizoenen tabel zal verschillende rijen gewijd aan een individu hebben, omdat een honkbalspeler kan spelen in meer dan een seizoen. De seizoentabel heeft ook een uniek ID in de entiteitentabel (foreign key) en het bevat tijdgeordende dynamische informatie. Zie onderstaande illustratie.

Last updated