Prepare your sequence data
Last updated
Last updated
Als je ruwe gegevens een reeks gebeurtenissen in één tabel bevatten, moet je het scheiden in een entity table en een linked table. Volg de onderstaande stappen, om dit te bereiken.
Bijvoorbeeld, de onderstaande tabel heeft een reeks gebeurtenissen (informatie en statistieken van honkbalspelers per seizoen).
Verplaats de gebeurtenisgegevens naar een andere tabel, ervoor zorgen dat deze nieuwe tabel verbonden is met de entiteittabel via een foreign key die overeenkomt met de primary key van de entiteittabel. In deze opzet, elk individu of elke entiteit in de entiteittabel heeft een corresponderend ID in de gekoppelde tabel.
De rangschikking van je sequentiële gegevens is cruciaal. Als uw gebeurtenisgegevens bestaan in kolommen, je moet ze omvormen tot rijen, waarbij elke rij een unieke gebeurtenis beschrijft.
Voorbeelden van veelgebruikte datasets die zijn ontworpen voor een reeks toepassingen zijn onder andere:
Patiëntreizen waarbij een tabel met medische gebeurtenissen wordt gekoppeld aan individuele patiënten.
Verschillende soorten sensormetingen waarbij een entiteitentabel sensoren vermeldt, en de gekoppelde tabel registreert de metingen van die sensoren.
In e-commerce, synthetische gegevens zijn vaak afkomstig van inkoopdatasets waarin entiteittabellen klantinformatie bevatten, en gekoppelde tabellen slaan de aankopen van die klanten op.
Deze zijn chronologisch geordend, sequentiële datasets, waarbij de volgorde en timing van gebeurtenissen belangrijke inzichten verschaffen.
Bij het organiseren van je datasets voor verdere verwerking, voldoen aan deze vereisten:
Elke rij vertegenwoordigt een uniek individu
Meerdere rijen kunnen overeenkomen met hetzelfde individu
Moet een unieke entiteits-ID hebben (primaire sleutel)
Elke rij moet linken naar een unieke ID in de entiteittabel (foreign key)
Rijen zijn onafhankelijk van elkaar
Meerdere rijen kunnen met elkaar verbonden zijn
Bevat alleen statische informatie
Bevat alleen dynamische informatie; sequenties moeten indien mogelijk in de tijd worden geordend
Inspecteer uw gekoppelde tabel met gebeurtenissen. Als deze statische informatie bevat die de entiteit beschrijft, moet dit worden verplaatst naar de entiteittabel. Bijvoorbeeld, Beschouw een e-commerce scenario waarbij elke aankoop bij specifieke klanten hoort. Het e-mailadres van de klant blijft hetzelfde voor verschillende gebeurtenissen. Het is statisch en kenmerkt de klant, niet de gebeurtenis. In zo'n geval, de email_address
kolom moet worden overgebracht naar de entiteittabel.
Een ander voorbeeld is een tabel met honkbalspelers en een tabel met hun statistieken per seizoen. In dit geval, honkbalspelers moet worden beschouwd als een entiteitstabel aangezien de tabel honkbalspelers een primaire sleutel (player id), rijen zijn onafhankelijk van elkaar en vertegenwoordigen een uniek individu en bevatten statische informatie. Aan de andere kant, seizoenen tabel zal verschillende rijen gewijd aan een individu hebben, omdat een honkbalspeler kan spelen in meer dan een seizoen. De seizoentabel heeft ook een uniek ID in de entiteitentabel (foreign key) en het bevat tijdgeordende dynamische informatie. Zie onderstaande illustratie.