Analytiikan datarakenteet

Datarakenteet

Yhtä tärkeitä asioita kuin data-analytiikassa käytettävät menetelmät ja niistä johdetut algoritmit, ovat datarakenteet. Vaikka käytännössä työtä niiden suhteen tekevät asiaan erikoistuneet asiantuntijat, niin myös organisaatiossa olisi hyvä olla ymmärrystä yleisellä tasolla millaiset ongelmat vaativat minkä tyyppistä datarakennetta.

Datarakenne mallintaa jonkun kiinnostavan liiketoiminnallisen ilmiön suhteessa eri havaintoyksiköihin, aikaan tai näiden kombinaatioon.

Alla olevassa kuvassa nähdään, että liiketoiminnallisen ongelman / tavoitteen sekä käytettävissä olevien datojen suhteen täytyy käydä iteratiivisesti määrittelyä sekä datan ensivaiheen analyysiä. Tässä vaiheessa ei välttämättä vielä sitouduta tiukasti johonkin tiettyyn metodologiseen kokonaisuuteen.

Kolme suurta kokonaisuutta datarakenteina ovat:

  • Poikkileikkaus
  • Aikasarja
  • Paneeli / kohortti / pitkittäisaineisto

Tässä esityksessä nuo datarakenteet pitää ajatella pikemminkin loogisina kokonaisuuksina, eikä vielä oteta kantaa siihen tarkoitetaanko rakenteella jotain tietokoneohjelman muistissa olevaa tietyn ohjelmointikielen alkeisobjektia vai tietokantataulua. Todellisuudessa tietokantataulukin on abstraktio, jossa data säilytetään tiedostoissa ja ohjelmisto huolehtii sen datan tuomisesta hyödyntävän ohjelmiston käyttöön.

Poikkileikkaus

Poikkileikkaus on datarakenne, jossa on P kappaletta erilaisten muuttujien yksittäistä havaintoa N kappaleelle eri havaintoyksiköitä. Havaintoyksikkö voi olla kotitalous, yritys, yrityspäättäjä, yksittäinen henkilö tai vaikkapa kone IoT – sovelluksissa.

Poikkileikkausrakenne ei suoraan sisällä havaintoyksiköiden osalta ajan suhteen minkään tyyppistä suhdetta, mutta epäsuorasti noiden P muuttujan aikaikkunoinnilla voidaan saavuttaa tilanne että ne kuvaavat havaintoyksiköiden havaintohetkeä edeltävää historiaa.

Joissain tilanteissa jotkut muuttujista voivat kuvata tulevaisuutta havaintohetkeen nähden eli nykyhetkeen verrattuna havaintohetki on menneisyydessä. Esimerkkinä vaikka lainahakemus, jonka kohdalla myönnettyyn luottoon liittyvät maksuerä saattaa jäädä maksamatta havaintohetkeä seuraavan 200 päivän aikana. Tällaisessa tilanteessa havaintohetki olisi 200 päivää menneisyydessä nykyhetkeen verrattuna.

Yksittäiset havaintoyksiköt tai niiden käytös ei välttämättä ole riippumatonta toisista havaintoyksiköistä, esimerkiksi kotitalouteen kuuluvat henkilöt voivat tehdä jonkun yrityksen suhteen asioita samalla tavalla. Esimerkiksi irtisanoa sopimuksensa yhtä aikaa.

Aikasarja

Aikasarjarakenne kuvaa yksittäisen aikasarjan havaintoa yhdestä muuttujasta T aikaperiodin yli. Jos K kappaletta eri aikasarjoja yhdistetään matriisiksi niin saadaan tilannee, jossa on KT havaintoa seurattuna T aikaperiodin yli.

Aikasarjat ovat perinteisiä ekonometriassa, tilastotieteen sovellusalueessa taloustieteessä, käytettyjä datarakenteita.

Aikasarjoissa esiintyy lähes aina peräkkäistä ja sarjojen välistä riippuvuutta  sekä toisaalta kausivaihtelua eli sarjan riippuvuutta kaudesta S, jona havainto mitataan.

  • autokorrelaatio kuvaa sarjan riippuvuutta sen omasta historiasta
  • ristikorrelaatio kuvaa sarjan riippuvuutta toisen sarjan historiasta tai nykyisestä tilasta
  • kausivaihtelu kuvaa sitä, että on mielekkäämpää verrata sarjan nykyistä tasoa M aikaperiodia sitten olleeseen tasoon eikä tasoon juuri välittömästi aiempina aikaperiodeina.

IoT – datan rakenne on luontevasti aikasarja, vaikka sen voisi mallintaa myös poikkileikkauksena tai paneelina.

Paneeli

Paneelissa yhdistää poikkileikkaus – ja aikasarjarakenteiden ominaisuuksia, koska tässä on jokaisesta N havaintoyksikön P muuttujasta dataa yli T aikaperiodin.

Paneelidatarakenteen käyttö edellyttää näistä eniten metodologista osaamista, koska ajalliset sekä havaintoyksiköiden väliset riippuvuudet ovat selkeästi hankalampia ottaa huomioon.

Lopuksi

Erilaiset ongelmat vaativat erilaisia datarakenteita ja asettavat tiukat ehdot lähtödatan luonteelle. Jokaisella organisaatiolla, aivan pienempiä yrityksiä lukuun ottamatta, tulisi olla yleisellä tasolla ymmärrystä siihen millaisia datarakenteita erilaisiin heidän liiketoimintansa ongelmiin / tavoitteisiin pitää käyttää.

Ready Solutions Oy on tiedonhallinnan asiantuntijayritys, joka pystyy auttamaan teitä tässä.

Lisää ajankohtaisia julkaisuja:

Mitä on Unit Economics -analyysi?
Tiedät liikevaihtosi, katteesi ja tuloksesi — mutta tiedätkö, tuottaako yksittäinen asiakkuus enemmän arvoa kuin sen hankkiminen ja palveleminen maksaa? Unit economics vastaa juuri tähän kysymykseen. Tämä artikkeli avaa, mitä unit economics tarkoittaa, mistä komponenteista se rakentuu ja miten sitä sovelletaan käytännössä — esimerkkinä sopimusperusteinen B2C-liiketoiminta, jossa asiakas voi pitää yhtä aikaa useita voimassaolevia sopimuksia.
Tutustu tarinaan
Millainen on data-alustan kehittämisprojekti?
Organisaation data-alustan rakentaminen tai modernisointi ei ole perinteinen IT-projekti. Se on kehityshanke, jossa teknologia, liiketoiminnan ymmärrys ja tiedonhallinta kietoutuvat yhteen — ja jossa todellinen työ alkaa vasta kun oikea data kohtaa oikean maailman haasteet. Tässä blogissa pureudumme data-alustaprojektin luonteeseen, vaiheisiin, riskeihin ja parhaisiin käytäntöihin. Käymme läpi, miksi data-alustaprojekti on enemmän tutkimusmatka kuin kartta, ja miten tekoäly muuttaa tätä kokonaisuutta.
Tutustu tarinaan
Mitä on henkilöstöanalytiikka
Jokainen organisaatio tekee jatkuvasti päätöksiä ihmisistä — rekrytoinneista, palkankorotuksista, osaamisen kehittämisestä, työvoimasuunnittelusta. Mutta kuinka moni näistä päätöksistä perustuu dataan? Tämä artikkeli avaa, mitä henkilöstöanalytiikka käytännössä tarkoittaa, mitä hyötyjä se tuo ja miten hajallaan oleva HR-data muutetaan päätöksentekoa ohjaavaksi kokonaisuudeksi.
Tutustu tarinaan
Datasopimus käytännössä — miten data-alustan luotettavuus rakennetaan
Datatiimit käyttävät jopa 40–60 % ajastaan virheiden selvittämiseen, joiden syy on muualla. Sarake vaihtaa nimeä, tyyppi muuttuu, kenttä alkaa tulla tyhjänä — ja loppupään raportit hajoavat ääneti. Datasopimus estää tämän tekemällä odotukset näkyviksi ja valvottaviksi.
Tutustu tarinaan
Mitä on tekoälyavustettu sovelluskehitys?
Lisää tuottavuutta ohjelmistokehitykseen agenttisella kehityksellä.
Tutustu tarinaan

Lisää ajankohtaisia julkaisuja:

Mitä on Unit Economics -analyysi?
Tiedät liikevaihtosi, katteesi ja tuloksesi — mutta tiedätkö, tuottaako yksittäinen asiakkuus enemmän arvoa kuin sen hankkiminen ja palveleminen maksaa? Unit economics vastaa juuri tähän kysymykseen. Tämä artikkeli avaa, mitä unit economics tarkoittaa, mistä komponenteista se rakentuu ja miten sitä sovelletaan käytännössä — esimerkkinä sopimusperusteinen B2C-liiketoiminta, jossa asiakas voi pitää yhtä aikaa useita voimassaolevia sopimuksia.
Tutustu tarinaan
Millainen on data-alustan kehittämisprojekti?
Organisaation data-alustan rakentaminen tai modernisointi ei ole perinteinen IT-projekti. Se on kehityshanke, jossa teknologia, liiketoiminnan ymmärrys ja tiedonhallinta kietoutuvat yhteen — ja jossa todellinen työ alkaa vasta kun oikea data kohtaa oikean maailman haasteet. Tässä blogissa pureudumme data-alustaprojektin luonteeseen, vaiheisiin, riskeihin ja parhaisiin käytäntöihin. Käymme läpi, miksi data-alustaprojekti on enemmän tutkimusmatka kuin kartta, ja miten tekoäly muuttaa tätä kokonaisuutta.
Tutustu tarinaan
Mitä on henkilöstöanalytiikka
Jokainen organisaatio tekee jatkuvasti päätöksiä ihmisistä — rekrytoinneista, palkankorotuksista, osaamisen kehittämisestä, työvoimasuunnittelusta. Mutta kuinka moni näistä päätöksistä perustuu dataan? Tämä artikkeli avaa, mitä henkilöstöanalytiikka käytännössä tarkoittaa, mitä hyötyjä se tuo ja miten hajallaan oleva HR-data muutetaan päätöksentekoa ohjaavaksi kokonaisuudeksi.
Tutustu tarinaan
Datasopimus käytännössä — miten data-alustan luotettavuus rakennetaan
Datatiimit käyttävät jopa 40–60 % ajastaan virheiden selvittämiseen, joiden syy on muualla. Sarake vaihtaa nimeä, tyyppi muuttuu, kenttä alkaa tulla tyhjänä — ja loppupään raportit hajoavat ääneti. Datasopimus estää tämän tekemällä odotukset näkyviksi ja valvottaviksi.
Tutustu tarinaan
Mitä on tekoälyavustettu sovelluskehitys?
Lisää tuottavuutta ohjelmistokehitykseen agenttisella kehityksellä.
Tutustu tarinaan