Analytiikan datarakenteet

Datarakenteet

Yhtä tärkeitä asioita kuin data-analytiikassa käytettävät menetelmät ja niistä johdetut algoritmit, ovat datarakenteet. Vaikka käytännössä työtä niiden suhteen tekevät asiaan erikoistuneet asiantuntijat, niin myös organisaatiossa olisi hyvä olla ymmärrystä yleisellä tasolla millaiset ongelmat vaativat minkä tyyppistä datarakennetta.

Datarakenne mallintaa jonkun kiinnostavan liiketoiminnallisen ilmiön suhteessa eri havaintoyksiköihin, aikaan tai näiden kombinaatioon.

Alla olevassa kuvassa nähdään, että liiketoiminnallisen ongelman / tavoitteen sekä käytettävissä olevien datojen suhteen täytyy käydä iteratiivisesti määrittelyä sekä datan ensivaiheen analyysiä. Tässä vaiheessa ei välttämättä vielä sitouduta tiukasti johonkin tiettyyn metodologiseen kokonaisuuteen.

Kolme suurta kokonaisuutta datarakenteina ovat:

  • Poikkileikkaus
  • Aikasarja
  • Paneeli / kohortti / pitkittäisaineisto

Tässä esityksessä nuo datarakenteet pitää ajatella pikemminkin loogisina kokonaisuuksina, eikä vielä oteta kantaa siihen tarkoitetaanko rakenteella jotain tietokoneohjelman muistissa olevaa tietyn ohjelmointikielen alkeisobjektia vai tietokantataulua. Todellisuudessa tietokantataulukin on abstraktio, jossa data säilytetään tiedostoissa ja ohjelmisto huolehtii sen datan tuomisesta hyödyntävän ohjelmiston käyttöön.

Poikkileikkaus

Poikkileikkaus on datarakenne, jossa on P kappaletta erilaisten muuttujien yksittäistä havaintoa N kappaleelle eri havaintoyksiköitä. Havaintoyksikkö voi olla kotitalous, yritys, yrityspäättäjä, yksittäinen henkilö tai vaikkapa kone IoT – sovelluksissa.

Poikkileikkausrakenne ei suoraan sisällä havaintoyksiköiden osalta ajan suhteen minkään tyyppistä suhdetta, mutta epäsuorasti noiden P muuttujan aikaikkunoinnilla voidaan saavuttaa tilanne että ne kuvaavat havaintoyksiköiden havaintohetkeä edeltävää historiaa.

Joissain tilanteissa jotkut muuttujista voivat kuvata tulevaisuutta havaintohetkeen nähden eli nykyhetkeen verrattuna havaintohetki on menneisyydessä. Esimerkkinä vaikka lainahakemus, jonka kohdalla myönnettyyn luottoon liittyvät maksuerä saattaa jäädä maksamatta havaintohetkeä seuraavan 200 päivän aikana. Tällaisessa tilanteessa havaintohetki olisi 200 päivää menneisyydessä nykyhetkeen verrattuna.

Yksittäiset havaintoyksiköt tai niiden käytös ei välttämättä ole riippumatonta toisista havaintoyksiköistä, esimerkiksi kotitalouteen kuuluvat henkilöt voivat tehdä jonkun yrityksen suhteen asioita samalla tavalla. Esimerkiksi irtisanoa sopimuksensa yhtä aikaa.

Aikasarja

Aikasarjarakenne kuvaa yksittäisen aikasarjan havaintoa yhdestä muuttujasta T aikaperiodin yli. Jos K kappaletta eri aikasarjoja yhdistetään matriisiksi niin saadaan tilannee, jossa on KT havaintoa seurattuna T aikaperiodin yli.

Aikasarjat ovat perinteisiä ekonometriassa, tilastotieteen sovellusalueessa taloustieteessä, käytettyjä datarakenteita.

Aikasarjoissa esiintyy lähes aina peräkkäistä ja sarjojen välistä riippuvuutta  sekä toisaalta kausivaihtelua eli sarjan riippuvuutta kaudesta S, jona havainto mitataan.

  • autokorrelaatio kuvaa sarjan riippuvuutta sen omasta historiasta
  • ristikorrelaatio kuvaa sarjan riippuvuutta toisen sarjan historiasta tai nykyisestä tilasta
  • kausivaihtelu kuvaa sitä, että on mielekkäämpää verrata sarjan nykyistä tasoa M aikaperiodia sitten olleeseen tasoon eikä tasoon juuri välittömästi aiempina aikaperiodeina.

IoT – datan rakenne on luontevasti aikasarja, vaikka sen voisi mallintaa myös poikkileikkauksena tai paneelina.

Paneeli

Paneelissa yhdistää poikkileikkaus – ja aikasarjarakenteiden ominaisuuksia, koska tässä on jokaisesta N havaintoyksikön P muuttujasta dataa yli T aikaperiodin.

Paneelidatarakenteen käyttö edellyttää näistä eniten metodologista osaamista, koska ajalliset sekä havaintoyksiköiden väliset riippuvuudet ovat selkeästi hankalampia ottaa huomioon.

Lopuksi

Erilaiset ongelmat vaativat erilaisia datarakenteita ja asettavat tiukat ehdot lähtödatan luonteelle. Jokaisella organisaatiolla, aivan pienempiä yrityksiä lukuun ottamatta, tulisi olla yleisellä tasolla ymmärrystä siihen millaisia datarakenteita erilaisiin heidän liiketoimintansa ongelmiin / tavoitteisiin pitää käyttää.

Ready Solutions Oy on tiedonhallinnan asiantuntijayritys, joka pystyy auttamaan teitä tässä.

Lisää ajankohtaisia julkaisuja:

Avoimen datan hyödyntäminen automaattisesti Power BI:tä käyttäen
Tutustu tarinaan
Onko tekoälyn hyödyntämisestä vielä(kään) konkreettista hyötyä kilpailukyvylle?
Jo vuosia on puhuttu, että tekoälyn (AI) hyödyntäminen mullistaisi teollisen tuotannon ja palvelut lisäämällä tehokkuutta ja tuottavuutta. Missä ne konkreettiset hyödyntämismahdollisuudet sitten oikein piilevät?
Tutustu tarinaan
Johdatko toimintaasi tietoon perustuen?
Tutustu tarinaan
The effect of preconceptions on the results of machine learning
The use of machine learning and artificial intelligence offers many possibilities, such as the improvement of medical treatment and diagnosis, identifying potential safety hazards, and advancing scientific research. However, when used inappropriately, data models can also perpetuate inequality or cause people and companies to focus on improving metrics to the detriment of actual performance.
Tutustu tarinaan
Organisaation hierarkian hallintaratkaisu Microsoft Power Platformia hyödyntäen 
Yleinen tilanne varsinkin suuremmissa yrityksissä on se, että olemassa olevat ERP-, henkilöstö- taikka taloushallinnon ohjelmistot tarjoavat mahdollisuuksia hierarkioiden luomiseen ja ylläpitämiseen. Mutta entä jos valmiit ratkaisut eivät tue yrityksen tarvetta, taikka toimivat turhan kankeasti käyttötarkoitukseen?
Tutustu tarinaan

Lisää ajankohtaisia julkaisuja:

Avoimen datan hyödyntäminen automaattisesti Power BI:tä käyttäen
Tutustu tarinaan
Onko tekoälyn hyödyntämisestä vielä(kään) konkreettista hyötyä kilpailukyvylle?
Jo vuosia on puhuttu, että tekoälyn (AI) hyödyntäminen mullistaisi teollisen tuotannon ja palvelut lisäämällä tehokkuutta ja tuottavuutta. Missä ne konkreettiset hyödyntämismahdollisuudet sitten oikein piilevät?
Tutustu tarinaan
Johdatko toimintaasi tietoon perustuen?
Tutustu tarinaan
The effect of preconceptions on the results of machine learning
The use of machine learning and artificial intelligence offers many possibilities, such as the improvement of medical treatment and diagnosis, identifying potential safety hazards, and advancing scientific research. However, when used inappropriately, data models can also perpetuate inequality or cause people and companies to focus on improving metrics to the detriment of actual performance.
Tutustu tarinaan
Organisaation hierarkian hallintaratkaisu Microsoft Power Platformia hyödyntäen 
Yleinen tilanne varsinkin suuremmissa yrityksissä on se, että olemassa olevat ERP-, henkilöstö- taikka taloushallinnon ohjelmistot tarjoavat mahdollisuuksia hierarkioiden luomiseen ja ylläpitämiseen. Mutta entä jos valmiit ratkaisut eivät tue yrityksen tarvetta, taikka toimivat turhan kankeasti käyttötarkoitukseen?
Tutustu tarinaan