Dimensiot ja hierarkiat tietomallissa

Data modeling

Dimensio analytiikan objektina

Analytiikassa esitetään organisaation toiminnallinen kuvaus muodossa jota voidaan hyödyntää useilla erilaisilla teknologioilla. Eräitä keskeisiä olioita on dimensio, joka muodostaa analytiikan informaatioarkkitehtuurissa erilaisia asioita toisiinsa sitovan kokonaisuuden omalta osaltaan.

Kun joku asia määritellään dimensiona niin ensin määritetään sen liiketoiminta-avain eli luonnollinen avain, joka voi olla jopa muutaman attribuutin arvojen kombinaatio. Dimensio-objektiin, joka voisi olla tietokantataulu taikka parquet-deltatiedosto, luodaan erikseen surrogaattiavain sekä lisäksi liiketoiminta-avain. Surrogaattiavain voi olla generoitu numerosarja taikka jonkinlainen tiivistearvo. Generoidut numerosarjat ovat tyypillisiä analyyttisille sekä operatiivisille tietokantatuotteille, mutta Lakehouse Analytics – teknologioilla on ehkä helpompi käyttää niiden sijasta vaikkapa tiivistearvoja.

Teknisiä kenttiä voidaan määritellä muutosvertailua sekä prosessimetadatan keräämistä varten. Tällaiset tekniset kentät voidaan ja on useimmiten hyvä piilottaa loppukäyttäjiltä.

Dimensioiden hierarkiat ja dimensioiden tasot

Dimensioiden tietomallintamisessa on huomioitava että monesti dimension, vaikkapa toimialan, jäsenten välillä on hierarkisia suhteita. Analytiikassa halutaan porautua erilaisilta osasummatasoilta alemmalle tasolle ja nähdä miten hierarkiapuu muodostuu eri tasojen välillä.

Hierarkiaversio tarkoittaa sitä että dimensiolle voidaan määritellä erilaisia tapoja ryhmitellä sen tasoja suhteessa toisiinsa. Esimerkiksi tuloslaskelmasta ja taseesta voisi olla erilaisia versioita sen suhteen miten kirjanpidon tilit halutaan esittää suhteessa toisiinsa.

Dimensioiden hierarkioiden toteutustapoja

Perinteinen tapa Ralf Kimballin popularisoimassa tähtiskeemaa noudattavassa dimensiomallissa on käsitellä dimensioiden hierarkioita niin että tuodaan kaikki hierkiaversion tasot osaksi dimensiotaulua, tämä tarkoittaa että jos esimerkiksi toimialadimensiossa olisi kaksi eri hierarkiversiota viiden ja kolmen syvyisillä hierarkioilla niin uusia kenttiä olisi olta 5-1 + 3-1 = 6 sen hienojakoisimman tason lisäksi. Tämä lisäksi edellyttää sitä että hienojakoisin toimialadimension taso on yhteinen molemmille hierarkiversioille. Tämä oletus ei kuitenkaan aina pidä paikkaansa.

Vaihtoehtoinen toteutustapa tähtiskeemassa on se että tuodaankin dimensiotauluun kaikki tasot eikä dimensiotaulu sisältäisi ollenkaan hierarkiaversioita. Tämän dimensiotaulun lisäksi pitäisi luoda erillinen hierarkiataulu, joka voisi olla esimerkiksi parent – child muodossa. Noiden kahden kentän lisäksi tarvittaisiin kenttä kertomaan mistä dimension hierarkiaversiosta on kunkin rivin kohdalla kyse.

Lumihiutaleskeema on dimensiomallin muunnelma jossa dimension hierkian tasoilla on on omat taulunsa joilla on sitten relaatiot toistensa kanssa aina varsinaiseen dimensiotauluun asti.

Tällaisten hierarkioiden toteutuksessa on hyvä huomioida toisaalta ylläpito että myös erilaisten loppukäyttäjien tarpeet.

Esimerkki talouden analytiikan dimensio – ja hierarkiarakenteista

Talouden analytiikassa halutaan usein esitää erilaista tietoa organisaation sisäisen laskentatoimen tarpeista katsottuna, tämä tarkoittaa että koostetaan yhteen talouden – ja toiminnan dataa yhtenäiseen tietomalliin jonka avulla erilaiset käyttäjät voivat analysoida organisaation toimintaa.

Keskeisiä tietolähteitä ovat erilaisten osajärjestelmien tiedot sekä pääkirjan (general ledger) tason tapahtumat. Näiden lisäksi voidaan haluta tuottaa tietoa budjetointi – ja ennusteprosesseista joissa hieman karkeammalla tasolla suunnitellaan sekä ennustetaan toimintaa.

Talouden analytiikan dimensioita ovat usein aika, tili, organisaatio, kustannuspaikka yms. Alla olevassa kuvaajassa organisaatiolle on merkittävää se miten erilaisilla tavoilla voidaan ryhmille taloustoimia tilihierarkinoiden eri versioiden suhteen.

tietomalli-dimensio-hierarkiat
Kuvio 1: tietomalli-dimensio-hierarkiat

Tietomallintaminen mahdollistaa analytiikan ja kokonaisvaltaisen organisaation suorituskyvyn seurannan

Ready Solutionsin data-alustojen kehittämisen palveluiden yhteydessä kehitystiimillä on tarvittava tietomallintamisen osaaminen jolla asiakkaan tavoitteet muutetaan teknisiksi ratkaisuiksi. Laita viestiä ohessa olevalla lomakkeella, jos haluat kuulla miten teknisesti ratkaisisimme haasteesi!

Lisää ajankohtaisia julkaisuja:

Lakehouse – analytiikan data-alustan loogiset kerrokset ja tietomallit
Tutustu tarinaan
Aikasarjamallien ennustekäyttö tuotannossa ja ennusteiden aikasarjojen laadunvarmistus
Tutustu tarinaan
Mitä tarkoittaa sovellusten suorituskyvyn mittaaminen Azuressa?
Tutustu tarinaan
Azuren palvelut integraatioalustana
Tutustu tarinaan
Mitä on luottoriskien hallinnan data-analytiikka?
Tutustu tarinaan

Lisää ajankohtaisia julkaisuja:

Lakehouse – analytiikan data-alustan loogiset kerrokset ja tietomallit
Tutustu tarinaan
Aikasarjamallien ennustekäyttö tuotannossa ja ennusteiden aikasarjojen laadunvarmistus
Tutustu tarinaan
Mitä tarkoittaa sovellusten suorituskyvyn mittaaminen Azuressa?
Tutustu tarinaan
Azuren palvelut integraatioalustana
Tutustu tarinaan
Mitä on luottoriskien hallinnan data-analytiikka?
Tutustu tarinaan