Esittelyssä kolme yleistä tietomallinnusmenetelmää
Mitä on tietomallinnus?
Tietomallit määrittävät ja dokumentoivat organisaation liiketoimintaprosesseissaan käsittelemät asiat käsitteinä ja toisaalta dataobjekteina omine ominaisuuksineen. Tietomallinnus on kokonaisarkkitehtuurin osa-alueen informaatioarkkitehtuuri osa. Tietomallinnus voidaan aloittaa korkean tason käsitteiden mallinnuksesta (conceptual data modeling), josta seuraava askel on looginen tietomalli ja lopuksi päädytään fyysiseen tietomalliin. Fyysinen tietomalli on lopulta se joka teknisesti määrittää sen miten tietomalli on toteutettu erilaisissa tietojärjestelmissä joihin myös analytiikan järjestelmät kuuluvat.
Tietomallinnusmenetelmät tietovarastoinnissa
Tässä artikkelissa esitellään kolme tietomallinnusmenetelmää fyysisen tietomallin tekemiseen. Tarkoituksena on näyttää miten erilaisia taulurakenteet ovat riippuen siitä mikä menetelmä on valittu. Tämä on tarkoitettu enemmän johdatukseksi aihepiiriin - tyyppiseksi kirjoitukseksi, eikä se suinkaan sisällä kaikkia mahdollisia yksityiskohtia joita eri ratkaisuihin liittyy. Esimerkkinä mallinnusratkaisuissa käytetään myyntilasku, tuote ja asiakas - alueen ilmiötä.
Ensimmäinen malli on dimensionaalisen tietomallinnusmenetelmän mukainen. Dimensionaalisen tietomallinnuksen tekniikan esitteli ensimmäisen kerran Ralph Kimball 1990 - luvulla ja se on yksi käytetyimpiä menetelmiä tietovarastoinnissa tai vähintäänkin modernin data-alustan esityskerroksen osana. Dimensionaaliset mallit ovat helposti ymmärrettäviä, joustavia ja niistä saa helposti raportointivälineiden perustoiminnallisuuksin erilaisia summatunnuslukuja ulos. Kääntöpuolena dimensionaalisessa mallissa on että ne tallentavat ylimääräistä dataa ja mallinnus edellyttää etukäteen tiettyjen asioiden määrittämistä.
Dimensionaalista mallia ei ole optimoitu operatiivisten järjestelmien pohjaksi. Malli ei myöskään tallenna kaikkia muutoksia lähdejärjestelmissä, vaikkakin dimensionaalisen tietomallinnustekniikan SCD2 - tyyppisillä ominaisuuksilla dimensioissa se olisikin mahdollista.
Seuraava malli on 3. normaalimuodon mukainen (yleisesti puhutaan myös normalisaatiosta), jonka esitteli E.F.Codd jo 70-luvulla. Normaalimuotoja on tunnistettu yhteensä 6 kappaletta (1-6), mutta kolmatta normaalimuotoa pidetään yleensä riittävänä tarjoamaan riittävän yksinkertaisen tietomallin kuitenkin poistaen Update, Insert ja Delete -operaatioihin liittyviä anomalioita. Normalisointi poistaa datan turhaa/päällekkäistä tallentamista ja sitä käytetään operaatiivisissa järjestelmissä joissa on runsaasti insert ja update -operaatioita (OLTP - online transaction processing).
Viimeisenä esittelyssä on Dan Lindstedin julkaisema Data Vault (DV) - metodologiaan. Data Vaulttia käytetään dimensionaalisen mallinnustekniikan tavoin pääasiassa tietovarastoinnin - projekteissa, vaikkakin menetelmä tarjoaa keinot yhdistää relaatiomallin mukaisia ja tietoaltaan / Data Laken puolelle tallennettuja objekteja. Data Vault - metodologia on selvästi monimutkaisempi kuin edellä mainitut menetelmät, ainakin taulujen määrällä mitattuna. DV ei ole vielä kaikkein käytetyin menetelmä, joskin sillä on intohimoinen kannattajajoukko. Menetelmä tallentaa kaikki lähes kaikki muutokset lähdejärjestelmästä, joka on voi olla tietyissä tilanteissa toimiva ratkaisu. Kyselyjen tekeminen tähän malliin on selvästi monimutkaisempaa kuin esimerkiksi dimensionaalisesta mallista, jonka vuoksi DV:n lisänä on useimmiten myös dimensionaalinen informaatiomart - kerros.
Tietomallinnusmenetelmät Lakehouse – analytiikan toteutuksessa
Nykyään yleistynyt Lakehouse - analytiikka on muuttanut asioita, aiemmin oli selvää, että tarvittiin erikseen jonkinlainen analyyttinen tietokantatuote, joka pystyi toimimaan vahvasti tietomallinnetun tiedon tarjoamisen näkökulmasta analytiikan hyödyntämisen keskiössä. Tällöin erilaiset Lakehouse – analytiikan toteutuksen teknologiat käsitettiin enemmän big datan kaltaisen datan käsittelyn moottoreina ja toisaalta datan pitkäaikaisen tallennuksen edullisina ratkaisuina.
Modernit teknologiat ovat kuitenkin tuoneet uusia mahdollisuuksia eikä ole enää itsestään selvää, että välttämättä olisi tarvetta erilliselle tietokantatuotteelle ja tietovarastoinnille osana data-alustaa. Näemme että Lakehouse – teknologioiden hyödyntäminen on järkevä valinta kustannustehokkaaseen ja monia erilaisia ominaisuuksia tarjoavaan data-alustan kehitystyöhön.
Lakehouse – analytiikassa rakennetaan looginen kerrosarkkitehtuuri ja tietomallinnukseen on useimmiten suoraviivaisinta käyttää Kimballin dimensionaalista tietomallinnusmenetelmää.
Ready Solutions tarjoaa Microsoft Fabriciin ja Azure Databricksin palveluihin perustuvaa asiantuntijapalvelua Microsoftin Azuressa, näemme että molemmat näistä voivat tarjota kokonaisvaltaista analytiikan kehittämiskokemusta hyvin erilaisille organisaatioille.