Esittelyssä kolme yleistä tietomallinnusmenetelmää

Mitä on tietomallinnus?

Tietomalli määrittää ja dokumentoi ohjelmiston perussuunnittelun data-näkökulmasta. Mallinnus voidaan aloittaa korkean tason käsitteiden mallinnuksesta (conceptual data modeling), josta seuraava askel on looginen tietomalli ja lopuksi päädytään fyysiseen tietomalliin. Tässä artikkelissa esitellään kolme tietomallinnusmenetelmää fyysisen tietomallin tekemiseen. Tarkoituksena on näyttää miten erilaisia taulurakenteet ovat riippuen siitä mikä menetelmä on valittu. Tämä on tarkoitettu enemmän johdatukseksi aihepiiriin – tyyppiseksi kirjoitukseksi, eikä se suinkaan sisällä kaikkia mahdollisia yksityiskohtia joita eri ratkaisuihin liittyy.  Esimerkkinä mallinnusratkaisuissa käytetään myyntilasku, tuote ja asiakas – alueen ilmiötä.

Ensimmäinen malli alla on dimensionaalisen tietomallinnusmenetelmän mukainen. Dimensioonalisen tietomallinnuksen
tekniikan esitteli ensimmäisen kerran Ralph Kimball 1990 – luvulla ja se on yksi käytetyimpiä menetelmiä tietovarastoinnissa tai vähintäänkin modernin data-alustan esityskerroksen osana. Dimensionaaliset mallit ovat helposti ymmärrettäviä, joustavia ja niistä saa helposti raportointivälineiden perustoiminnallisuuksin erilaisia summatunnuslukuja ulos. Kääntöpuolena dimensionaalisessa mallissa on että ne tallentavat ylimääräistä dataa ja mallinnus edellyttää etukäteen tiettyjen asioiden kiinnittämistä.

Dimensionaalista mallia ei ole optimoitu operatiivisten järjestelmien pohjaksi. Alla oleva malli ei myöskään tallenna kaikkia muutoksia lähdejärjestelmissä, vaikkakin dimensionaalisen tietomallinnustekniikan SCD2 – tyyppisillä ominaisuuksilla dimensioissa se olisikin mahdollista.

Seuraava malli on 3. normaalimuodon mukainen (yleisesti puhutaan myös normalisaatiosta), jonka esitteli E.F.Codd jo 70-luvulla. Normaalimuotoja on tunnistettu yhteensä 6 kappaletta (1-6), mutta kolmatta normaalimuotoa pidetään yleensä riittävänä tarjoamaan riittävän yksinkertaisen tietomallin kuitenkin poistaen Update, Insert ja Delete -operaatioihin liittyviä anomalioita. Normalisointi poistaa datan turhaa/päällekkäistä tallentamista ja sitä käytetään operaatiivisissa järjestelmissä joissa on runsaasti insert ja update -operaatioita (OLTP  – online transaction processing).

Viimeisenä esittelyssä on Dan Lindstedin julkaisema Data Vault (DV) – metodologiaan kuuluva tietomallinnusosion. Data Vaulttia käytetään dimensionaalisen mallinnustekniikan tavoin pääasiassa tietovarastoinnin – projekteissa, vaikkakin menetelmä tarjoaa keinot yhdistää relaatiomallin mukaisia ja Data Laken puolelle tallennettuja objekteja. Alla olevasta kuvasta voi todeta että Data Vault – metodologia on selvästi monimutkaisempi kuin edellä mainitut menetelmät, ainakin taulujen määrällä mitattuna. DV ei ole kaikkein käytetyin menetelmä, joskin sillä on intohimoinen kannattajajoukko. Menetelmä tallentaa kaikki lähes kaikki muutokset lähdejärjestelmästä, joka on voi olla tietyissä tilanteissa toimiva ratkaisu. Esimerkkimallista voi nähdä kyselyjen tekeminen tähän malliin on selvästi monimutkaisempaa kuin esimerkiksi dimensionaalisesta mallista.

 

Lisätietoja

The Data Warehouse Toolkit

Building a Scalable Data Warehouse with Data Vault 2.0