Lakehouse – alusta vai tietovarasto moderniin analytiikkakehitykseen?

Azure pilven datapalvelut

Modernien lakehouse – alustojen taustalla olevat teknologiat tarjoavat analyyttisten tietokantatuotteiden ominaisuuksia

Aiemmin oli selvää, että tarvittiin erikseen jonkinlainen analyyttinen tietokantatuote, joka pystyi toimimaan vahvasti tietomallinnetun tiedon tarjoamisen näkökulmasta analytiikan hyödyntämisen keskiössä. Tällöin erilaiset lakehouse – tyyppiset teknologiat käsitettiin enemmän big datan kaltaisen datan käsittelyn moottoreina ja toisaalta datan pitkäaikaisen tallennuksen edullisina ratkaisuina.

Modernit teknologiat ovat kuitenkin tuoneet uusia mahdollisuuksia eikä ole enää itsestään selvää, että välttämättä olisi tarvetta erilliselle analyyttiselle tietokantatuotteelle osana data-alustaa. Mitä tämä sitten käytännössä tarkoittaa analytiikan kehittämisen kannalta, asiaa käsitellään tässä kirjoituksessa?

Lakehouse – alusta ja object storage - tallennusratkaisut

Lakehouse – alustojen teknologioissa yhdistyvät erilaiset joustavat datankäsittelyn moottorit ja toisaalta datan tallennuksen ratkaisut yleisiin pilvipalveluiden object storage – tiedontallennuspalveluihin kuten Azure Storageen. Apache Spark, tai sen kaupalliset johdannaiset kuten Azure Databricks, ovat olleet pitkään keskeisiä datankäsittelyn moottoreita lakehouse – alustoilla.

Lakehouse – alustalla datan pysyväistallennus ja datan käsittelyn erilaiset tarpeen mukaiset moottorit ovat aidosti erotettu toisistaan, samaa dataa on mahdollista käsitellä hyödyntäen useita erilaisia datankäsittelyn moottoreita.

Databricksin käyttämä Delta Lake – tallennuskerros hyödyntää avoimen lähdekoodin Delta Tables – ominaisuutta, joka on laajennos pitkään käytössä olleiden parquet – tiedostojen päällä. Parhaimmillaan käyttäjät voivat hyödyntää erilaisia lakehouse – tauluja datankäsittelyn SQL – moottorin läpi huomaamatta eroa mihinkään tietokantatuotteeseen. Delta – taulut mahdollistavat myös tietynlaisen versiohistoriaan palaamisen.

Delta Lake ei ole ainoa tällainen avoin tiedostoformaatti, myös AWS:n Apache Iceberg on vastaava avoin tiedostoformaatti.

Mitali – arkkitehtuuri jakaa datankäsittelyn eri osa-alueisiin vaiheen perusteella

Mitali – arkkitehtuuri (medallion architecture) tarkoittaa tapaa jäsentää lakehouse - data-alustalla olevat datankäsittelyn kerrokset käsittelyn vaiheen mukaan. Kyseessä on oikeastaan uusi nimi perinteiselle asialle, jota tietovarastoinnissa on käytetty. Mitali – arkkitehtuuriin kuuluu seuraavat kerrokset.

  • Pronssikerros raakadatalle
  • Hopeakerros mallinnetulle datalle
  • Kultakerros loppukäyttäjien käyttämälle datalle

Prosessikerros vastaa siitä, että raakadatat eri lähteistä tulevat datat tulevat käsitellyiksi, hopeakerros muodostaa tietynlaisen tietovarastokerroksen ja kultakerrokseen luodaan optimoituja tietorakenteita. Ei ole itsestään selvää millä tavalla hopeakerroksen data pitäisi mallintaa, vaihtoehtoja on useita ja perinteinen Ralf Kimballin esittämä dimensiomalli voi olla käyttökelpoinen. Toisaalta mikään ei estä mallintamasta hopeakerroksen dataa vaikkapa jotain toimialan tai organisaation tietomallia käyttäen ja hyödyntämällä dimensiomallia vasta kultakerrokseen.

Lakehouse – alustalla varmasti mallinnetaan tietoa, mutta on todennäköistä, että ei ole mitään yksittäistä metodologiaa joka nousee hallitsevaksi.

Azure Databricks ja Microsoft Fabric

Azuressa Microsoft Fabric ja Azure Databricks ovat molemmat hyviä vaihtoehtoja lakehouse – alustan teknologioiksi.

Molemmat mahdollistavat mitali – arkkitehtuurin, jossa data erilaisista tietolähteistä käsitellään kerroksittain ja lopulta tarjotaan loppukäyttäjille eri muodoissaan. Suurin ero näissä on se että lopulta Azure Databricks on ulkoinen palvelu jonka käyttöönottoon liittyy enemmän konfigurointia ja muiden Azuren palveluiden hyödyntämistä, Microsoft Fabric on suoraviivaisempi ottaa käyttöön. Microsoft Fabricin Data Factoryn toiminnallisuudet tarjoavat myös erilaisia low code – kehitystyövälineitä kun taas Azure Databricks perustuu koodipohjaiseen kehittämiseen.

Alla olevassa kuviossa 1 on viitteellinen arkkitehtuurikuvio Azure Databricksin roolista, siinä dataa integroidaan toisaalta perinteisesti mutta myös erilaisia tapahtumapohjaisia teknologioita käyttäen, jotkut visualisoinnit voivat perustua reaaliaikaiseen dataan jota on käsitelty Azure Event Hub ja Delta Live Tables – palveluilla.

Lakehouse Azure Databricks
Kuva 1: Lakehouse Azure Databricks -teknologioin.

Kuviossa 2 puolestaan on viitteellinen arkkitehtuurikuvio samanlaisesta kokonaisuudesta Microsoft Fabricia hyödyntäen, erona Azure Databricksiin on se että osa datankäsittelyn moottoreista on hieman erilaisia ja käytössä on myös low code – kehitysvälineitä.

Lakehouse Microsoft Fabric
Kuva 2: Lakehouse Microsoft Fabric -teknologioin.

Microsoft Fabric ja Azure Databricks ovat moderneja teknologioita analytiikan kehittämiseen lakehouse - alustalla

Näemme että lakehouse – teknologioiden hyödyntäminen on järkevä valinta kustannustehokkaaseen ja monia erilaisia ominaisuuksia tarjoavaan data-alustan kehitystyöhön.

Ready Solutions tarjoaa Microsoft Fabriciin ja Azure Databricksin palveluihin perustuvaa asiantuntijapalvelua Microsoftin Azuressa, näemme että molemmat näistä voivat tarjota kokonaisvaltaista analytiikan kehittämiskokemusta hyvin erilaisille organisaatioille.

Lisää ajankohtaisia julkaisuja:

Mitä on Unit Economics -analyysi?
Tiedät liikevaihtosi, katteesi ja tuloksesi — mutta tiedätkö, tuottaako yksittäinen asiakkuus enemmän arvoa kuin sen hankkiminen ja palveleminen maksaa? Unit economics vastaa juuri tähän kysymykseen. Tämä artikkeli avaa, mitä unit economics tarkoittaa, mistä komponenteista se rakentuu ja miten sitä sovelletaan käytännössä — esimerkkinä sopimusperusteinen B2C-liiketoiminta, jossa asiakas voi pitää yhtä aikaa useita voimassaolevia sopimuksia.
Tutustu tarinaan
Millainen on data-alustan kehittämisprojekti?
Organisaation data-alustan rakentaminen tai modernisointi ei ole perinteinen IT-projekti. Se on kehityshanke, jossa teknologia, liiketoiminnan ymmärrys ja tiedonhallinta kietoutuvat yhteen — ja jossa todellinen työ alkaa vasta kun oikea data kohtaa oikean maailman haasteet. Tässä blogissa pureudumme data-alustaprojektin luonteeseen, vaiheisiin, riskeihin ja parhaisiin käytäntöihin. Käymme läpi, miksi data-alustaprojekti on enemmän tutkimusmatka kuin kartta, ja miten tekoäly muuttaa tätä kokonaisuutta.
Tutustu tarinaan
Mitä on henkilöstöanalytiikka
Jokainen organisaatio tekee jatkuvasti päätöksiä ihmisistä — rekrytoinneista, palkankorotuksista, osaamisen kehittämisestä, työvoimasuunnittelusta. Mutta kuinka moni näistä päätöksistä perustuu dataan? Tämä artikkeli avaa, mitä henkilöstöanalytiikka käytännössä tarkoittaa, mitä hyötyjä se tuo ja miten hajallaan oleva HR-data muutetaan päätöksentekoa ohjaavaksi kokonaisuudeksi.
Tutustu tarinaan
Datasopimus käytännössä — miten data-alustan luotettavuus rakennetaan
Datatiimit käyttävät jopa 40–60 % ajastaan virheiden selvittämiseen, joiden syy on muualla. Sarake vaihtaa nimeä, tyyppi muuttuu, kenttä alkaa tulla tyhjänä — ja loppupään raportit hajoavat ääneti. Datasopimus estää tämän tekemällä odotukset näkyviksi ja valvottaviksi.
Tutustu tarinaan
Mitä on tekoälyavustettu sovelluskehitys?
Lisää tuottavuutta ohjelmistokehitykseen agenttisella kehityksellä.
Tutustu tarinaan

Lisää ajankohtaisia julkaisuja:

Mitä on Unit Economics -analyysi?
Tiedät liikevaihtosi, katteesi ja tuloksesi — mutta tiedätkö, tuottaako yksittäinen asiakkuus enemmän arvoa kuin sen hankkiminen ja palveleminen maksaa? Unit economics vastaa juuri tähän kysymykseen. Tämä artikkeli avaa, mitä unit economics tarkoittaa, mistä komponenteista se rakentuu ja miten sitä sovelletaan käytännössä — esimerkkinä sopimusperusteinen B2C-liiketoiminta, jossa asiakas voi pitää yhtä aikaa useita voimassaolevia sopimuksia.
Tutustu tarinaan
Millainen on data-alustan kehittämisprojekti?
Organisaation data-alustan rakentaminen tai modernisointi ei ole perinteinen IT-projekti. Se on kehityshanke, jossa teknologia, liiketoiminnan ymmärrys ja tiedonhallinta kietoutuvat yhteen — ja jossa todellinen työ alkaa vasta kun oikea data kohtaa oikean maailman haasteet. Tässä blogissa pureudumme data-alustaprojektin luonteeseen, vaiheisiin, riskeihin ja parhaisiin käytäntöihin. Käymme läpi, miksi data-alustaprojekti on enemmän tutkimusmatka kuin kartta, ja miten tekoäly muuttaa tätä kokonaisuutta.
Tutustu tarinaan
Mitä on henkilöstöanalytiikka
Jokainen organisaatio tekee jatkuvasti päätöksiä ihmisistä — rekrytoinneista, palkankorotuksista, osaamisen kehittämisestä, työvoimasuunnittelusta. Mutta kuinka moni näistä päätöksistä perustuu dataan? Tämä artikkeli avaa, mitä henkilöstöanalytiikka käytännössä tarkoittaa, mitä hyötyjä se tuo ja miten hajallaan oleva HR-data muutetaan päätöksentekoa ohjaavaksi kokonaisuudeksi.
Tutustu tarinaan
Datasopimus käytännössä — miten data-alustan luotettavuus rakennetaan
Datatiimit käyttävät jopa 40–60 % ajastaan virheiden selvittämiseen, joiden syy on muualla. Sarake vaihtaa nimeä, tyyppi muuttuu, kenttä alkaa tulla tyhjänä — ja loppupään raportit hajoavat ääneti. Datasopimus estää tämän tekemällä odotukset näkyviksi ja valvottaviksi.
Tutustu tarinaan
Mitä on tekoälyavustettu sovelluskehitys?
Lisää tuottavuutta ohjelmistokehitykseen agenttisella kehityksellä.
Tutustu tarinaan