Lakehouse – alusta vai tietovarasto moderniin analytiikkakehitykseen?

Azure pilven datapalvelut

Modernien lakehouse – alustojen taustalla olevat teknologiat tarjoavat analyyttisten tietokantatuotteiden ominaisuuksia

Aiemmin oli selvää, että tarvittiin erikseen jonkinlainen analyyttinen tietokantatuote, joka pystyi toimimaan vahvasti tietomallinnetun tiedon tarjoamisen näkökulmasta analytiikan hyödyntämisen keskiössä. Tällöin erilaiset lakehouse – tyyppiset teknologiat käsitettiin enemmän big datan kaltaisen datan käsittelyn moottoreina ja toisaalta datan pitkäaikaisen tallennuksen edullisina ratkaisuina.

Modernit teknologiat ovat kuitenkin tuoneet uusia mahdollisuuksia eikä ole enää itsestään selvää, että välttämättä olisi tarvetta erilliselle analyyttiselle tietokantatuotteelle osana data-alustaa. Mitä tämä sitten käytännössä tarkoittaa analytiikan kehittämisen kannalta, asiaa käsitellään tässä kirjoituksessa?

Lakehouse – alusta ja object storage - tallennusratkaisut

Lakehouse – alustojen teknologioissa yhdistyvät erilaiset joustavat datankäsittelyn moottorit ja toisaalta datan tallennuksen ratkaisut yleisiin pilvipalveluiden object storage – tiedontallennuspalveluihin kuten Azure Storageen. Apache Spark, tai sen kaupalliset johdannaiset kuten Azure Databricks, ovat olleet pitkään keskeisiä datankäsittelyn moottoreita lakehouse – alustoilla.

Lakehouse – alustalla datan pysyväistallennus ja datan käsittelyn erilaiset tarpeen mukaiset moottorit ovat aidosti erotettu toisistaan, samaa dataa on mahdollista käsitellä hyödyntäen useita erilaisia datankäsittelyn moottoreita.

Databricksin käyttämä Delta Lake – tallennuskerros hyödyntää avoimen lähdekoodin Delta Tables – ominaisuutta, joka on laajennos pitkään käytössä olleiden parquet – tiedostojen päällä. Parhaimmillaan käyttäjät voivat hyödyntää erilaisia lakehouse – tauluja datankäsittelyn SQL – moottorin läpi huomaamatta eroa mihinkään tietokantatuotteeseen. Delta – taulut mahdollistavat myös tietynlaisen versiohistoriaan palaamisen.

Delta Lake ei ole ainoa tällainen avoin tiedostoformaatti, myös AWS:n Apache Iceberg on vastaava avoin tiedostoformaatti.

Mitali – arkkitehtuuri jakaa datankäsittelyn eri osa-alueisiin vaiheen perusteella

Mitali – arkkitehtuuri (medallion architecture) tarkoittaa tapaa jäsentää lakehouse - data-alustalla olevat datankäsittelyn kerrokset käsittelyn vaiheen mukaan. Kyseessä on oikeastaan uusi nimi perinteiselle asialle, jota tietovarastoinnissa on käytetty. Mitali – arkkitehtuuriin kuuluu seuraavat kerrokset.

  • Pronssikerros raakadatalle
  • Hopeakerros mallinnetulle datalle
  • Kultakerros loppukäyttäjien käyttämälle datalle

Prosessikerros vastaa siitä, että raakadatat eri lähteistä tulevat datat tulevat käsitellyiksi, hopeakerros muodostaa tietynlaisen tietovarastokerroksen ja kultakerrokseen luodaan optimoituja tietorakenteita. Ei ole itsestään selvää millä tavalla hopeakerroksen data pitäisi mallintaa, vaihtoehtoja on useita ja perinteinen Ralf Kimballin esittämä dimensiomalli voi olla käyttökelpoinen. Toisaalta mikään ei estä mallintamasta hopeakerroksen dataa vaikkapa jotain toimialan tai organisaation tietomallia käyttäen ja hyödyntämällä dimensiomallia vasta kultakerrokseen.

Lakehouse – alustalla varmasti mallinnetaan tietoa, mutta on todennäköistä, että ei ole mitään yksittäistä metodologiaa joka nousee hallitsevaksi.

Azure Databricks ja Microsoft Fabric

Azuressa Microsoft Fabric ja Azure Databricks ovat molemmat hyviä vaihtoehtoja lakehouse – alustan teknologioiksi.

Molemmat mahdollistavat mitali – arkkitehtuurin, jossa data erilaisista tietolähteistä käsitellään kerroksittain ja lopulta tarjotaan loppukäyttäjille eri muodoissaan. Suurin ero näissä on se että lopulta Azure Databricks on ulkoinen palvelu jonka käyttöönottoon liittyy enemmän konfigurointia ja muiden Azuren palveluiden hyödyntämistä, Microsoft Fabric on suoraviivaisempi ottaa käyttöön. Microsoft Fabricin Data Factoryn toiminnallisuudet tarjoavat myös erilaisia low code – kehitystyövälineitä kun taas Azure Databricks perustuu koodipohjaiseen kehittämiseen.

Alla olevassa kuviossa 1 on viitteellinen arkkitehtuurikuvio Azure Databricksin roolista, siinä dataa integroidaan toisaalta perinteisesti mutta myös erilaisia tapahtumapohjaisia teknologioita käyttäen, jotkut visualisoinnit voivat perustua reaaliaikaiseen dataan jota on käsitelty Azure Event Hub ja Delta Live Tables – palveluilla.

Lakehouse Azure Databricks
Kuva 1: Lakehouse Azure Databricks -teknologioin.

Kuviossa 2 puolestaan on viitteellinen arkkitehtuurikuvio samanlaisesta kokonaisuudesta Microsoft Fabricia hyödyntäen, erona Azure Databricksiin on se että osa datankäsittelyn moottoreista on hieman erilaisia ja käytössä on myös low code – kehitysvälineitä.

Lakehouse Microsoft Fabric
Kuva 2: Lakehouse Microsoft Fabric -teknologioin.

Microsoft Fabric ja Azure Databricks ovat moderneja teknologioita analytiikan kehittämiseen lakehouse - alustalla

Näemme että lakehouse – teknologioiden hyödyntäminen on järkevä valinta kustannustehokkaaseen ja monia erilaisia ominaisuuksia tarjoavaan data-alustan kehitystyöhön.

Ready Solutions tarjoaa Microsoft Fabriciin ja Azure Databricksin palveluihin perustuvaa asiantuntijapalvelua Microsoftin Azuressa, näemme että molemmat näistä voivat tarjota kokonaisvaltaista analytiikan kehittämiskokemusta hyvin erilaisille organisaatioille.

Lisää ajankohtaisia julkaisuja:

Tietomallit osana informaatioarkkitehtuuria
Tutustu tarinaan
Mitä on saatavienhallinnan analytiikka?
Tutustu tarinaan
Kunnan toiminnan kehittäminen data-analytiikan avulla
Tutustu tarinaan
Tekoälyavustettu OpenAI – sovelluskehitys Azuressa
Tutustu tarinaan
Energia-alan analytiikka
Tutustu tarinaan

Lisää ajankohtaisia julkaisuja:

Tietomallit osana informaatioarkkitehtuuria
Tutustu tarinaan
Mitä on saatavienhallinnan analytiikka?
Tutustu tarinaan
Kunnan toiminnan kehittäminen data-analytiikan avulla
Tutustu tarinaan
Tekoälyavustettu OpenAI – sovelluskehitys Azuressa
Tutustu tarinaan
Energia-alan analytiikka
Tutustu tarinaan