Azure Databricks – Data Intelligence Platform

Azure pilven datapalvelut

Azure Databricks tarjoaa kokonaisvaltaista analytiikan kehittäjäkokemusta

Databricks kehittää analytiikan kokonaispalvelua, jossa yhdistyy erilaisia datankäsittelyn moottoreita yhdessä avointeiden tiedostomuotojen kanssa Object Storage – tyyppisissä tiedontallennusratkaisuissa, joista Azure Storage on yksi esimerkki. Spark on ollut pitkään keskeinen datankäsittelyn moottori Databricksissa ja yhtiön perustajilla on ollut suuri rooli Sparkin kehityksessä. Databricks palveluna on käytettävissä kaikissa kolmessa suuressa globaalissa pilvipalvelussa. Tässä kirjoituksessa käsitellään nimenomaan Azure Databricksiä ja sen ominaisuuksia kehittäjän näkökulmasta.

Azure Databricksin palveluita voivat käyttää Data Engineer, Data Scientist, Machine Learning Engineer ja Data Analyst – rooleissa työskentelevät kehittäjät erityyppisissä organisaatioissa.

Lyhyenä yhteenvetona voidaan todeta, että Azure Databricks on Databricksin Azuressa tarjoama kokonaisvaltainen analytiikkapalvelu.

Datan käsittelyn moottorit

Eräs keskeisiä moderneja datan käsittelyn moottoreita on Spark, käyttäjän ei tarvitse itse hallinnoida laskentaklustereita, vaan ne ovat Databricksin Microsoftin Azuressa   operoimia. Spark itsessään on massiivisen hajautetun rinnakkaislaskennan työkuormiin tarkoitettu.

Azure Databricksin Serverless SQL - ominaisuudet mahdollistavat tietovarastoinnin ja analyyttiset SQL – kyselyt Azure Storageen tallennettaviin avoimen tiedostoformaatin tietorakenteisiin. Tällä tavalla Databricks Azuressa tarjoaa suoraan käytettäväksi tarkoitukseensa optimoituja tietovarastoinnin klustereita.

Tapahtumavirta / telemetriadatan analysointiin on tarjolla Delta Live Tables – ominaisuus, joka mahdollistaa helpohkon tavan määritellä datan käsittelyn automaattisia tietovirtoja. Tällöin ei luoda käsittelyyn Spark – tehtäviä, joita suoritetaan vaan enemmänkin määritellään objekteja jotka toteuttavat datan käsittelyä.

Azure Databricksin ja toisaalta yleisesti Databricksin datan käsittelyn moottorit tukevat hyvin monenlaisia analytiikan ja koneoppimisen / tekoälyn hyödyntämisen käyttötapauksia.

Avoimet tiedostoformaatit ytimessä

Azure Databricksissä datan pysyväistallennus ja datan käsittelyn erilaiset tarpeen mukaiset moottorit ovat aidosti erotettu toisistaan, tämä on mahdollista määrittämällä sopivalla tavalla Azure Storagessa sijaitsevat hakemistorakenteet.

Databricksin käyttämä Delta Lake – tallennuskerros hyödyntää avoimen lähdekoodin Delta Tables – ominaisuutta, joka on laajennos pitkään käytössä olleiden parquet – tiedostojen päällä.

Delta – taulut mahdollistavat myös tietynlaisen versiohistoriaan palaamisen.

Koneoppiminen ja MLOps Azure Databricksissa

Azure Databricks tarjoaa MLflown toiminnallisuuksien osalta seuraavanlaisia osioita koneoppimismallien kehittämiseen sekä elinkaarenhallintaan.

  • Koneoppimismallien kehitysvaiheen tulosten seuraaminen ja tallennus, Experiments
  • Mallien ylläpidon, Models
  • Mallien hyödyntämisprosessia käytettävien syötteiden eli ominaisuuksien hallinnan, Feature Store Unity Catalogin kautta
  • Mallien hyödyntämisen eli scoring – operaatiot

Tarkemmin käytettävissä olevat ominaisuudet koneoppimismallien kehittämiseen ja elinkaarenhallintaan on kuvattu tässä.

Tietovirtojen ja tehtävien orkesterointi

Azure Databricksissa on mahdollista hyödyntää sen omia toiminnallisuuksia erilaisten työnkulkujen orkesterointiin, tämän lisäksi vaikkapa yksittäisiä Notebookeja ja niiden välisiä riippuvuuksia voidaan hallinnoida Azure Data Factoryä tai muuta vastaavaa palvelua käyttäen. Tai hyödyntää suoraan Jobs API – toiminnallisuutta.

Tarkemmin asia on kuvattu tässä.

Azure Databricks ja Unity Catalog

Unity Catalog tarjoaa keskitettyä käyttöoikeuksien, auditoinnin ja data discovery toiminnallisuuksia määriteltyjen Azure Databricksin työtilojen suhteen.

Databricks Unity Catalog

Unity Catalogin metastoren avulla hallitaan metadataa liittyen catalogeihin, skeemoihin ja skeeman alla oleviin objekteihin kuten tauluihin liittyen.

Unity Catalogin kautta voidaan myös hallita keskitetysti credentiaaleja ja ulkoisia sijainteja joihin pääsy määritellään Unity Catalogissa.

Azure Databricksin käyttökustannusten muodostuminen

Azure Databricksissa kustannusten muodostumiseen vaikuttaa haluttu Databricksin tilin taso sekä eräänlainen laskennallinen käyttökustannus klusterien suorituskykytason sekä eräiden lisäominaisuuksien mukaisesti. Kustannukset muodostuvat siis laskentakapasiteetin käytöstä.

Tämän lisäksi Azure Storagessa käytetty tallennustila sekä joissain tapauksissa alueiden välinen tiedonsiirto tuottavat kustannuksia.

Miten lähteä liikkeelle Azure Databricksin kanssa?

Me Ready Solutions Oy olemme tehneet vuosia töitä asiakkaidemme Microsoftin Azuren data-palveluiden parissa, tiedämme erilaiset tarpeet analytiikalle ja tietolähteiden kirjon. Ota yhteyttä alla olevalla lomakkeella ja keskustellaan yhdessä siitä, miten Azure Databricks voisi auttaa organisaatiotasi yhtenäisen analytiikkaympäristön mahdollistajana!

Lisää ajankohtaisia julkaisuja:

Mitä on Unit Economics -analyysi?
Tiedät liikevaihtosi, katteesi ja tuloksesi — mutta tiedätkö, tuottaako yksittäinen asiakkuus enemmän arvoa kuin sen hankkiminen ja palveleminen maksaa? Unit economics vastaa juuri tähän kysymykseen. Tämä artikkeli avaa, mitä unit economics tarkoittaa, mistä komponenteista se rakentuu ja miten sitä sovelletaan käytännössä — esimerkkinä sopimusperusteinen B2C-liiketoiminta, jossa asiakas voi pitää yhtä aikaa useita voimassaolevia sopimuksia.
Tutustu tarinaan
Millainen on data-alustan kehittämisprojekti?
Organisaation data-alustan rakentaminen tai modernisointi ei ole perinteinen IT-projekti. Se on kehityshanke, jossa teknologia, liiketoiminnan ymmärrys ja tiedonhallinta kietoutuvat yhteen — ja jossa todellinen työ alkaa vasta kun oikea data kohtaa oikean maailman haasteet. Tässä blogissa pureudumme data-alustaprojektin luonteeseen, vaiheisiin, riskeihin ja parhaisiin käytäntöihin. Käymme läpi, miksi data-alustaprojekti on enemmän tutkimusmatka kuin kartta, ja miten tekoäly muuttaa tätä kokonaisuutta.
Tutustu tarinaan
Mitä on henkilöstöanalytiikka
Jokainen organisaatio tekee jatkuvasti päätöksiä ihmisistä — rekrytoinneista, palkankorotuksista, osaamisen kehittämisestä, työvoimasuunnittelusta. Mutta kuinka moni näistä päätöksistä perustuu dataan? Tämä artikkeli avaa, mitä henkilöstöanalytiikka käytännössä tarkoittaa, mitä hyötyjä se tuo ja miten hajallaan oleva HR-data muutetaan päätöksentekoa ohjaavaksi kokonaisuudeksi.
Tutustu tarinaan
Datasopimus käytännössä — miten data-alustan luotettavuus rakennetaan
Datatiimit käyttävät jopa 40–60 % ajastaan virheiden selvittämiseen, joiden syy on muualla. Sarake vaihtaa nimeä, tyyppi muuttuu, kenttä alkaa tulla tyhjänä — ja loppupään raportit hajoavat ääneti. Datasopimus estää tämän tekemällä odotukset näkyviksi ja valvottaviksi.
Tutustu tarinaan
Mitä on tekoälyavustettu sovelluskehitys?
Lisää tuottavuutta ohjelmistokehitykseen agenttisella kehityksellä.
Tutustu tarinaan

Lisää ajankohtaisia julkaisuja:

Mitä on Unit Economics -analyysi?
Tiedät liikevaihtosi, katteesi ja tuloksesi — mutta tiedätkö, tuottaako yksittäinen asiakkuus enemmän arvoa kuin sen hankkiminen ja palveleminen maksaa? Unit economics vastaa juuri tähän kysymykseen. Tämä artikkeli avaa, mitä unit economics tarkoittaa, mistä komponenteista se rakentuu ja miten sitä sovelletaan käytännössä — esimerkkinä sopimusperusteinen B2C-liiketoiminta, jossa asiakas voi pitää yhtä aikaa useita voimassaolevia sopimuksia.
Tutustu tarinaan
Millainen on data-alustan kehittämisprojekti?
Organisaation data-alustan rakentaminen tai modernisointi ei ole perinteinen IT-projekti. Se on kehityshanke, jossa teknologia, liiketoiminnan ymmärrys ja tiedonhallinta kietoutuvat yhteen — ja jossa todellinen työ alkaa vasta kun oikea data kohtaa oikean maailman haasteet. Tässä blogissa pureudumme data-alustaprojektin luonteeseen, vaiheisiin, riskeihin ja parhaisiin käytäntöihin. Käymme läpi, miksi data-alustaprojekti on enemmän tutkimusmatka kuin kartta, ja miten tekoäly muuttaa tätä kokonaisuutta.
Tutustu tarinaan
Mitä on henkilöstöanalytiikka
Jokainen organisaatio tekee jatkuvasti päätöksiä ihmisistä — rekrytoinneista, palkankorotuksista, osaamisen kehittämisestä, työvoimasuunnittelusta. Mutta kuinka moni näistä päätöksistä perustuu dataan? Tämä artikkeli avaa, mitä henkilöstöanalytiikka käytännössä tarkoittaa, mitä hyötyjä se tuo ja miten hajallaan oleva HR-data muutetaan päätöksentekoa ohjaavaksi kokonaisuudeksi.
Tutustu tarinaan
Datasopimus käytännössä — miten data-alustan luotettavuus rakennetaan
Datatiimit käyttävät jopa 40–60 % ajastaan virheiden selvittämiseen, joiden syy on muualla. Sarake vaihtaa nimeä, tyyppi muuttuu, kenttä alkaa tulla tyhjänä — ja loppupään raportit hajoavat ääneti. Datasopimus estää tämän tekemällä odotukset näkyviksi ja valvottaviksi.
Tutustu tarinaan
Mitä on tekoälyavustettu sovelluskehitys?
Lisää tuottavuutta ohjelmistokehitykseen agenttisella kehityksellä.
Tutustu tarinaan