Ajankohtaista

Azure Databricks – Data Intelligence Platform

Azure Databricks tarjoaa kokonaisvaltaista analytiikan kehittäjäkokemusta

Databricks kehittää analytiikan kokonaispalvelua, jossa yhdistyy erilaisia datankäsittelyn moottoreita yhdessä avointeiden tiedostomuotojen kanssa Object Storage – tyyppisissä tiedontallennusratkaisuissa, joista Azure Storage on yksi esimerkki. Spark on ollut pitkään keskeinen datankäsittelyn moottori Databricksissa ja yhtiön perustajilla on ollut suuri rooli Sparkin kehityksessä. Databricks palveluna on käytettävissä kaikissa kolmessa suuressa globaalissa pilvipalvelussa. Tässä kirjoituksessa käsitellään nimenomaan Azure Databricksiä ja sen ominaisuuksia kehittäjän näkökulmasta.

Azure Databricksin palveluita voivat käyttää Data Engineer, Data Scientist, Machine Learning Engineer ja Data Analyst – rooleissa työskentelevät kehittäjät erityyppisissä organisaatioissa.

Lyhyenä yhteenvetona voidaan todeta, että Azure Databricks on Databricksin Azuressa tarjoama kokonaisvaltainen analytiikkapalvelu.

Datan käsittelyn moottorit

Eräs keskeisiä moderneja datan käsittelyn moottoreita on Spark, käyttäjän ei tarvitse itse hallinnoida laskentaklustereita, vaan ne ovat Databricksin Microsoftin Azuressa operoimia. Spark itsessään on massiivisen hajautetun rinnakkaislaskennan työkuormiin tarkoitettu.

Azure Databricksin Serverless SQL - ominaisuudet mahdollistavat tietovarastoinnin ja analyyttiset SQL – kyselyt Azure Storageen tallennettaviin avoimen tiedostoformaatin tietorakenteisiin. Tällä tavalla Databricks Azuressa tarjoaa suoraan käytettäväksi tarkoitukseensa optimoituja tietovarastoinnin klustereita.

Tapahtumavirta / telemetriadatan analysointiin on tarjolla Delta Live Tables – ominaisuus, joka mahdollistaa helpohkon tavan määritellä datan käsittelyn automaattisia tietovirtoja. Tällöin ei luoda käsittelyyn Spark – tehtäviä, joita suoritetaan vaan enemmänkin määritellään objekteja jotka toteuttavat datan käsittelyä.

Azure Databricksin ja toisaalta yleisesti Databricksin datan käsittelyn moottorit tukevat hyvin monenlaisia analytiikan ja koneoppimisen / tekoälyn hyödyntämisen käyttötapauksia.

Avoimet tiedostoformaatit ytimessä

Azure Databricksissä datan pysyväistallennus ja datan käsittelyn erilaiset tarpeen mukaiset moottorit ovat aidosti erotettu toisistaan, tämä on mahdollista määrittämällä sopivalla tavalla Azure Storagessa sijaitsevat hakemistorakenteet.

Databricksin käyttämä Delta Lake – tallennuskerros hyödyntää avoimen lähdekoodin Delta Tables – ominaisuutta, joka on laajennos pitkään käytössä olleiden parquet – tiedostojen päällä.

Delta – taulut mahdollistavat myös tietynlaisen versiohistoriaan palaamisen.

Koneoppiminen ja MLOps Azure Databricksissa

Azure Databricks tarjoaa MLflown toiminnallisuuksien osalta seuraavanlaisia osioita koneoppimismallien kehittämiseen sekä elinkaarenhallintaan.

Koneoppimismallien kehitysvaiheen tulosten seuraaminen ja tallennus, Experiments
Mallien ylläpidon, Models
Mallien hyödyntämisprosessia käytettävien syötteiden eli ominaisuuksien hallinnan, Feature Store Unity Catalogin kautta
Mallien hyödyntämisen eli scoring – operaatiot

Tarkemmin käytettävissä olevat ominaisuudet koneoppimismallien kehittämiseen ja elinkaarenhallintaan on kuvattu tässä.

Tietovirtojen ja tehtävien orkesterointi

Azure Databricksissa on mahdollista hyödyntää sen omia toiminnallisuuksia erilaisten työnkulkujen orkesterointiin, tämän lisäksi vaikkapa yksittäisiä Notebookeja ja niiden välisiä riippuvuuksia voidaan hallinnoida Azure Data Factoryä tai muuta vastaavaa palvelua käyttäen. Tai hyödyntää suoraan Jobs API – toiminnallisuutta.

Tarkemmin asia on kuvattu tässä.

Azure Databricks ja Unity Catalog

Unity Catalog tarjoaa keskitettyä käyttöoikeuksien, auditoinnin ja data discovery toiminnallisuuksia määriteltyjen Azure Databricksin työtilojen suhteen.

Unity Catalogin metastoren avulla hallitaan metadataa liittyen catalogeihin, skeemoihin ja skeeman alla oleviin objekteihin kuten tauluihin liittyen.

Unity Catalogin kautta voidaan myös hallita keskitetysti credentiaaleja ja ulkoisia sijainteja joihin pääsy määritellään Unity Catalogissa.

Azure Databricksin käyttökustannusten muodostuminen

Azure Databricksissa kustannusten muodostumiseen vaikuttaa haluttu Databricksin tilin taso sekä eräänlainen laskennallinen käyttökustannus klusterien suorituskykytason sekä eräiden lisäominaisuuksien mukaisesti. Kustannukset muodostuvat siis laskentakapasiteetin käytöstä.

Tämän lisäksi Azure Storagessa käytetty tallennustila sekä joissain tapauksissa alueiden välinen tiedonsiirto tuottavat kustannuksia.

Miten lähteä liikkeelle Azure Databricksin kanssa?

Me Ready Solutions Oy olemme tehneet vuosia töitä asiakkaidemme Microsoftin Azuren data-palveluiden parissa, tiedämme erilaiset tarpeet analytiikalle ja tietolähteiden kirjon. Ota yhteyttä alla olevalla lomakkeella ja keskustellaan yhdessä siitä, miten Azure Databricks voisi auttaa organisaatiotasi yhtenäisen analytiikkaympäristön mahdollistajana!

Lisää ajankohtaisia julkaisuja:

Lisää ajankohtaisia julkaisuja:

Mitä on platform engineering Azuressa?

Tutustu tarinaan

Mitä on prosessiautomaatio Azuressa?

Tutustu tarinaan

Mitä on Data Science tai datatiede?

Tutustu tarinaan

Mikä on datatuote?

Tutustu tarinaan

Mitä on data engineering?

Tutustu tarinaan

Azure Databricks – Data Intelligence Platform

Azure Databricks tarjoaa kokonaisvaltaista analytiikan kehittäjäkokemusta

Datan käsittelyn moottorit

Avoimet tiedostoformaatit ytimessä

Koneoppiminen ja MLOps Azure Databricksissa

Tietovirtojen ja tehtävien orkesterointi

Azure Databricks ja Unity Catalog

Azure Databricksin käyttökustannusten muodostuminen

Miten lähteä liikkeelle Azure Databricksin kanssa?

Lisää ajankohtaisia julkaisuja:

Mitä on platform engineering Azuressa?

Mitä on prosessiautomaatio Azuressa?

Mitä on Data Science tai datatiede?

Mikä on datatuote?

Mitä on data engineering?

Lisää ajankohtaisia julkaisuja:

Mitä on platform engineering Azuressa?

Mitä on prosessiautomaatio Azuressa?

Mitä on Data Science tai datatiede?

Mikä on datatuote?

Mitä on data engineering?

Kuinka voimme olla avuksi?

Yhteydenottopyyntö

Tilaa uutiskirjeemme

Ready Solutions

Asiantuntemus

Ratkaisut

Konsultointi

Yritys

Asiantuntemuksemme

Pilvipalvelut

Data-alustan kehittäminen

Sovellukset

Edistynyt analytiikka

Ratkaisumme

Ready Industrial Analytics

Ready Business Analytics

Ready HR Analytics

Ready Energy Analytics

Konsultointipalvelumme

Microsoft Fabric

Power Platform

Hallintamalli Azuressa

Azure Databricks

Azure Data Platform

Energia-, kaasu- ja vesitoimiala

Ennusteet, koneoppiminen ja tekoäly

Koulutus

Azure Databricks – Data Intelligence Platform

Azure Databricks tarjoaa kokonaisvaltaista analytiikan kehittäjäkokemusta

Datan käsittelyn moottorit

Avoimet tiedostoformaatit ytimessä

Koneoppiminen ja MLOps Azure Databricksissa

Tietovirtojen ja tehtävien orkesterointi

Azure Databricks ja Unity Catalog

Azure Databricksin käyttökustannusten muodostuminen

Miten lähteä liikkeelle Azure Databricksin kanssa?

Lisää ajankohtaisia julkaisuja:

Mitä on platform engineering Azuressa?

Mitä on prosessiautomaatio Azuressa?

Mitä on Data Science tai datatiede?

Mikä on datatuote?

Mitä on data engineering?

Lisää ajankohtaisia julkaisuja:

Mitä on platform engineering Azuressa?

Mitä on prosessiautomaatio Azuressa?

Mitä on Data Science tai datatiede?

Mikä on datatuote?

Mitä on data engineering?

Kuinka voimme olla avuksi?

Yhteydenottopyyntö

Tilaa uutiskirjeemme

Ready Solutions

Asiantuntemus

Ratkaisut

Konsultointi

Yritys