Data Platform: replikointi ja integraatio palveluna

Taustaa

Kirjoitin edellisissä kirjoituksissa 1) ja 2) moderneista data platformeista eli data-alustoista. Data-alusta on organisaation datakeskeisen ajattelumallin keskiössä.

Datakeskeinen ajattelumalli tarkoittaa sitä, että organisaation liiketoimintaprosessit ja käsitemallit ovat tärkeimmät asiat eikä niinkään sovellukset, jotka näitä suorittavat. Datakeskeinen ajattelumalli takaa jatkuvuuden, teknologiat voivat kyllä muuttua mutta tietyt osat prosesseista ja niiden käsittämistä asioista säilyvät.

Data-alusta ja kehityskustannukset

Data-alustan ja siihen liittyvien muiden palveluiden tulee kyetä tarjoamaan laajasti tukea kehittämiselle, alla on kuva data-alustan kehittämiseen liittyvistä palveluista.

Kehittäminen ei ole kuitenkaan ilmaista, mihin asioihin kehittämisessä menee rahaa?

Infra maksaa, joko on-premises mallilla tuotettuna tai pilvipalveluiden kokoelmana. Tyypillisesti pilvipalvelut tarjoavat käyttöön nopeasti joukon tarvittavia palveluita ja samalla saadaan aikaan joustavuutta. Pilvipalvelut muuttavat pääomainvestoinnit käyttömenoiksi ja tarvitaan uudenlaista ajattelua kustannusten seurantaan.

Useimmiten kuitenkin keskeisempi kustannus on ostetut tai itse tuotetut kehityspalvelut, palveluostojen tai maksettujen työvoimakustannusten muodossa. Millä tavalla kehityspalveluiden kustannusta olisi mahdollista alentaa taikka muuttaa osin infrakustannuksiksi?

Kaksi mielenkiintoista tapaa ovat:

  • Replikaatio
  • Integraatio palveluna

Replikaatio

Replikaatio on yksinkertaisesti datan kopiointia lähteestä kohteeseen, alla on lueteltu muutamia mekanismeja:

  • Copy and upsert
    • Pienet lähdedatamäärät
  • Incremental load
    • Muutosindikaattorin valinta
  • Log replication / CDC
    • Tietokannan transaktiologin hyödyntäminen
  • Provider – subscriber
    • PostgreSQL Londiste (Skype)

Hyötyinä ovat usein, että datamäärät voivat olla perinteistä integraatiota pienempiä, voidaan päästä lähes reaaliaikaisuuteen sekä CDC mekanismilla voi olla kevyt jalanjälki lähdetietokannan kannalta.

Ongelmia tai kustannuksia aiheuttavia asioita ovat:

  • Voi vaatia erityistoimenpiteitä DBA-tiimin tai ICT:n taholta
  • Jos synkronisointi epäonnistuu, niin uudelleenkäynnistys ja selvitys mitä jäi tulematta
  • Kattaako yksi tuote riittävän määrän käyttötapauksia?
  • Tiedostointegraatioiden tapauksessa eräajo ehkä yksinkertaisempi ratkaisuna

Perinteisesti on-premises ympäristössä replikointituotteet ovat olleet kalliita ja toisaalta tiettyjen tietokantatuotteiden valmiit toiminnallisuudet eivät välttämättä ole tukeneet sitä että dataa replikoidaan toisenlaisesta järjestelmästä toiseen.

Integraatio palveluna

Integraation palveluna käyttäminen tarkoittaa sitä, että oman kehitystyön kustannusta muutetaan palvelumaksujen muodossa tapahtuvaksi kustannukseksi, tämä voi olla järkevää huomioiden kehittäjien palkkataso ja muut tekijät.

Integraatio palveluna voi parhaimmillaan tarkoittaa sitä, että organisaatio ottaa käyttöön plug – and – play – tyyliin joukon erilaisia connectoreja eli yhteyksiä tietolähteisiin. Nämä vain konfiguroidaan ja sen jälkeen palvelu pitää huolen, että data virtaa tietolähteistä kohteeseen.

Integraatio palveluna tarjoaa ajansäästöä, organisaatio voi heti ottaa käyttöön esimerkiksi markkinoinnin datalähteensä ja maksupalvelupalvelussa olevat transaktiotiedot. Tällöin on mahdollista heti tutkia mitkä kampanjat tuottivat parhaat tuotot käytetyillä panoksilla.

Ready Solutions Oy on Microsoftin lisäksi Fivetran – nimisen integraation palveluna kumppani, voimme tarjota asiakkaillemme mahdollisuuden hyödyntää tällaista palvelua.

Kirjoitan data-alustojen kirjoitussarjan seuraavassa osassa vähän enemmän siitä mitä hyötyjä Fivetran tarjoaa.

Kirjoittajasta

Kirjoittaja Asko Kauppinen
Asko Kaupppinen on Ready Solutions Oy:n konsultti ja osakas.

Kirjoittaja on Ready Solutions Oy:n konsultti, jolla on vuosien kokemus erilaisista data-alustoista.

Asko.kauppinen@readysolutions.fi

+358451374850