Millainen on data-alustan kehittämisprojekti?
Miksi data-alustaprojekti ei ole tavallinen IT-hanke
Ohjelmistoprojektissa vaatimukset kirjoitetaan käyttäjätarinoihin, testataan yksikkötesteillä ja lopputuloksena syntyy sovellus. Data-alustaprojekti näyttää pintapuolisesti samalta, on sprinttejä, backlog, tiimi ja tiekartta. Mutta sisältö on hyvin erilainen.
Data-alustaprojektissa on alla olevia erityispiirteitä, jotka erottavat sen perinteisestä ohjelmistoprojektista.
- Vaatimukset syntyvät liiketoiminnan kysymyksistä, eivät käyttöliittymäkuvauksista — "Miten asiakkaan elinkaariarvo kehittyy?" on vaatimus, joka määrittää datan keräämisen, mallintamisen ja raportoinnin
- Laajuus paljastuu vasta työn aikana — lähdejärjestelmien todellinen sisältö, datanlaatu ja dokumentoimattomat liiketoimintasäännöt tulevat esiin kun dataa aletaan käsitellä laajasti yli eri järjestelmien
- Valmis tarkoittaa eri asiaa — projekti ei ole valmis kun koodi on tuotannossa, vaan kun data on oikeaa, ajantasaista ja loppukäyttäjän hyödynnettävissä
Tämä tekee data-alustaprojekteista luonteeltaan tutkimuksellisia. Kokemukseen perustuen arvio voidaan antaa, mutta jokainen lähdejärjestelmä piilottaa yllätyksiä, joita ei löydä muuten kuin tekemällä.
Kolme projektityyppiä — eri lähtökohdat, eri riskit
Kaikki data-alustaprojektit eivät ala tyhjältä pöydältä. Projektityyppi vaikuttaa riskeihin, työmäärään ja päätöksiin.

Uudisrakentaminen (greenfield)
Organisaatiolla ei ole olemassa olevaa data-alustaa — tai nykyinen on niin sirpaleinen, että alusta rakennetaan käytännössä uudelleen.
Etu: Vapaus valita arkkitehtuuri ja työkalut ilman aiemman perinnön aiheuttamaa taakkaa. Moderni lakehouse-arkkitehtuuri, automaattinen testaus ja CI/CD-putket voidaan rakentaa alusta asti.
Riski: Koska rajoitteita on vähän, kunnianhimo kasvaa helposti yli budjetin. Käytännön neuvo on että kannattaa aloittaa parilla keskeisellä lähdejärjestelmällä ja viedä ne tuotantoon ennen seuraavia askeleita.
Modernisointi (brownfield)
Olemassa oleva tietovarasto tai analytiikka-alusta on tuotannossa, mutta vanhentunut, kallis ylläpitää tai teknisesti velkaantunut.
Etu: Liiketoiminta tuntee jo datan arvon. Käyttäjiä ja raportteja on olemassa.
Riski: Muutokset rikkovat olemassa olevia raportteja. Dokumentoimattomat liiketoimintasäännöt ovat piilossa vanhoissa SQL-näkymissä ja Excel-makroissa. Hyvä käytäntö on että uusi rakennetaan vanhan rinnalle, käyttäjät siirretään vaiheittain ja vanha ajetaan alas hallitusti.
Migraatio
Alusta siirretään teknologialta toiselle — esimerkiksi Snowflake-tietovarastosta lakehouse-arkkitehtuuriin, kuten Kuljettavan tapauksessa. Tai on-premise-SQL Serveristä pilveen.
Etu: Tavoite on selkeä — sama toiminnallisuus uudella alustalla, usein paremmalla kustannusrakenteella ja skaalautuvuudella.
Riski: Alustat eivät ole identtisiä. Ominaisuuksia puuttuu, kyselyjen suorituskyky muuttuu ja "samalla kun ollaan muuttamassa, tehdään myös…" -lauseet lisäävät riskiä. Paras käytäntö: migroi ensin, modernisoi sen jälkeen.
Data-alustaprojektin vaiheet

Vaiheet eivät ole puhtaasti peräkkäisiä — ketterässä toimituksessa ne limittyvät sprinttien sisällä. Mutta jokaisessa projektissa käydään läpi samat kokonaisuudet.
1. Kartoitus ja nykytila-analyysi
Ennen kuin mitään rakennetaan, ymmärretään missä ollaan.
- Mitä lähdejärjestelmiä on käytössä ja millainen data niissä on?
- Ketkä kuluttavat dataa ja mihin tarkoitukseen?
- Mikä on datan laatu — onko se profiloitu, vai perustuuko tieto oletuksiin?
- Millaisia teknisiä rajoitteita on: verkko, tietoturva, lisenssit?
Kartoituksen lopputulos on selkeä kuva nykytilasta ja priorisoidut kehityskohteet. Ilman tätä projektilla on riski lähteä väärään suuntaan — tai liian moneen suuntaan yhtä aikaa.
2. Arkkitehtuuri ja suunnittelu
Kartoituksen pohjalta suunnitellaan alustan arkkitehtuuri.
- Lakehouse-arkkitehtuuri on vakiintunut malli: raakadata (bronze) → puhdistettu data (silver) → liiketoimintavalmis data (gold). Tämä ns. medallion-malli tarjoaa selkeän kerrostuksen, jossa datan laatu paranee vaihe vaiheelta.
- Tietomallinnus — miten dimensiot, faktat ja hierarkiat suunnitellaan niin, että raportit ovat nopeita ja dataa on helppo ymmärtää
- Tiedonhallinta — omistajuudet, pääsynhallinta, metadata, datan laadun valvonta. Käytännöllinen tiedonhallinta ei ole päälle liimattu byrokratia, vaan osa suunnittelua alusta asti.
- Datasopimukset — tuottajan ja kuluttajan väliset muodolliset sopimukset siitä, mitä data sisältää, miten usein se päivittyy ja kuka vastaa laadusta
Tässä vaiheessa tehdään myös teknologiavalinnat. Lakehouse voidaan rakentaa esimerkiksi Microsoft Fabricilla, Azure Databricksillä, Snowflakella tai muilla alustoilla — valinta riippuu organisaation ekosysteemistä, osaamistarpeista ja käyttötapauksista.
3. Perustan rakentaminen
Ympäristöt pystytetään, CI/CD-putket konfiguroidaan, tietoturva toteutetaan ja ensimmäinen referenssitoteutus rakennetaan läpi kaikkien kerrosten — yhdestä lähdejärjestelmästä raporttiin asti.
Tämä ensimmäinen end-to-end-putki on projektin tärkein välietappi. Se todistaa, että arkkitehtuuri toimii käytännössä, ja luo mallin jolle kaikki myöhempi kehitys rakentuu.
4. Iteratiivinen kehitys
Tämä on se vaihe, jossa suurin osa työstä tapahtuu. Kehitys etenee domain kerrallaan, sprintti sprintiltä.
Jokainen sprintti tuottaa jotain käyttökelpoista: uuden data-alueen, uusia mittareita, parannetun datan laadun tai uuden raportin. Sprinttikatselmuksissa näytetään oikeaa dataa ja raportteja, ei koodia. Näin liiketoiminta näkee jatkuvasti, syntyykö arvoa.
Tässä vaiheessa tulevat esiin myös vaikeat asiat:
- Lähdejärjestelmän data ei vastaakaan dokumentaatiota
- Liiketoimintasäännöt ovat ristiriitaisia organisaation eri funktioiden välillä
- Saman käsitteen — "asiakas", "liikevaihto", "tuote" — määritelmä vaihtelee järjestelmästä toiseen
Nämä eivät ole epäonnistumisia. Ne ovat data-alustaprojektin luonnollinen osa, ja niiden ratkaiseminen voi olla yksi projektin tuotoksista.
5. Tuotantovalmius
Ennen tuotantokäyttöä varmistetaan:
- Suorituskykytestaus tuotantovolyymeillä — putki joka toimii testidatalla voi kaatua oikeilla tietomäärillä
- Virhetilannetestaus — mitä tapahtuu kun lähdejärjestelmä ei vastaa, putki katkeaa kesken ajon tai datan laatu romahtaa?
- Käyttöohjeet ja kuvaukset — kuka reagoi hälytyksiin, miten eskaloidaan, mitkä ovat palvelutasot
- Osaamisen siirto — alustan ylläpidossta täytyy olla osaamista organisaatiossa, ei vain toimittajalla
Tuotantokäyttö ei ole projekti, joka päättyy käyttöönottoon. Se on uuden syklin alku, jossa data-alusta alkaa tuottaa arvoa liiketoiminnalle — ja jossa jatkuva kehitys ja ylläpito varmistavat, että arvo kasvaa ajan myötä.
6. Jatkuva kehitys
Data-alusta ei ole koskaan "valmis" samalla tavalla kuin sovellus voi olla. Uusia lähdejärjestelmiä tulee, liiketoiminta muuttuu, datamalli kehittyy. Tuotantokäytön jälkeen alkaa jatkuva kehityksen ja ylläpidon sykli johon liittyy seuranta, optimointi, uusien data-alueiden lisääminen ja vanhojen parantaminen. Data-alustaan liittyen voidaan puhua datatuoteajattelusta jossa alusta on infrastruktuuri jolla rakennetaan datatuotteita — ja datatuotteet kehittyvät jatkuvasti.
Testaaminen data-alustaprojektissa — käänteinen testipyramidi

Ohjelmistokehityksessä yksikkötestit ovat testipyramidin perusta. Data-alustaprojekteissa pyramidi on käänteinen.
| Testityyppi | Prioriteetti | Mitä testataan |
|---|---|---|
| Datan laadun validoinnit | Korkein | Rivimäärät, null-tarkistukset, viite-eheys, liiketoimintasääntöjen toteutuminen, tuoreus |
| Integraatiotestit | Korkea | Koko dataputken toiminta realistisella datalla: tuottaako putki oikean lopputuloksen? |
| Suorituskykytestit | Korkea | Putken ajoaika tuotantovolyymeillä, kyselyjen nopeus |
| Sopimustestit | Keskitaso | Tuottajan ja kuluttajan välinen skeemayhteensopivuus |
| Yksikkötestit | Matalampi | Yksittäisten funktioiden logiikka (parsinta, tyyppimuunnokset) |
Syy tähän on se, että data-alustan mielenkiintoiset virheet eivät ole funktion sisällä. Ne syntyvät rajapinnoilla — kun lähdejärjestelmä muuttuu, kun datatyypit eivät vastaa odotuksia tai kun myöhässä saapuva data rikkoo oletuksia.
Mikä erottaa onnistuneen projektin epäonnistuneesta
Dataprojekteissa epäonnistumisen syy on harvoin teknologia. Yleisimmät ongelmat ovat organisatorisia.
- Liian laaja alkuvaiheen rajaus — yritetään liittää kaikki lähdejärjestelmät kerralla sen sijaan, että toimitettaisiin arvoa pienissä erissä
- Tiedonhallinnan puuttuminen — kukaan ei omista dataa, laatuvastuita ei ole ja samat ongelmat toistuvat projektista toiseen
- Osaamisen jääminen toimittajalle — projekti toimitetaan avaimet käteen, mutta asiakas ei opi ylläpitämään alustaa
- Liiketoiminnan etäisyys — dataputkia rakennetaan teknisessä tyhjiössä ilman jatkuvaa palautetta loppukäyttäjiltä
Onnistuneet projektit jakavat yhteisiä piirteitä.
- Aloitetaan pienestä ja laajennetaan arvon kautta — 1–2 lähdejärjestelmää tuotantoon, sitten seuraavat
- Tiedonhallinta rakentuu kehityksen rinnalle, ei erillisenä hankkeena. Käytännöllistä tiedonhallintaa tarkoittaa, että omistajuudet, käsitteet ja laadun valvonta ovat osa jokaista sprinttiä
- Osaaminen siirtyy asiakkaalle — jatkuva sparraus, yhteiset katselmukset ja dokumentaatio varmistavat, että organisaatio pystyy itse hyödyntämään ja kehittämään alustaansa
- Kumppanuus ei pääty käyttöönottoon — paras malli on jatkuva yhteiskehittäminen, jossa alustaa iteroidaan liiketoiminnan tarpeiden mukaan
Tekoälyn rooli data-alustaprojekteissa
Kielimallit toimivat kehittäjän työparina osana kehittämistyövälineitä. Ne generoivat transformaatiokoodia, tunnistavat laatuvirheitä ja tuottavat dokumentaatiota automaattisesti. Käytännössä tämä tarkoittaa alla olevia asioita.
- Nopeampaa kehitystä — rutiininomainen datan transformaatio-koodi syntyy AI-avusteisesti, ja kehittäjän aika vapautuu arkkitehtuuriin ja liiketoimintalogiikkaan
- Parempaa laatua — automaattiset tarkistukset tunnistavat poikkeamat, joita silmä ei huomaa
- Reaaliaikaista dokumentaatiota — koodin ja datan dokumentaatio pysyy ajantasaisena
Agenttinen kehitys
Seuraava askel on autonomiset AI-agentit, jotka suorittavat kokonaisia kehitystehtäviä itsenäisesti. Agentti ei odota kehittäjän ohjausta joka vaiheessa — se vastaanottaa tehtävän, suunnittelee toteutuksen, kirjoittaa koodin, ajaa testit ja toimittaa valmiin pull requestin tarkistettavaksi. Tämä kaikki tapahtuu ilman että kehittäjä kirjoittaa riviäkään koodia itse ja tietoturvallisesti organisaation omissa ympäristöissä, ei enää kehittäjän koneella.
Data-alustakehityksessä tämä on erityisen luontevaa, koska työ on pitkälti toistuvia kaavoja kuten dataputkien rakentamista, medallion-kerrosten transformaatioita, dimensioiden latausta ja laatutarkistuksia. Agentti tunnistaa kaavan, soveltaa sitä oikeaan skeemaan ja liiketoimintasääntöihin ja tuottaa yhtenäistä, standardoitua koodia.
Ihmisen rooli muuttuu: koodin kirjoittajasta arkkitehdiksi ja katselmoijaksi. Kehittäjä määrittelee tavoitteet, tekee arkkitehtuuripäätökset ja tarkistaa agentin tuotokset — mutta ei enää kirjoita jokaista riviä itse. Kehittäjät voivat keskittyä liiketoimintalogiikkaan, tietomallinnukseen ja arkkitehtuuriin, antaen agenttien hoitaa rutiininomaisen koodin tuottamisen.
Yhteenveto — mitä data-alustaprojektilta kannattaa odottaa
Data-alustan kehittämisprojekti on iteratiivinen, tutkimuksellinen ja liiketoimintalähtöinen hanke, jossa:
- Vaiheittainen eteneminen voittaa big bang -lähestymistavan
- Arkkitehtuuri, erityisesti lakehouse ja medallion-malli, antaa rakenteen mutta ei korvaa liiketoimintaymmärrystä
- Tiedonhallinta ja organisointi ratkaisevat enemmän kuin teknologiavalinta
- Osaamisen siirto on projektin onnistumisen edellytys, ei lisäpalvelu
- Tekoäly nopeuttaa kehitystä, mutta ihminen tekee päätökset
Projektin lopputuloksena ei synny pelkkä tekninen alusta. Syntyy kyky tehdä parempia päätöksiä datalla — ja organisaatio, joka osaa ylläpitää ja kehittää tätä kykyä itse.
Suunnitteletko data-alustan kehittämistä?
Aloitetaan maksuttomalla kartoituskeskustelulla. Käymme läpi organisaatiosi nykytilan, tarpeet ja realistisen etenemismallin — ilman sitoumuksia.
Varaa maksuton kartoituskeskustelu →