Tekoälyn hyödyntäminen kuvien luonnissa – mahtavat mahdollisuudet – myös väärinkäyttöön.

Viime aikoina sosiaalisessa mediassa on kovaa vauhtia yleistynyt ilmiö, jossa esitellään kuvia, jotka on luotu tekoälyn avulla. Kurkataan nyt siihen, mitä pinnan alla tapahtuu, kun tekoäly muodostaa kuvia pelkän tekstisyötteen perusteella, ja mitä seurauksia tällaisen teknologian kehityksellä voi olla.

Hahmontunnistus on jo pitkään ollut tekoälyn yleisimpiä sovelluskohteita. Esimerkiksi ajoneuvon tunnistus nopeuskameran kuvasta, kameran automaattinen tarkennus kasvoihin ja kaupan tuotteiden tunnistus kassalla ovat tuoneet tekoälyn lähemmäs ihmisten arkipäivää. 

Kuva 1 Neuroverkon yksinkertaistettu toimintaperiaate

Hahmontunnistus perustuu neuroverkkoihin. Menetelmä on saanut nimensä siitä, että toimintaperiaate on sama kuin ihmisaivoissa: yksittäiset neuronit tarkastelevat pieniä yksityiskohtia ja välittävät tietoa eteenpäin seuraavalle tasolle, kunnes pienistä yksityiskohdista muodostuu kokonaiskuva. Neuroverkon koulutus hahmontunnistukseen vaatii opetusaineistoksi kuvia ja selityksiä siitä, mitä kuvassa on. Neuroverkon yksinkertaistettu toimintaperiaate on esitetty kuvassa 1. Neuroverkko käsittelee kuvat pikseli pikseliltä ja päättelee, mitkä yksityiskohdat ovat merkityksellisiä kunkin asian tunnistamisessa. Esimerkiksi suuri joukko keltaisia pikseleitä pitkulaisessa muodossa viittaa siihen, että kuvassa on banaani, ja vastaavasti oranssit pikselit ympyrämäisessä muodossa viittaavat appelsiiniin, kuten kuvassa 2. Jos neuroverkkoa tarvitaan banaanien, appelsiinien ja omenoiden tunnistamiseen, riittää kohtalaisen pieni määrä opetusaineistoa. Jos taas neuroverkon halutaan tunnistavan paljon erilaisia kohteita, kuten ihmisiä, eläimiä, kasveja, esineitä, luonnonilmiöitä ja nähtävyyksiä, tarvitaan aineistoa paljon enemmän. 

Kuva 2 "an orange and a banana"

Kun halutaan muodostaa tekstin perusteella kuva, on sama prosessi tehtävä toiseen suuntaan: jos halutaan kuva banaanista, tarvitaan keltaisia pikseleitä pitkulaiseen muotoon. Käytännössä tämä tapahtuu siten, että aluksi tyhjästä kuvasta tehdään kymmeniä tai satoja eri versioita, joihin tehdään satunnaisia muutoksia. Nämä kuvat syötetään neuroverkolle, joka laskee, kuinka suurella todennäköisyydellä kuva vastaa syötteenä käytettyä tekstiä. Parhaiten syötettä vastaava kuva valitaan seuraavan iteraation lähtökohdaksi, ja siihen tehdään lisää satunnaisia muutoksia. Yksityiskohtia muodostuu pikkuhiljaa lisää, ja lopputuloksena saadaan kuva esim. kuva 3, joka (syötteestä ja neuroverkon opetusdatasta riippuen) saattaa näyttää hyvinkin realistiselta.

Kuva 3 "an orange, a banana and an orange banana"

Text-to-image -työkaluista kenties tunnetuimpia ovat DALL-E, Midjourney, NigthCafe ja Stable Diffusion. Näistä kolme ensimmäistä on kaupallisia ohjelmia, kun taas Stable Diffusion perustuu avoimeen lähdekoodiin ja on kenen tahansa vapaasti käytettävissä. Stable Diffusion eroaa kilpailijoistaan myös siinä, että kuvan tuottamisen vaatima laskentatyö voidaan suorittaa lokaalisti käyttäjän omalla tietokoneella, eikä pilvessä. Tietokoneelta kuitenkin vaaditaan kohtalaisesti graafista suorituskykyä. Tämän blogikirjoituksen kuvat 2-9 on luotu Stable Diffusionin avulla, kuvateksteissä mainitulla syötteellä. 

Vain mielikuvitus on rajana, kun mietitään mahdollisia käyttökohteita tekoälylle. Esimerkiksi viihdeteollisuudessa, kuten elokuvien ja videopelien tuotannossa, saatetaan jo lähitulevaisuudessa hyödyntää tekoälyn avulla luotuja hahmoja, esineitä ja ympäristöjä. Herää kysymys: onko ihmisten tekemälle taiteelle kysyntää maailmassa, jossa tekoäly pystyy luomaan hetkessä ja käytännössä ilmaiseksi teoksia, jotka vaatisivat taiteilijalta päiviä tai viikkoja?

Kuva 4 "a detailed painting of a beautiful snowy mountain at dawn with birds in the distance"

Olisivatko ihmiset kuitenkaan valmiita maksamaan tekoälyn luomasta taideteoksesta? Taiteilija pyrkii usein ilmaisemaan itseään taideteoksen avulla. Tekoäly sen sijaan ei varsinaisesti kykene muuhun kuin tehtävänannon toteuttamiseen sokean laskennan avulla. Se ei kuitenkaan tarkoita, ettei lopputulos voisi olla katsojalle merkityksellinen. Jos taulussa olisi da Vincin sijaan signeeraus Stable Diffusionilta, miten se vaikuttaisi hintaan tai keräilyarvoon?

Kuva 5 "mona lisa but older"

Tekoäly tuskin syrjäyttää perinteistä taidetta, mutta uudenlainen taiteenala saattaa olla syntymässä. Ihmisten luomalle taiteelle tullee aina olemaan kysyntää, ja taiteilijalle tekoäly voi olla hyvinkin hyödyllinen työkalu inspiraation tai uusien ideoiden löytämiseen. Kuvituskuvien tulevaisuus sen sijaan saattaa olla toisenlainen: jos kuvan tarkoituksena on vain havainnollistaminen tai ”täytteenä oleminen”, kuva-arkistot ovat jäämässä tekoälyn jalkoihin ainakin kustannustehokkuudessa. 

Kuva 6 "an afternoon in a consulting company"

Mediassa on jo vuosia kerrottu deepfake-videoista ja siitä, että videoihin ei voi enää luottaa sokeasti. Valeuutisten yleistyessä myös epäaidot kuvat ja videot tulevat varmasti yleistymään, ja tekoälystä on tullut vaihtoehto perinteiselle kuvankäsittelylle kuvien ”väärentämiseen”. Tässä suhteessa paluu menneisyyteen ei ole mahdollinen; kun teknologia on olemassa, sitä on mahdotonta saada kielloilla pois pahantahtoisten tahojen työkalupakista. Yhteiskunnan kannalta onkin tärkeää, että opimme suhtautumaan kuviin ja videoihin entistä skeptisemmin. Kenties paras keino tähän on näyttää, mihin kaikkeen tekoäly pystyy, ks. kuvat 6 ja 7.

Kuva 7 "a pyramid inside the grand canyon"

Vaikka ihmiskasvojen luominen on tekoälylle välillä hankalaa, ovat julkisuuden henkilöt kuitenkin helposti tunnistettavissa, kuten kuvissa 8 ja 9.

Kuva 8 "joe biden chasing a fox that stole his ice cream"

Kuva 9 "a realistic human face"

Kuten yllä olevista kuvista nähdään, on niitä jo nyt hankalaa tai mahdotonta tunnistaa tekoälyn tuottamiksi, ja teknologioiden kehittyessä kuvat tulevat näyttämään muutaman vuoden päästä vieläkin aidommilta. 

Kirjoittajasta

Pasi Väkeväinen on edistyneen analytiikan asiantuntija.

Mikäli haluaisit hyödyntää tekoälyä esim. markkinointikuvien luontiin, ota meihin yhteyttä!

Lisää ajankohtaisia julkaisuja:

DAX-debuggauksen uusi aika Power BI -kontekstissa
Tutustu tarinaan
Pörssisähkön futuurihinnat
Syksyn ja talven -22/23 mittaan kylmäävä kysymys on miltä sähkön hinnan kehitys näyttää.
Tutustu tarinaan
D365 Finance + Power App = automatisoitu talouden raportointi
Tutustu tarinaan
Power BI -kenttäparametrit, uutta ja mielenkiintoista!
Power BI:n toukokuun päivitys tarjoili käyttäjille hyödyllisiä toiminnallisuuksia Kenttäparametrien (Field parameters) muodossa.
Tutustu tarinaan
Power BI haltuun intensiivikurssilla
Tutustu tarinaan

Lisää ajankohtaisia julkaisuja:

DAX-debuggauksen uusi aika Power BI -kontekstissa
Tutustu tarinaan
Pörssisähkön futuurihinnat
Syksyn ja talven -22/23 mittaan kylmäävä kysymys on miltä sähkön hinnan kehitys näyttää.
Tutustu tarinaan
D365 Finance + Power App = automatisoitu talouden raportointi
Tutustu tarinaan
Power BI -kenttäparametrit, uutta ja mielenkiintoista!
Power BI:n toukokuun päivitys tarjoili käyttäjille hyödyllisiä toiminnallisuuksia Kenttäparametrien (Field parameters) muodossa.
Tutustu tarinaan
Power BI haltuun intensiivikurssilla
Tutustu tarinaan