17.11.2015Blogi

Rakas epätäydellinen data

Voiko ennakoiva analytiikka onnistua, vaikka datan laatu olisi kuralla? Täytyykö big datan olla aina isoa? Entä onko data-analyytikko nykypäivän alkemisti? Antti Kotanen etsii blogissaan vastauksia näihin kysymyksiin ja kertoo, miksi epätäydellistäkin dataa kannattaa rakastaa.

Olen työskennellyt vuoden ajan Solitan Data Science -tiimin kyljessä ja päässyt tutustumaan ennakoivaan analytiikkaan, joka on osoittautunut melko erilaiseksi kuin paremmin tuntemani ohjelmistokehitys. Ennakoivan analytiikan projekteissa ennustetaan tulevaa aiemmin kerätyn datan perusteella. Pidän kovasti siitä, että liikkeelle lähdetään sillä ennustettavaan ilmiöön liittyvällä datalla, jota sattuu saatavilla olemaan. Ei siis edes pyritä mallintamaan aukottomasti koko maailmaa liiketoiminnan ympärillä, vaan hyväksytään puutteet lähtötiedoissa. Tämä on melko erilainen lähestymistapa kuin ohjelmistokehitysprojekteissa, joissa monesti pyritään mallintamaan liiketoimintaprosessit laajasti ja virheettömästi.

Täytyykö big datan aina olla isoa?

Ennakoivalla analytiikalla tehtävä ennustaminen voi liittyä esimerkiksi koneen huoltotarpeeseen, tuotannon kapasiteetin suunnitteluun, asiakkaan ostokäyttäytymiseen – oikeastaan mihin tahansa sellaiseen, jota ei pysty luotettavasti ennakoimaan pelkällä näppituntumalla. Näille kaikille projekteille on ollut yhteistä asiakkaidemme skeptisyys yhteistyön alussa: ”Meillä on tosi vähän dataa”, ”mahtaako datamme laatu olla riittävän hyvää” ja niin edelleen. Joskus asiakkaat jopa harkitsevat isojen datansiivoustalkoiden järjestämistä.

Tutkaillaanpa hieman näitä huolia. Aloitetaan datan määrällä. Ennakoivaan analytiikkaan liitetään monesti termi big data. Tästä syntyy harhakuva, että analyysien tekemiseksi tietoa pitäisi olla teratavuittain. Tämä ei pidä paikkaansa. Pidin aiemmin data-analyytikkoja alkemisteina, jotka muuttavat tietomassat kullanarvoiseksi liiketoimintaymmärrykseksi reseptillä, jonka vain yli-ihminen voi ymmärtää. Totuus osoittautui arkisemmaksi. Yksinkertaisimmillaan ennakoiva analytiikka on korrelaation etsimistä lähdedatan ja ennustettavan ilmiön välillä. Muistelen törmänneeni sanaan korrelaatio lukiossa, joten kyse ei taidakaan olla alkemiasta. Itse asiassa pikainen googletus löytää Excelillä tehdyn esimerkin, jossa korrelaatio on havainnollistettu käyttäen viittä lukuparia! Nämä viisi lukuparia edustavat siis lähdedataa ja ennustettavaa ilmiötä. Kuulostaako viisi lukuparia big datalta?

Pidin aiemmin data-analyytikkoja alkemisteina, jotka muuttavat tietomassat kullanarvoiseksi liiketoimintaymmärrykseksi reseptillä, jonka vain yli-ihminen voi ymmärtää.

Väärinymmärrysten välttämiseksi todettakoon vielä tähän väliin, ettei ennakoivan analytiikan vaatimaa ammattitaitoa voi kuitata em. yksinkertaistuksella. Korrelaatio ei suinkaan ole ainoa menetelmä, data täytyy osata integroida analysoitavaan muotoon ja oikeiden selittävien tekijöiden metsästäminen vaatii oivalluksia. Tarvittavan datan määrä sen sijaan voi olla ällistyttävän pieni!

Epätäydellistäkin dataa voi rakastaa

Entäpä sitten datan laatu? No, kieltämättä kuraahan se yleensä on vähän joka organisaatiossa. Syitä tähän on monia. Organisaatioiden tietojärjestelmät ovat syntyneet hiljalleen, ne ovat aikansa lapsia eikä organisaation tai järjestelmien nykytilaa ole kukaan osannut suunnitella 10 vuotta sitten sellaiseksi kuin se lopulta on muodostunut. Tämä johtaa tilanteeseen, jossa yhtenäistä tietomallia ei ole ja data on hajallaan eri järjestelmissä. Kun tähän otetaan mukaan vielä kaikkien tietojärjestelmien heikoin lenkki eli poloinen käyttäjä, niin dataan alkaa syntyä aukkoja ja virheitä sinne tänne. Iso osa tiedosta on alun alkaenkin jonkun käyttäjän syöttämää ja inhimilliset virheet ovat siten väistämättömiä.

Ällistyttävää kyllä, ennakoivan analytiikan projekteissa onnistutaan useimmiten datan laadullisista puutteista huolimatta. Toki parempi data johtaa tarkempaan ennusteeseen, mutta epätarkempikin ennuste on parempi kuin ei ennustetta ollenkaan. Pienet virheet ovat vain taustakohinaa ja isommat aukot datassa merkitään siten, etteivät ne sotke ennustemallia. Joissakin tapauksissa aukkoja voi myös paikkailla ottamalla käyttöön ulkoisia datalähteitä eli tekemällä tiedon rikastusta.

Kauppiaan ei tarvitse tuntea juuri minua tietääkseen, millainen viestintä minuun tehoaa. Riittää, että hän tuntee jonkun kaltaiseni.

Lisäksi ennustemallit voidaan rakentaa hyödyntäen kaikkein kuranteinta osaa datasta silti hyödyntäen mallia koko datamassaan. Jos esimerkiksi halutaan ennustaa asiakkaiden ostokäyttäytymistä, kannattaa ennustemalli luoda niillä asiakkailla, joista on eniten taustatietoja, ostohistoriaa ja muuta statistiikkaa. Tämän jälkeen tehtyä ennustemallia voidaan hyödyntää koko asiakaskuntaan, kunhan vain ensin segmentoidaan asiakkaat. Kauppiaan ei tarvitse tuntea juuri minua tietääkseen, millainen viestintä minuun tehoaa. Riittää, että hän tuntee jonkun kaltaiseni.

Katso rohkeasti tulevaan

Datan määrä tai datan laatu eivät siis ole kynnyskysymyksiä ennakoivan analytiikan käyttöönotolle. Datansiivoustalkoitakaan ei yleensä tarvita ja jos sellaisia joudutaan tekemään esimerkiksi järjestelmien migraation vuoksi, on syytä varmistaa organisaation toimintatapojen muuttuminen samalla. Muuten samanlainen savotta on pian uudestaan edessä.

Lopeta datasta murehtiminen ja pohdi mieluummin, miten tulevaisuuteen näkeminen muuttaisi sinun liiketoimintaasi. Data-analyytikot näet rakastavat kaikkea dataa. Isoa ja pientä. Priimaa ja kuraa.

Kiinnostuitko? Lue lisää ennakoivan analytiikan– sekä Case Sanomat -verkkosivuiltamme.

Antti Kotanen auttaa työssään Solitan asiakkaita informaation hallinnan, ennakoivan analytiikan ja monikanavaisen kaupan saralla. Lisäksi Antti kehittää Solitan palvelutarjoamaa.