18.12.2015Blogi

Viisi näkökulmaa big datasta

Big Data -termi on ollut ihmisten huulilla jo jonkin aikaa. Vuonna 2014 teknologia-alan ilmiöitä tutkivan Gartnerin vuosittaisen hypekäyrän mukaan sen oli jo luettu ohittaneen hehkutuksen huippunsa ja saavuttavan tuottavan teknologian tason muutaman vuoden kuluttua. Joillekin big data on tuonut alusta asti mieleen bullshit-bingon – onhan teknisesti vastaavanlaisia ratkaisuja tehty jo vuosikymmeniä. Toisten mielestä big data on puolestaan avainasemassa ratkaisemassa nykyaikaisia haasteita, koska se tarjoaa keinoja pysyä kuskin paikalla digitalisaation kiihtyvässä vuoristoradassa.

Big data jakaa mielipiteitä, koska se on ilmiön lisäksi teknisempi määritelmä tietynlaiselle datalle, jota syntyy tyypillisesti esimerkiksi teollisuuden antureista, liikennedatasta tai verkkoliikenteestä. Datan lisäksi big dataan yhdistetään tietyt teknologiat, joilla ratkaisuja tehdään, merkittävämpänä yksittäisenä Hadoop.

Suhtauduitpa termiin miten hyvänsä, konsensus meillä Solitalla on, että big data -ilmiöstä voidaan ottaa niskalenkki ja big data -teknologiat ovat järkeviä ja perusteltuja tiettyihin asioihin. Brändin verkkokaupan klikkidata on esimerkiksi omiaan tuomaan uusia näkökulmia perinteiseen tietovarasto- ja ETL-pohjaiseen informaationhallintaratkaisuun. Organisaatiolle tyypilliseen dataan voidaan big data -teknologioilla tuoda lisäksi ilmiöitä selittäviä datan rikasteita, kuten esimerkiksi sää-, sijainti- tai demografiatietoja. Vastaan kokemustemme perusteella muutamiin ilmiötä selventävään kysymykseen. 

Mitä?

Suurten tietomassojen hallinnan ja hyödyntämisen näkökulmasta big data siis tarjoaa työvälineitä ilmiöiden löytämiseen. Big data ei paljasta mistä ilmiö johtuu vaan ainoastaan nostaa ilmiön esiin. Näin ollen big data -teknologioiden rooli on nimenomaan täydentää olemassa olevaa, ja mahdollisesti tehdä jotkin asiat järkevämmän tai tehokkaammin esimerkiksi hyödyntämällä erilaisia tallennustapoja tiedolle.

Miksi?

Big data -ilmiön taustalla on ajatus, että kaikki data on hyödyllistä ja sitä voidaan käyttää. Tämä mahdollistaa myös jonkin huonolaatuisemman datan (puuttuvia tietoja, väärän muotoista tietoa jne.) hyödyntämisen analyyseissä. Laadultaan huono data saattaa olla uuden ymmärtämisen kannalta merkittävämmässä roolissa kuin volyymiltään pienempi, mutta määrittelyt täyttävä data. Dataa on kannattavaa rikastaa ulkoisilla lähteillä, sillä uusien datalähteiden avulla pystytään löytämään vastauksia kysymyksiin, joita ei olemassa olevan datan perusteella osattu vielä edes kysyä.

Miten?

Omissa projekteissamme big data -kehitys lähtee liikkeelle pienin askelin. Koska toiminta on asiakkaille usein uutta, tunnistamme yhdessä asiakkaan kanssa tietotarpeet ja käyttötapaukset, joihin big datan avulla voitaisiin löytää vastaus. Tämän jälkeen kehitetään jokin pieni, mutta jo sellaisenaan käytettävissä oleva ratkaisu Minimum Lovable Product -hengessä. Sen kautta saatu tieto tuodaan olemassa olevan tiedonhallintaratkaisun piiriin tai parhaassa tapauksessa suoraan työntekijöiden käyttöön.

Missä?

Big datalle on leimallista laskentatehon ja kapasiteetin hajauttaminen usealle palvelimelle. Pilvipalveluiden kapasiteettia hyödyntämällä toteutettavan big data -ratkaisun ei tarvitse kuitenkaan olla iso investointi. Laskennassa voidaan käyttää eri kokoisia koneita erilaisilla tehoilla. Tämä mahdollistaa sekä laskentaan tarvittavan ajan että siitä aiheutuvien kustannusten optimoinnin. Toisin sanoen, käyttämällä pienempiä koneita, laskennan voi antaa kestää pidempään tai se voidaan tehdä tehokkaammin pienemmässä ajassa tehokkaampia koneita käyttämällä. Hinta skaalautuu sekä koneiden tehon että lukumäärän mukaan, ja säästöjä on mahdollista saavuttaa esimerkiksi varaamalla koneita tietyksi määräajaksi eteenpäin. Pilvipalvelut, kuten Amazon Web Services ja Windowsin Azure tarjoavat lisäksi valmiita komponentteja esimerkiksi analyysien suorittamiseen.

Milloin?

Big data ilmiönä on syntynyt internetin valtavan volyymin ansiosta, mutta nykyisin esimerkkejä löytyy myös toimialoilta, jotka eivät perinteisesti tule mieleen. Esimerkiksi teollisuudessa olemme nähneet läheltä, miten asiakkaiden laitteet voivat synnyttää päivän aikana valtavasti dataa, joka on aiemmin ollut täysin hyödyntämätöntä. Oikein kerättynä ja analysoituna tämä data on kuitenkin muuttunut erittäin arvokkaaksi ja sen avulla voidaan esimerkiksi ennakoida sopivinta huoltoaikaa tai löytää kustannustehokkain raaka-ainemix. Kun teknologia ei ole enää este, parhaat ja kuvaavimmat havainnot saadaan yhdistämällä dataa mielikuvitusta käyttäen, ja tähän mahdollisuuteen tulisi tarttua heti tänään!

Tuomas Melin työskentelee Solitalla Data Scientistina ja hän on kiinnostunut erityisesti reaaliaikaisen analytiikan hyödyntämisestä.