18.12.2017Blogi

Raportointidata versus data science -data – miten ne poikkeavat?

Raportointimaailmassa ja data sciencessa on erilainen lähestymiskulma datan laatuun. Raportointidatassa korjataan virheitä, kun taas data sciencessa yritetään pärjätä sillä datalla mitä on. Data sciencessa harvemmin korjataan dataa kovin tarkasti. Avaan tässä blogissa tarkemmin näiden lähestymistapojen eroavaisuuksia ja syitä.

Kuinka data sciencessa käsitellään ongelmallista dataa?

Raportoinnissa yleisesti on tarkoitus tuottaa datasta oikeaa, tarkkaa ja oleellista informaatiota. Siksi raportoitavan datan tavoite on olla mahdollisimman optimaalista. Sen sijaan, data sciencessa halutaan selittää informaatiota luomalla algoritmeja ja ennustemalleja, joita tehdessä fokus datan laatuun on realistisempi kuin raportoinnissa yleensä. Data sciencessa ei ole tarkoituksenmukaista pyrkiä täysin laadukkaaseen dataan, vaan siitä pyritään tekemään enemminkin tarpeeksi hyvää. Tarkoitus on tuottaa uudenlaista näkemystä datasta, joilloin tehtävät eivät ole luonteeltaan liiketoimintakriittisiä.

Data sciencessa ei ole tarkoituksenmukaista pyrkiä täysin laadukkaaseen dataan, vaan siitä pyritään tekemään enemminkin tarpeeksi hyvää.

Data scientistin ensimmäisiä tehtäviä on ymmärtää ongelma ja konteksti, johon halutaan saada datalla ratkaisua. Tämä tapahtuu haastattelemalla asiakasta, mutta myös tutustumalla dataan. Minkälaisiin kysymyksiin datasetillä on mahdollista vastata? Kuinka leveä datasetti on? Onko data pieni näyte isommasta kokonaisuudesta? Onko dataa riittävästi kuvailemaan prosessia? Kuinka paljon dataa puuttuu (puuttuvien arvojen osuus koko datasetistä)? Ovatko kentät yhdenmukaisia (ovatko kaikki postinumerot viisinumeroisia?) Onko tieto konsistenttia (onko pituudet ilmoitettu tuumissa ja paino kiloissa)? Hankaloittavako ongelmat datan ymmärtämistä, jolloin syvempää näkemystä tai tietoa ei saada?

Vinoumat datassa ja datan yhdistely vaikuttavat siihen ovatko tulokset totta

Erityisesti eksploratiivisessa data sciencessa käytetään usein näytettä (sample) datasta, varsinkin jos dataa on käsillä valtavat määrät. Näytteissä ongelmana saattaa olla vinoumat datasetissä. Vinoumat ovat yleisiä erityisesti sosiaalisen median datassa, esimerkiksi twiittejä kirjoittavat eivät edusta koko populaatiota. Teksteistä otetussa datassa, kuten blogeissa, uutisissa ja sosiaalisen median päivityksissä on lisäksi omat haasteena erottaa sarkasmia, slangia ja sanojen merkityksiä. Näiden semanttisten ongelmien lisäksi uskottavan datan löytäminen on haastavaa, sillä kirjoitukset ovat luonteeltaan spontaaneja ja tietojen tarkistus on löysää. Lisäksi julkaisukynnys on olematon. Myös tekaistu data, kuten valeuutiset, tai puuttuva data muuttaa kokonaiskuvaa tutkittavasta ilmiöstä.

Dataa yhdistellään usein eri lähteistä ja samaa dataa voidaan käyttää moneen kertaan uudelleen eri konteksteissa.

Dataa yhdistellään usein eri lähteistä ja samaa dataa voidaan käyttää moneen kertaan uudelleen eri konteksteissa. On mahdollista, että datasettejä voidaan käyttää jopa käyttötarkoituksiin, joihin dataa ei alun perin ole tarkoitettu. Datan semantiikkaa hämärtyy tällöin jokaisen kopioinnin ja tulkinnan myötä.

Data ei ole aina lisättävissä (additive), eikä johtopäätöksiä voi tehdä osajoukkojen vertailuun perustuen. Näytteiden vertailussa on vaarana Simpsonin paradoksi, jossa yksittäisistä datan osajoukoista löytyy korrelaatioita, jotka kumoutuvat tai katoavat kun ryhmiä yhdistetään. Erityisesti reaaliaikaisessa analytiikassa, jossa analyyseja tehdään lyhyillä aikaperiodeilla, on vaarana törmätä paradoksiin.

Datan tuottama tieto on kyseenalaista, jos lähtökohtien laatua ei mitata

Datan laatua kuvataan objektiivisilla mittareilla, joita kutsutaan laatuattribuuteiksi. Data sciencessa dataa tarkastellaan sen kautta, kuinka ne vaikuttavat mallien kykyyn selittää informaatiota. Yllä kuvattuja korkean abstraktiotason laatuongelmia voi mitata esimerkiksi attribuuteilla:

  • datan täydellisyys/kokonaisuus (completeness)
  • oikeellisuus (correctness)
  • datan jäljitettävyys (traceability)

Täydellisyys kuvaa osuutta kuinka hyvin data edustaa ongelmaa, eli vastaa liiketoimintakysymykseen. Täydellisyyttä voi mitata mittaamalla puuttuvan datan määrää, mikäli on tiedossa mikä on kokonainen datasetti. Näytteiden vinoumat vaikuttavat datan täydellisyyteen. Tietovarastomaailmassa datan kokonaisuudella mitataan onko dataa kadonnut matkalla lähdejärjestelmästä tietovarastoon.

Datan oikeellisuudella viitataan arvojen validiuteen ja luotettavuuteen

Algoritmien ja mallien oikeellisuutta mitataan muun muassa ennusteiden tarkkuudella (accuracy). Huomioitavaa on, että data sciencessa mallin tarkkuus tarkoittaa oikein ennustettujen tapahtumien osuutta, kun taas rapotointi- ja tietovarastomaailmassa tarkkuudella kuvataan kuinka hyvin data kuvaa todellisuutta.

Datan jäljitettävyys tarkoittaa, että kaikki datan vaatimukset ja käyttäjien tekemät muutokset ovat jäljitettävissä. Jäljitettävyys korostuu erityisesti juuri data science -maailmassa, jossa tehdään subjektiivisia päätöksiä analytiikkaputken kaikissa osissa. Esimerkiksi, päätetäänkö korvata huono data, mitkä muuttujat on valittu selittäviksi tekijöiksi ja täydennetäänkö malleja muulla ulkopuolisella datalla. Sellaisia tietoja kuten kuka on tehnyt analyysin, mitä dataa on käytetty ja milloin, ei pitäisi kadota.

Täydellisyys ja oikeellisuus vaikuttavat siihen kuinka hyvin datasta saadut johtopäätökset ovat yleistettävissä.

Täydellisyys ja oikeellisuus vaikuttavat siihen kuinka hyvin datasta saadut johtopäätökset ovat yleistettävissä. Jäljitettävyys on sidoksissa mallien uskottavuuteen. Jos matkan varrella tehtyjä päätöksiä päästään jäljittämään ja alkuperäiset datasetit ovat verifioitavissa, voidaan malliin pohjautuvat hypoteesit tarkistaa ja tarvittaessa kyseenalaistaa.

Kuten jo heti alussa totesin, raportointimaailmassa ja data sciencessa on erilainen lähestymiskulma datan laatuun. Raportointidatassa korjataan virheitä, kun taas data sciencessa yritetään pärjätä sillä datalla mitä on. Data sciencessa harvemmin korjataan dataa kovin tarkasti. Huono data ei tarkoita että tulokset olisivat käyttökelvottomia, vaan tulokset yksinkertaisesti suhteutetaan ongelmiin.

Mirva työskentelee Solitalla Business Analytics -konsultin roolissa. Häntä kiinnostaa työssään erityisesti data sciencen ja BI:n yhdistämisen mahdollisuudet.