9.11.2017Blogi

Koneoppimismallien valmisratkaisuilla päteviä data scientisteja?

Nordic Data Science and Machine Learning Summit 2018 kokosi yhteen 350 data-ammattilaista Euroopasta. Tapahtuma järjestettiin Tukholmassa 18.-19. lokakuuta. Sisällöllistä tarjontaa oli runsaasti: parikymmentä puolen tunnin puhetta kahdessa träkissä. Tässä pohdintaa ajankohtaisesta esille nousseesta aiheesta – mistä lisää päteviä data scientisteja?

Yksi pinnalle nousseista aiheista oli data scientistien rekrytointi, jota sivuttiin jopa useammissa puheissa. Yrityksillä on tällä hetkellä suuria vaikeuksia löytää hyviä data scientisteja. Se on ymmärrettävää, sillä ideaalisen data scientistin vaatimuslista on melko pitkä. Ongelma oli selkeästi herättänyt puhujia pohtimaan sitä, miten tätä rekrytointiongelmaa saataisiin helpotettua.

Yrityksillä on tällä hetkellä suuria vaikeuksia löytää hyviä data scientisteja.

Yhdeksi ratkaisuksi esitettiin, että data scientisteja voidaan kouluttaa yrityksen sisällä. Olemme tehneet näin myös omassa työpaikassani (voit lukea lisää täältä). Toinen pohdinnassa oleva tapa on yrittää tehdä koneoppimisesta ja tekoälystä tavoiteltavampaa ja helppokäyttöisempää sopivilla työkaluilla. Muutamat suuret IT-talot ovat kehittäneet erilaisia valmiita analytiikan alustoja helppokäyttöisillä webbikäyttöliittymillä, joiden tarkoituksena on myös avata koneoppimisen mahdollisuuksia muillekin kuin data scientisteille.

Valmiit analytiikkaratkaisut eivät ole data scientistille mutkattomia

Itsellänikin on jonkin verran kokemusta valmiista suljetusta analytiikkaratkaisusta. Tämän tyyppisellä softalla on mahdollista tuottaa erittäinkin nopeasti joitakin yksinkertaisia malleja. Valmiiksi suunnitellut ja toteutetut koneoppimismallit ovat nopeita yhdistää dataan graafisella käyttöliittymällä ja mallien opettaminen on helppoa käyttäjälle. Sopivissa tapauksissa mallin parametreja voi säätää kohdalleen, jolloin siitä saattaa tulla tarkka ja hyvin sovellettava uuteen dataan. Tietyt visualisoinnit onnistuvat myös nopeasti, mikä onkin aina tärkeää datan ymmärtämisen kannalta.

Valitettavasti helppokäyttöisen analytiikkaohjelmiston paketoiminen myös rajoittaa tekemistä.

Valitettavasti helppokäyttöisen analytiikkaohjelmiston paketoiminen myös rajoittaa tekemistä. Jos koneoppimisalgoritmeja ei ole tehty avoimella lähdekoodilla, niin mallin toteutusta ei pääse katsomaan tai muuttamaan käyttäjälle tarjottuja parametreja syvemmältä. Helppokäyttöinen graafinen käyttöliittymä harvemmin näyttää toteutuksesta pintaraapaisua enempää. Silloin jos ohjelmiston valmiiksi tarjoama koneoppimismalli ei sovi käsillä olevaan ongelmaan, voi sen parantaminen olla hyvin hankalaa ja tulokset voivat jäädä heikoiksi. Arjessa vastaan tulevat analytiikan ongelmat ovatkin oppikirjaesimerkkejä huomattavasti monimutkaisempia.

Arjessa vastaan tulevat analytiikan ongelmat ovatkin oppikirjaesimerkkejä huomattavasti monimutkaisempia.

Vähintään yhtä suuri on koneoppimismallin black box-ongelma. Jos algoritmien lähdekoodi ei ole data scientistin nähtävillä, voi olla hankalaa, tai jopa mahdotonta, selittää tekemiensä koneoppimismallien toimintaa muille. Kommunikointi onkin yksi data scientistien tärkeimmistä tehtävistä. Voi olla vaikea luottaa tekoälyn tekemiin päätöksiin, jos kukaan ei osaa selittää sen toimintaa riittävästi.

Anna data scientistille ennemmin vapaat kädet ongelman ratkaisuun

Suljettujen valmispakettien sijaan data scientistille kannattaa pikemminkin antaa vapaat kädet ongelman ratkaisuun. Avoimen lähdekoodin koneoppimiskirjastot ovat data scientistien parhaita ja suosituimpia työkaluja. Niiden avulla tehtyjä ratkaisuja on mahdollisia selittää että myös laajentaa.

Nordic Data Science Summitissa oli myös yksi puhe, jossa käsiteltiin avoimen ja suljetun lähdekoodin teemaa analytiikan näkökulmasta. Lisäksi myös muiden esityksien ja keskusteluiden pohjalta voidaan tehdä johtopäätöksiä, että avoimen lähdekoodin kirjastoihin perustuvat ratkaisut ovat selvästi johdossa tässä kisassa.