26.6.2020Blogi

Suosituimmat ja halutuimmat teknologiat työmarkkinoilla? Solitan data-osaajat kertovat

Tämä kirjoitus on ensimmäinen osa blogisarjaa, jossa käsittelemme 200:n Solitalla työskentelevän data-ammattilaisen mielipiteitä tämän hetken suosituista teknologioista ja tuotteista. Blogit on kirjoitettu yhdessä Solitan data-ammattilaisten kanssa, jotka arvioivat teknologioita sen mukaan miten niistä on hyötyä työmarkkinassa ja mitkä niistä tulevat olemaan uusia trendejä.

Ensimmäisessä osassa vierailevana kommentoijana toimii Mika Heino, joka on taustaltaan on-premise tietokanta-asiantuntija, mutta on Solitalla aloittamisen jälkeen laajentanut osaamistaan eri pilviteknologioihin säilyttäen kuitenkin core-osaamisenaan erilaiset tietokannat. Tällä hetkellä Mika toimii Solitalla data-arkkitehtinä ja on samalla Snowflake Tech Lead, mikä Solitalla tarkoittaa kyseisen teknologian tietämyksen levittämistä, projektien avustamista teknisissä haasteissa ja toimimista myynnin teknisenä tukena. Laajemmin Mikan tarinan ja miten hän päätti siirtyä Solitalle pilviteknologioiden pariin voit lukea tästä. Haastattelijana toimii Joel “Jolle” Kinnunen, jonka vastuualueena on datan rekrytointi.

Kartoituksen vastaajina kokenutta porukkaa

Jolle: Aloitetaan yleiskatsauksella. Nyt keväällä tehtyyn kyselyyn vastanneista Solitan data-asiantuntijoista suurin osa on domainissa varsin kokenutta joukkoa. 25 % vastanneista on työskennellyt datan parissa yli 10 vuotta, 21 % yli 5 vuotta ja 33 % kolmesta viiteen vuotta.  Suurin osa (70 %) vastaajista kertoi että heidän viikoittainen työstä koostui data engineerin työstä ja lisäksi moni vastaisi että työnkuvaansa kuuluvan mm. data-arkkitehtuurin (43 %), datan visualisoinnin (26 %) ja master data managementin (20 %). Kyselyssä ei siis kysytty titteliä, vaan työn sisältöä. Tämän takia prosentit näyttävät ehkä hassuilta. Onko sulla tähän mitään kommentoitavaa?

Mika: Vastausprosentit kuvaa hyvin, miten ihmiset Solitalla työskentelevät. Esimerkiksi vaikka oma tittelini on nykyään data-arkkitehti, niin se ei tarkoita, ettenkö enää kirjoittaisi koodia tai osallistuisi asiakkuudessa sprintti-taskien tekoon. Se on totta, että PowerPoint – tai nykypäivänä Google Slides – on yhä useammin auki läppärin ruudulla, mutta lähtökohtaisesti kaikki Solitan asiantuntijat, arkkitehditkin, ovat edelleen hyvin hands-on osaavia ja toimivat osana jotain asiakkuustiimiä. Verrattuna aiempaan työelämän malliin, missä oma vastuualue oli rajatumpi, on tämä T/TT-kirjainta myötäilevä malli paljon kiinnostavampi ja itseäni kehittävämpi.

Samalla myös oma osaamiseni kehittyy nopeammin ja pystyn jatkossa valitsemaan paremmin suunnan mihin haluan edetä urallani. Solitan tarjoama malli, jossa tulin ns. ”vanhan tekin osaajana” sisään 4 vuotta sitten Data Engineeriksi, on mahdollistanut sen, että voin nyt sanoa uudelleenkouluttautuneeni nykypäivän teknologioihin, uskallan helposti haastaa erilaiset pilviarkkitehtuuriratkaisut ja tiedän suoraan asiakkaan haasteet on-premise -teknologioissa, koska olen ollut rakentamassa niitä ratkaisuja.

Data-arkkitehtuuri ja data science kiinnostavat tulevaisuudessa

Jolle: Kun kysyttiin meidän porukalta seuraavaa ”toiveroolia”, niin data-arkkitehdin saappaisiin oli kaikkein eniten kiinnostusta (52 % vastaajista). Seuraavaksi eniten mainintoja saivat data engineerin ja data scientistin roolit. 15 % vastaajista näki itselleen seuraavaksi kiinnostavana tonttina data business designin, joka siis meillä Solitalla tarkoittaa sitä, että sparrataan asiakkaitamme datan hyödyntämisessä ja sen tarjoamissa mahdollisuuksissa liiketoiminnan näkökulmista. Miten itse, tietäen sun oman urapolun, ehkä täydentäisit tätä?

Mika: Vastaukset täsmäävät hyvin datan-yksikön urapolkuajatteluun. Useimmiten data-ammattilaiset haluavat jossain välissä uraansa päästä vaikuttamaan enemmän tehtyihin valintoihin ja leadaamaan esimerkiksi asiakkuutta. Data-arkkitehdin roolissa pääsee näitä molempia asioita tekemään. Data-arkkitehdin rooli ei ole kuitenkaan ns. päätepysäkki meillä, vaan aina voi joko syventää osaamistaan esimerkiksi master datan hallinnan parissa tai vaihtaa kokonaan perspektiiviä.

Jolle: Sä vaihdoit aikalailla isosti tuossa yli vuosi sitten perspektiiviä, tai no pikemminkin laajensit sitä kattavasti. Eikö vois sanoa näin?

Mika: Joo, mä hyödynsin mahdollisuuden lähteä avaamaan meidän Münchenin toimistoa ja tammikuun 2019 alusta kevääseen 2020 asti työnkuvani olikin sekoitus Data Engineerin, arkkarin, toimistovastaavan, presales-myyjän ja markkinoinnin roolia. Käytännössä Saksan liiketoiminta rakennettiin kokonaan tyhjästä ja ensimmäisen vuoden aikana meistä jokaisella oli monta hattua päässämme, kun aloitimme samaan aikaan meetupien tekemisen, toimiston rakentamisen ja pre-sales myynnin. Olen itse palannut nyt takaisin Suomeen, mutta voin onnellisesti todeta että työ ei mennyt hukkaan: meillä on yli 10 henkilöä jo Saksassa ja iso osa heistä asiakkuuksissa.

Tähän jatkona täytyy jakaa oheinen kuva, joka on osa meidän Data Starter -koulutuspakettia, mihin jokainen uusi datalainen osallistuu aloittaessaan Solitan Data-yksikössä. Tämä kuvaa mielestäni parhaiten urapolkumahdollisuudet ja ne monet erilaiset roolit, joita meillä tarvitaan liiketoiminnan pyörittämiseen ja jatkuvaan parantamiseen.

Päivät kuluvat pilvessä

Jolle: Seuraava ei ole varmaan mikään yllätys, mutta odotetusti pilvipalvelut ovat meidän dataosaajille hyvin tuttuja, käytetäänhän pilveä melkein kaikissa asiakasprojekteissamme. Vastaajien vahvin osaaminen jakautuu tasaisesti isoimpien pelureiden kesken: AWS on tuttu tai todella tuttu 58 %:lle vastaajistamme ja vastaavasti Azure 61 %:lle. Edellä mainittujen ”pikkuveli” Google Cloud on meillä vähemmän käytössä, mutta 67 % vastaajista haluaisi oppia siitä lisää. Ainoastaan yksi kyselyyn vastannut koki, että tietää pilvipalveluista jo niin paljon, ettei halua enää oppia lisää. Tämäkään ei varsinaisesti yllätä, koska tiedän että meillä on aika oppimisen nälkäistä väkeä töissä. Miltä susta nää prosentit susta tuntuu?

Mika: Kun itse aloitin Solitalla neljä vuotta sitten, niin käytännössä datapuolella oli tilanne, että ratkaisuja rakennettiin joko Amazonin pilveen tai on-premiseen. Käytännössä iso osa keikoista oli konsultaatioselvityksiä, esimerkiksi miten jonkun olemassa olevan data-alustan transformaatio pilveen voitaisiin tehdä, ja olisiko siinä järkeä. Amazonin etumatka aiheutti sen, että Solita ja moni muukin suomalainen it-alan yritys keskittyi ainoastaan AWS:n pilviratkaisuun dataratkaisuissa. Tämä näkyy edelleenkin Solitan AWS-partneruustasossa, joka hakee Nordic-tasollaan vertaistaan.

Sittemmin tilanne on tasaantunut ja merkittävimpänä syynä voi pitää Microsoftin ratkaisua luoda nahkansa taas kerran uudelleen, ja ottaa open source -ratkaisut merkittäväksi osaksi palettiaan. Vanhan serverimaailman tilanne, jossa kilpailu oli kärjistetysti IBM AIX/Linux vastaan Windows NT-pohjaiset ratkaisut, on nyt nykyään muuttunut AWS:n ja Azuren SaaS- ja PaaS-ratkaisujen vertailuun. Käytännössä nykyään Linux-osaaminen on kultaa, koska niin monet AWS- ja Azure-palvelut ovat jotain johdannaisia jostain open source -sovelluksesta, joka toimi ensiksi Linuxilla. Googlen pieni osuus Suomen markkinassa ja ylipäätään tekijöiden määrässä on täysin seurausta heidän myöhäisemmästä markkinoille tulosta, ei siitä että heidän ratkaisunsa olisivat heikompia. Päinvastoin tietyissä ratkaisuissa Googlen malli on enemmän ”developer friendly” ja täysin teknisesti verrattavissa kilpailijoihin. Google on myös vihdoin alkanut näkymään enemmän tarjouspyynnöissä ja mukana kilpailussa ja sanoisinkin, että nyt ja ihan lähitulevaisuudessa Google GCP-osaaminen CV:ssä tulee olemaan merkittävä kilpailuvaltti.

Se pitää myös huomauttaa, että kyselyssä kukaan ei vastannut kiinnostusta Oraclen, IBM:n, Alibaban tai muiden pelaajien pure -tai hybrid cloud ratkaisuihin (Dell+VMware/HPE/SAP/Salesforce yms).

Sekä Suomen markkinoilla että globaalisti pelikenttä on jakaantunut vahvasti kolmen suuren kesken, mutta Kiinan markkinoiden ansioista Alibaba on vahvasti nousemassa mukaan kilpailuun ja jo saavuttamassa Googlea. Itse tutkisin varsinkin Alibaban tarjontaa, koska COVID-19:n myötä työtavat ovat muuttuneet ja monet paikalliset yritykset voivat laajentua odottamattomille markkinoille, ja tätä myötä Pohjoismaissa suositut teknologiat eivät ole välttämättä ensimmäisenä mielessä. Toinen mielenkiintoinen peluri, joiden tarjontaa pitäisin silmällä on Salesforce, joka viime vuoden Tableau -ostollaan ja juuri julkistetulla Snowflake -kumppanuudellaan tarjoaa hyvin kokonaisvaltaisen paketin varsinkin data-maailmassa. Jatkossa maailma tulee menemään enemmän SaaS-suuntaan ja Salesforce-osaaminen tulee näkymään kiinnostavana lisänä CV:ssä.

Snowflake tietokannoista tykätyin

Jolle: Nyt mennään sulle tuttuun aiheeseen, eli tietokantoihin. Tietokannat ovat tietysti datatekemisen ytimessä, ja tämä näkyy myös vastauksista. Ehkäpä selkeimmin nousee esille Solitan vahva Snowflake-osaaminen: se on tuttu 70 %:lle vastaajista, ja Solita onkin valittu mm. EMEA-alueen (Europe, the Middle East, and Africa) vuoden kumppaniksi 2019. Perinteisemmät SQL Database, Data Warehouse ja Server olivat myös hyvin tuttuja (70 – 80 %:lle vastaajistamme), samoin PostgreSQL (tuttu 58 %:lle) ja esimerkiksi Redshiftiä ja NoSQL-kantojakin on käpistelty. Vähiten riemunkiljahduksia herättivät Oracle ja DB2. Mitäs tähän kommentoisit?

Mika: Tulokset eivät yllätä. Ei tarvitse katsoa kuin vaikka viime vuoden Gartnerin Magic Quadrant -raporttia data-alustoista, niin näkee miten Snowflake on tullut uutena pelaajana mukaan ja onnistunut säilyttämään tai parantamaan asemaansa vuosi vuodelta.

Tämä tietenkin näkyy data-asiantuntijoiden päivittäisessä elämässä ja he tiedostavat, että Snowflake -osaaminen tulee olemaan tarpeellista nyt ja tulevaisuudessa. Itse suosittelen tutustumaan Snowflaken ilmaiseen Cloud Analytics Academyyn, jos haluaa vaikka erottautua meillä työnhaussa. Vaikka Snowflake on SaaS-pohjainen ratkaisu ja varsinainen DBA-työ on minimoitu, niin tekijöiden tarve on silti valtava. Snowflake laajentuu ominaisuuksiltaan koko ajan ja vaikkakin pohjimmiltaan kyseessä on tietokanta, voidaan tuotteesta puhua jo laaja-alaisena data platformina. Näiden implementointiin Solita tarvitsee jatkuvasti lisää tekijöitä.

Mainospuheiden jälkeen voidaan kuitenkin todeta, että kilpailijoiden tuotteet eivät paljoa jää jälkeen. Merkittävimpien kilpailijoiden ratkaisut eli Amazon Redshift ja Azure Synapse ovat myös valideja ratkaisuja uuden data platformin tietokannaksi mikä näkyy vastauksien osuuksissa. Redshift on on ollut jo pidemmän aikaan osittain de-facto ratkaisu AWS-alustalla hyvän ekosysteemi-integraationsa ansiosta, ja Microsoftin SQL Server pilvivariaatioineen kehittyy jatkuvasti. SQL Serverin osalta varsinkin siunaus ja kirous on tuotteen pitkä historia. Tekijöitä löytyy, mutta arkkitehtuurisesti tuotetta on vaikea kehittää eteenpäin rikkomatta Microsoftille tärkeää kilpailuvalttia; taaksepäin yhteensopivuutta, joka SQL Serverin osalta venyy pitkälle 90 -luvun alkuun. Toki pitkälle ollaan tultu ajoista jolloin suurin osa tietokantasovelluksista toimi SQL Server 2005 SP2 -versiolla. Nykyään SQL Serveriä kehitetään jatkuvasti cloud-first periaatteella.

PostgreSQL:n mukana olo yllättää ja ei yllätä samaan aikaan. Ingres-tietokannasta aikoinaan liikkeelle lähtenyt projekti on saavuttanut varsinkin kehittäjien suosion, mutta varsinaisia tietovarastoja en ole nähnyt PostgreSQL:n päällä. PostgreSQL:n ongelma on, että se ei koskaan onnistunut voittamaan Oraclea mihin koodiyhteensopivuus tähtäsi. Business-kriittisten data-alustojen tulee olla kunnon supportin alla ja tarjota jonkinlainen DW-versio. Amazon todisti tämä rakentamalla Redshiftin PostgreSQL:n koodipohjalle ja tarjoamalla tietovarastointiin paremmin soveltuvan MPP-version possusta. Sama pätee myös NoSQL-variantteihin. Sen jälkeen, kun JSON ja XML-tietotyyppien tuki tuli yleisimpiin tietokantoihin, on NoSQL-kantojen rooli jäänyt tausta-alalle ja niitä käytetään varsinkin web-sivustojen taustalla, mihin ne tietty sopivat parhaiten.

Viimeisenä on mukava huomata, että kaikkien tietokantojen isä, äiti, sisko ja veljenpoika, Oracle, on mukana. Vaikka Oraclen aliarvioiminen ja haukkuminen on helppoa, on yhtiön vaikutus tietokantojen kehitykseen ollut kiistaton. Oracle-osaaminen on ja tulee olemaan edelleen merkittävä kyky CV:ssä. Vaikka uusia Oracle-asennuksia ei enää usein tehdäkään, tarvitaan osaavia henkilöitä migraatioprojekteihin tai ymmärtämään Oraclea lähdekantana. Sama pätee myös DB2:een. IBM ei näy markkinassa uusissa data platform -asennuksissa, mutta kukaan ei kiellä millainen merkitys IBM:llä on ollut ja tulee olemaan datamaailman kentässä.

Jolle: Paljon kiitoksia Mika kattavasti kommenteista. Mukava päästä rupattelemaan asiantuntijoiden kanssa ja kuulemaan teidän mielipiteitä!

Mika: Eipä mitään. Harvemmin tälläisiä mielipidehaastatteluja tehdään, niin tokihan näihin pitää osallistua!

Jolle: Seuraavassa osassa pureudutaankin sitten datan mallinnukseen, erilaisiin datassa käytettyihin ohjelmointikieliin ja ETL -työkaluihin. Stay tuned! Sillä välin, tässä vielämuutama linkkivinkki, jos haastattelu herätti kiinnostusta: