31 augusti 2022Blogg

Kan vi använda öppen källkod för dataanalys i en reglerad verksamhet?

Många organisationer som vi på Solita arbetar med har stängda och reglerade miljöer för dataanalys. Ofta handlar det om myndigheter, finansiella institutioner eller läkemedelsbolag som av förklarliga skäl inte kan tillåta analys av data hur som helst. De stängda miljöerna har länge dominerats av licensierad stängd källkod. Du betalar för att få tillgång till verktyg och programmeringsspråk för att göra dataanalys.

Men de flesta andra branscher har gått åt ett annat håll. Sedan några år dominerar öppen källkod, det vill säga mjukvara som inte har någon licenskostnad och som är utvecklad av ett community snarare än ett företag. Särskilt universiteten har de senaste åren skiftat om från en uppsjö olika licensierade mjukvaror till att istället använda öppen källkod. De flesta nyutexaminerade statistiker, ekonomer och ingenjörer som jag träffar vill arbeta med dataanalys med öppna programmeringsspråk som Python och R.

För att analytiker ska kunna installera mjukvara som bygger på öppen källkod behöver de administrativa rättigheter på sin dator och tillgång till internet. Av helt legitima skäl kan inte reglerade verksamheter alltid erbjuda det. Men det går att arbeta med öppen källkod även i reglerade verksamheter. Vi behöver bara introducera lite mer kontroll och validering av den öppna källkoden.

Pakethantering

Tack vare att källkoden är öppen kan användare av öppen källkod själva bidra med “paket”, det vill säga utbyggnader av programmeringsspråket som andra kan använda. I R och Python finns det tusentals paket tillgängliga, helt kostnadsfritt. Dessa paket har revolutionerat hur dataanalytiker jobbar. Att installera ett paket är inte svårare än att exekvera en rad kod som laddar ner paketet och installerar det i din analysmiljö.

Men jobbar du i en reglerad verksamhet är det, som sagt, inte givet att du får installera mjukvara hur som helst. Utöver det kan IT vilja ha kontroll över de paket som du använder.

Lösningen för pakethantering är att på en server i den stängda miljön ladda ner paket från adresser som är godkända av IT. Det här kan göras med olika nivåer av säkerhet, poängen är att IT äger och förvaltar de paket som används i verksamheten. Analytiker kan enkelt anropa paket-servern och använda R och Python precis som de skulle göra på en vanlig dator.

Tillgång till data

Ett annat problem är tillgång till data. I många fall ska inte alla analytiker ha tillgång till all data. Lösningen på det problemet är, precis som det ofta är för äldre licensmjukvara, att ha en dedikerad server som analytiker arbetar mot som i sin tur ger användare tillgång till data från centrala eller distribuerade datakällor. På servern finns R och Python installerat, tillsammans med de utvecklingsmiljöer (IDE:er) som analytiker vill använda. IT kan då administrera rättigheter till data via användarkonton från den servern och analytikerna kan fokusera på att analysera data.

Schemaläggning och produktion

Slutligen vill analytiker enkelt kunna schemalägga och dela med sig av analyser gjorda i R och Python. Jag har genom åren sett många hemmagjorda lösningar för schemaläggning som inte nödvändigtvis ägs av IT. De är ofta sköra och personberoende. Lösningen jag föredrar är återigen en server där du kan schemalägga skript, dela med dig av analysrapporter, dashboards, API:er och andra analysprodukter.

De senaste åren har det gjorts stora framsteg inom hur du kan använda öppen källkod för dataanalys i reglerade och stängda verksamheter. Om du som reglerad verksamhet – oavsett om det är en myndighet, bank eller läkemedelsbolag, vill konkurrera om arbetskraft – behöver du en strategi för öppen källkod.

Funderar din organisation på hur ni kan använda öppen källkod i en stängd och reglerad IT-miljö? Vi pratar gärna mer om potentiella lösningar som ger er kontroll över infrastruktur samtidigt som analytiker kan fokusera på att analysera data i de verktyg de föredrar.