Modern dataanalys och Machine Learning använder sig av programmeringsspråk som R eller Python. En nackdel med dessa programmeringsspråk är att det kan vara svårt att använda dem i stor skala. Apache Spark är ett Open Source-ramverk som tillåter analytiker att sprida ut databearbetningar och modellträning på flera kluster och på så sätt möjliggör dataanalys och Machine Learning i stor skala.
Den här utbildningen introducerar er till Spark och R-paketet sparklyr, som gör det enkelt att interagera med Spark från R. Efter en introduktion till Spark går vi igenom Feature Engineering med Spark, d.v.s. hur vi bearbetar och modifierar data som gör våra modeller mer träffsäkra. Sedan går vi igenom Spark MLib och hur vi tränar, validerar och testar modeller. Till sist sparar vi våra modeller och resonerar kring hur vi kan implementera dessa i verksamheten. Utbildningen hålls av en eller två av Solitas erfarna Data-Science konsulter.
Vem riktar sig utbildningen till?Utbildningen riktar sig till analytiker eller Data Scientists som har erfarenhet av att programmera i R, motsvarande vår introduktionskurs R För Data Science.