Blog

Data science - Povratak u budućnost

Spletom okolnosti, a prvenstveno zbog eksponencijalnog razvoja discipline data sciencea, došlo je do jednog pomalo nevjerojatnog zapleta. Naime, sve češće ljudi počinju postavljati pitanje pa tko je to zapravo data scientist, odnosno što on/ona sve zapravo mora znati raditi? Odgovore donosi Luka Stepinac.
, 15.07.2016.

Priča o tome kako je data science postalo vrlo zanimljivo područje zapravo je priča o tome kako se statistika, inače vrlo zrela disciplina, nadopunjava s jednom vrlo mladom disciplinom – računalnom znanošću. Pojam data science nastao je relativno nedavno, prvenstveno u namjeri stvaranja obrisa nove profesije od koje se očekuje da dâ smisao velikim količinama podataka koje nam danas stoje na raspolaganju. No davanje smisla podacima, ili izvlačenje znanja i zaključaka iz podataka, ima svoju dugu povijest, u kojoj su se ispreplitali putovi mnogih znanstvenika, statističara, knjižničara, računalnih znanstvenika i drugih zvanja i zanimanja. S obzirom na to da se pojam data science često miješa s pojmom big data, još jednom bih želio naglasiti razliku – ili bolje rečeno – vezu između njih:

Collecting (big data) does not mean discovering (data science)

Drugim riječima: Big data bavi se metodama i tehnologijama prikupljanja i upravljanja ogromnim količinama raznovrsnih (strukturiranih i nestrukturiranih) podataka, dok se data science bavi kreiranjem modela koji ekstrahiraju skrivene obrasce ponašanja u kompleksnim sustavima i podacima, te implementira te modele u žive aplikacije.

Što rade data scientisti?

Posao data scientista ukratko bi se mogao opisati sljedećim primjerom. Zamislite posebnu vrstu ronioca, koji ima zadatak u tjedan dana preroniti i kartografirati mutno valovito more veličine Mediterana, uz slabu vidljivost, muljevito dno, oštre stijene i povremeno prave, a povremeno lažne morske pse; cilj je tog ronioca doznati nešto što još nitko drugi nije otkrio, a zapravo nije siguran ni što traži, a niti može li se uopće išta drugo (dovoljno zanimljivo) pronaći. Data scientist navigira vodeći se postojećim iskustvima i onime što je upravo vidio/naučio/zaključio, ali u prvom redu istražuje. On je svjestan da će se konstantno susretati s tehničkim ograničenjima, no ne dopušta da ga to sprečava u daljnjem radu. Čim potvrdi novo otkriće, prenosi ga i dijeli s drugima te predlaže način korištenja tog saznanja s ciljem donošenja neke odluke ili unaprjeđenja određenog prirodnog, poslovnog ili istraživačkog procesa. Data scientist zadovoljan je i ispunjen kada se njegovo otkriće potvrdi u praksi.

U čemu je stvar?

U redu, nije da naš ronilac iz prijašnje priče ima samo peraje, bocu kisika i podvodnu bateriju. Ima on i supermoderne gadgete, koji mu pomažu u automatskom snimanju, obradi, kategoriziranju, koreliranju prikupljenih podataka, a i kreće se više nekom vrstom hiperbrzog podvodnog kombajna, tako da je sve skupa ipak realnije i izvedivije.

E upravo je taj tehnološki moment ona prekretnica ili val na kojem je data science počeo intenzivnije jahati. Razvoj tehnologija koje podupiru prikupljanje i obradu golemih količina podataka, i to u realnom vremenu, danas je vjerojatno najživahnije tehnološko područje, tu je doslovno gužva u šesnaestercu. Na infrastrukturnom terenu natječu se tehnologije poput Hadoopa, Sparka, noSQL baza, graf baza, MPP uređaja, integracijskih alata, frameworka, security koncepata, jezika (R, Python, Scala), machine learning algoritama, real-time rješenja, što u oblaku, što onpremise… slika 2 može pomoći, uz upozorenje da su mogući simptomi vrtoglavice.

Gužva u big data

Slika 1: Gužva u big data / data science šesnaestercu

Prateći razvoj situacije zadnjih godina, te imajući na umu gornju sliku, sasvim je jasno da se upravo nalazimo usred jedne omanje, ubrzane tehnološke revolucije koja nije ograničena samo na ovo područje (tu su i umjetna inteligencija, Internet of Things i mnoštvo drugih smjerova), ali još uvijek bez formalnih pobjednika, proglašenih službenih standarda ili dokazanog većeg broja uspješnih primjena.

Jednorog – iluzija ili stvarnost?

Spletom okolnosti, a prvenstveno zbog eksponencijalnog razvoja discipline data sciencea, došlo je do jednog pomalo nevjerojatnog zapleta. Naime, sve češće ljudi počinju postavljati pitanje pa tko je to zapravo data scientist, odnosno što on/ona sve zapravo mora znati raditi? I onda kreće nabrajanje… pa, naravno, mora znati raditi s bazama SQL, noSQL, Hadoop/HDFS, Map/reduce, Hive, Spark, Storm… Onda mora znati programirati; R, Python; poželjno i Javu i Scalu. Mora dobro znati statistiku, prediktivno modeliranje i strojno učenje. Mora izvanredno poznavati poslovnu domenu koju analizira. Zatim mora posjedovati vizualizacijske tehnike. Pa mora biti u stanju razgovarati i odlično prodavati svoju priču i nalaze upravi, mora imati dobre soft skilove. I malo-pomalo, kada se sve zbroji, ispada da svi traže nekog jednoroga. A oni koji bi se i okušali u tim vodama, gube volju kada vide listu stvari koju bi “morali” savladati.

Izgledi za budućnost (Oblačno s ćuftama)

Za očekivati je da će se ova revolucija nastaviti sljedećih nekoliko godina i sigurno će donijeti nove pomake koji će utjecati na način pristupa data scienceu. No područja u kojima očekujem najviše pomaka jesu sljedeća:

Novi izvori podataka

Kada čujete da netko priča o Internet of Things (IoT), ovo je mjesto gdje ta priča spada. Dok su se prije svi koncentrirali na tradicionalne skupove podataka kao što su npr. prodajne transakcije, sve će više i više data scientisti pokušavati ekstrahirati vrijednost iz podataka generiranih putem senzora na proizvodnim linijama, vozilima, prometnicama… Većina će tih podataka biti u vidu vremenskih nizova od kojih će svaki također nositi svoj jedinstveni skup izazova.

Alati i tehnologije koji će olakšati stvari

Opensource u ovom je trenutku velik pokretač napretka. Sve više i više open-source librarya, pisanih npr. u R-u ili Pythonu, postaje dostupno svakim danom. Algoritmi strojnog učenja za probleme klasifikacije ili regresije koje biste prije 5 ili 10 godina pisali od nule dostupni su ispravni, testirani, doslovno pozivom jedne import naredbe npr. iz Scikit Python paketa.

Raslojavanje skillova u različite role 

Ovo je dosta vezano uz prethodnu točku. Ako će postojati alati koji će omogućavati snagu Pythona ili Sparka, a uz to biti jednostavni poput Excela, s vremenom će biti sve više osoba u prodaji, proizvodnji, financijama i drugim odjelima koji će početi koristiti te alate i raditi poslove slične onima koje danas rade data scientisti. Samim time, ispuhat će se onaj umjetni balon u kojem danas ljudi vide data scientiste, koji su uza sve tehničke predispozicije još i stručni u poslovnoj domeni. Također, vjerujem da će se u dobroj mjeri raslojiti i infrastrukturni (arhitekturni) aspekt od onog čisto podatkovnog ili programerskog. Danas infrastruktura ipak još u dobroj mjeri određuje način na koji će netko realizirati (programirati) dohvat i obradu podataka.

Soft skills

Data scientisti danas moraju znati prodavati. Da, moraju znati prodati svoje ideje menadžmentu, moraju biti u stanju uvjeriti menadžment da je njihovo otkriće vrijedno i da se isplati nastaviti s radom i daljnjim istraživanjem. Vizualizacija je ovdje pola posla, no druga je polovica čisti marketing. Svi znamo da se data scientisti, kao primarno tehničke osobe, ipak bolje snalaze s korištenjem R-a ili Pythona nego u prezentiranju pred publikom. No, ne bi bilo naodmet da se na fakultetima malo više pozornosti prida i soft skillovima, to je nešto što sigurno nikome nikada neće naštetiti.

 Gdje sam tu ja, prosječni rvacki IT-ovac?

Imajući u vidu još uvijek relativno tradicionalnu i inertnu politiku naših obrazovnih ustanova koje isporučuju na IT tržište rada friške mlade ljude po mjeri i dalje kod nas najpopularnijih klasičnih projekata tipa ERP-a, bazičnih web aplikacija, sustava za upravljanje dokumentima i sličnih, bojim se da će kod nas još neko vrijeme trajati faza prepoznavanja i prihvaćanja data sciencea. Cijela se ova data science grana u Hrvatskoj zasad u najvećoj mjeri oslanja na entuzijazam pojedinaca, nekoliko startupa, meetup grupa te pokoju konferenciju.

Zaključak

Budućnost data sciencea jasna je i neizbježna. Svi smo pozvani da pridonesemo razvoju i vjerujem da za svakoga tko to želi ima mjesta, a uskoro, nadam se, i potrebe; jer dok se vani firme doslovno tuku kako bi pronašle i zaposlile data scientiste, u Hrvatskoj smo još uvijek nekoliko godina udaljeni od te faze.

Na tvrtkama je da budu prve koje će prepoznati koristi i odvažiti se investirati u nešto što  zasigurno neće biti bačeno u vjetar. Istraživanje podataka nužno bi trebalo postati standardni, kontinuirani posao/proces svake tvrtke koja drži do sebe, jer u podacima su zabilježene sve informacije koje su tvrtkama bitne za strategiju, odluke i daljnji napredak poslovanja.


Data science u praksi

Primjene u praksi mogu biti vrlo raznolike, a naravno ovise i o industriji ili procesu koji se analizira.

Primjer 1. Tvrtka za dostavu paketa UPS je, analizirajući podatke o kretanjima svojih vozila te uspoređujući ih s podacima o potrošnji goriva, došla do zaključka da će uvesti tzv. no-turnleft politiku vožnje, odnosno da će maksimalno izbjegavati skretanje ulijevo. Naime, zaključili su na temelju dostupnih podataka da osim što je bitno rizičnije iz aspekta sigurnosti, skretanje ulijevo troši i bitno više benzina! Pridržavajući se tih otkrića, na godišnjoj su razini uspjeli uštedjeti oko 10 milijuna litara benzina te smanjiti emisiju štetnih plinova za ekvivalent 5300 automobila.

Primjer 2. Telekomi se počinju služiti tzv. lokacijskim marketingom, koji koristi podatke o (geo)lokaciji korisnika u realnom vremenu, u kombinaciji s povijesnim podacima i navikama korisnika, a sve s ciljem da se stvori jedinstvena ponuda za svakog pojedinog korisnika u danom trenutku. Primjer lokacijskog marketinga: vrijeme je vruće, približavate se kafiću, dobivate SMS-om kupon za ledenu kavu.

Primjer 3. Tvrtka Nike iskoristila je big data priču za ulaz na potpuno novo tržište. Za razliku od klasičnih loyalty programa u kojima kupcima koji su voljni podijeliti neke osnovne podatke (adresa, starost i sl.) tvrtka povremeno šalje brošure s popustima, ovaj je put s porastom popularnosti nosivih uređaja Nike, naravno uz prethodni pristanak, počeo prikupljati i obrađivati podatke koje ti uređaji odašilju (performanse, nadzor zdravstvenih funkcija). Sada je tvrtka u mogućnosti svojim kupcima davati npr. zdravstvene savjete, upozoravati ih ako uoče potencijalne anomalije u podacima, te se na taj način dodatno približiti i učvrstiti vezu s kupcima na obostrano zadovoljstvo.

Tagovi:
Povratak