Smart Analytics
Data Science, niet voor dummies – deel 1 Laatst bijgewerkt: 15 juni 2017

Ik verkeer al een tijdje in een identiteitscrisis. Jarenlang heb ik namelijk gedacht dat ik een statisticus was, maar nu beweren mensen ineens dat ik een data scientist ben. Klinkt best goed, zeker als ik daarmee volgens Harvard Business Review de ‘Sexiest Job of the 21st Century’ heb. Maar ik snap alleen niet zo goed wat er veranderd is. Ben ik erop vooruitgegaan? Moet ik me anders gaan gedragen? Mijn werk anders gaan doen? En mag iedereen zich zomaar een data scientist noemen, ook zonder gedegen wiskundige achtergrond? Tijd voor een klein onderzoek…

Wat zegt Wikipedia?

“Data science is about scientific methods, processes, and systems to extract knowledge or insights from data in various forms.”

En:

“Statistics is a mathematical body of science that pertains to the collection, analysis, interpretation or explanation, and presentation of data.”

Klinkt niet heel verschillend toch? Tot mijn opluchting vind ik op diezelfde pagina’s een aantal toepassingen van statistiek, waaronder data mining, operations research, machine learning en… data science. Gelukkig, ik doe dus nog steeds waarvoor ik ben opgeleid!

Hype

Als data science een ‘application of statistics’ is, waarom is het dan zo’n populair begrip geworden? Kijk alleen al naar de toename van de hoeveelheid zoekopdrachten in Google op deze zoekterm:

De hype rond data science komt niet zozeer voort uit een andere manier van data-analyse, maar uit veranderingen in de data die we analyseren.  De opkomst van social media, internet of things en smart sensors hebben niet alleen tot een enorme explosie van data geleid, de behoefte aan (real time) analyse van die data is ook geëxplodeerd. En dat gaat gepaard met hypes en nieuwe terminologie. Als we aan de bovenstaande grafiek nog twee zoektermen toevoegen – big data en regression analysis (een veel gebruikte statistische methode) – lijkt het erop dat data science aan populariteit is gaan winnen ten opzichte van ‘traditionele’ statistiek toen de hype rond big data zijn hoogtepunt had bereikt (ik heb deze hypothese niet statistisch getoetst). Toen bedrijven op grote schaal doorkregen wat de mogelijkheden van big data waren, kregen ze duidelijk behoefte om die data op een nieuwe manier te gaan analyseren…

De spelregels zijn niet veranderd

De ontwikkelingen in (statistische) technieken en software-oplossingen gaan razendsnel en er worden vandaag de dag ontzettend gave analysetoepassingen ontwikkeld. Het lijkt er alleen soms op dat door de data science hype iedereen met databasekennis en een softwaretool goed gevalideerde inzichten uit data kan afleiden. Maar de kernvraag om ‘iets zinnigs uit data te halen’ is niet veranderd en de wiskundige spelregels die je daarbij toepast zijn dat ook niet!

Een kernprincipe uit de statistiek (en wetenschap in het algemeen) is het toetsen van een hypothese. Je bedenkt een stelling en toetst die op basis van data-analyse. Als data science inderdaad als wetenschap bedreven wordt, moeten we een gestandaardiseerde procedure volgen en tot onomstotelijke conclusies komen. We hebben daarbij alleen wel te maken met een sterk variabele component: de mens. In elke fase van het onderzoek zijn we afhankelijk van de kwaliteiten van de data scientist. Hij of zij kiest het probleem om te analyseren, selecteert de methode, interpreteert en valideert de resultaten en presenteert de conclusies. Wat er mis gaat als je ondoordacht en onbezonnen data science bedrijft? Drie mogelijkheden…

1. Je vindt niks
Het is er wel, maar je vindt het niet. Het patroon dat wel degelijk bestaat, kan niet worden aangetoond op basis van data-analyse. Uiteraard weet je niet van het bestaan van het patroon (dat onderzocht je nu juist), dus je enige objectieve houvast is de uitkomst van je analyse. Maar heb je wel de juiste analysetechniek gebruikt? Ben je wel grondig genoeg te werk gegaan? Is je data misschien vervuild waardoor er te veel ruis is om het patroon te ontdekken? Als je dit soort vragen niet goed kunt beantwoorden, kun je je verdere analyse ook niet dusdanig verbeteren dat je het verband uiteindelijk wel kunt aantonen.

2. Je vindt iets dat er niet is
Het is er niet, maar je vindt het wel. Als je maar genoeg analyseert, vind je altijd wel een verband. Maar correlatie is geen direct bewijs dat 2 factoren elkaar beïnvloeden! Daar zijn natuurlijk voldoende extreme (en vaak absurde) voorbeelden van te vinden…

Bij zo’n voorbeeld zien we allemaal dat dit verband er in werkelijkheid niet is. Maar in de dagelijkse praktijk ligt het er niet zo dik bovenop. Als je ziet dat de winkel in Groningen veel meer omzet draait dan die in Leeuwarden, zou je snel kunnen concluderen dat die winkel het veel beter doet. Tot je er bij nader onderzoek achter komt dat er in Groningen opheffingsuitverkoop is. Voor je het weet bedrijf je ‘krantenkop-statistiek’: interessante inzichten die bij doorlezen toch heel wat genuanceerder liggen of zelfs onwaar zijn.

Het zit in de menselijke natuur om in allerlei situaties patronen te zoeken en te vinden. Daardoor kunnen we leren, maar het kan er ook voor zorgen dat we verbanden leggen die er eigenlijk niet zijn. Bijvoorbeeld een verband dat berust op toevalligheden in de data en niet terugkomt bij herhaaldelijke en/of andersoortige analyse. Of een verband dat ontstaat doordat er andere factoren in het spel zijn die de relatie veroorzaken of beïnvloeden. En zelfs bij een statistisch gevalideerd patroon kan het dus zijn dat er geen daadwerkelijke (causale) relatie is.

Zolang je de uitkomsten gebruikt om verder te analyseren en valideren is het niet erg. Maar te snel conclusies trekken kan ernstige gevolgen hebben. Denk aan het onterecht kenmerken van mensen als fraudeur op basis van een voorspellend model. Of een verkeerde belegging omdat de data-analyse voorspelde dat die winstgevend zou zijn.

3. Je vindt iets waar niet om gevraagd werd
Je geeft een correct antwoord, alleen niet op de vraag die je eigenlijk gesteld is. Iedere data-analyse begint met het secuur definiëren van de vraag waar je een antwoord op zoekt. Voor je het weet, ben je overhaast het antwoord op de verkeerde vraag aan het zoeken. En daarmee geld en tijd aan het verspillen.

Als de afdeling marketing wil weten ‘welke online campagnes de meeste verkoop genereren’, zijn ze waarschijnlijk op zoek naar een manier om winstgevendere campagnes te ontwikkelen door verbanden te zoeken tussen de return on investment van campagnes en de kenmerken van die campagnes. Vooraf gezamenlijk helder het doel van je onderzoek vaststellen en toetsen is dus cruciaal.

Skills van de data scientist

Professioneel data science bedrijven (dus statistisch onderzoek doen), vraagt om vakmanschap. Niet iedereen wordt zomaar ineens een data scientist. Gelukkig wordt er de laatste tijd op diverse manieren invulling gegeven aan de inhoud van dat vakmanschap. Bijvoorbeeld vanuit het door de Europese Commissie gefinancierde Edison project (building the data science profession). Meer over dit project kun je lezen in het artikel ‘Wil de échte data scientist nu opstaan?’ van Jasper de Vries.

Het Edison project deelt de skills van de data scientist op in 5 hoofddomeinen: statistische kennis, programmeren en engineering, domeinkennis, datamanagement en onderzoeks-methodologie. Naast deze ‘harde’ vaardigheden zijn soft skills minstens zo belangrijk voor een data scientist en de mensen die betrokken zijn bij data-analyseprojecten. Het fundament voor gedegen onderzoek is de juiste houding, communicatie en een goede way of working.

De meest gebruikte methode voor het implementeren van een data science aanpak is het Cross Industry Standard Process for Data Mining (CRISP-DM). Dit framework deelt het proces van data-analyse op in zes fasen:

Data Mining Kadenza

Het is cruciaal om altijd alle fasen goed te doorlopen. Een fout gemaakt in een beginfase van dit proces leidt tot vervolgfouten in iedere fase daarna. Ook in het CRISP-DM framework spelen domeinkennis en datamanagement skills een essentiële rol in het bedrijven van professionele data science.

Van theorie naar praktijk

Theorie en tooling is er voldoende voorhanden als je meer waarde uit data wil halen. Maar die op een duurzame manier in praktijk brengen en data science structureel tot bloei laten komen in je organisatie is een behoorlijke uitdaging die om een gedegen aanpak en veel geduld vraagt. En alleen met slimme technologie en kundige mensen ben je er nog lang niet. Om je op weg te helpen, zal ik in het volgende deel van deze blogreeks een aantal tips en best practices op een rij zetten.

Een kwestie van terminologie?

En mocht je je nog afvragen hoe het met mijn identiteitscrisis is… Tijdens mijn onderzoekje kwam ik de volgende quote tegen van Nate Silver, een bekende Amerikaanse statisticus en auteur:

“I think data scientist is a sexed up term for a statistician. Statistics is a branch of science. Data scientist is slightly redundant in some way and people shouldn’t berate the term statistician.”

Hoewel het belangrijker is wat we bereiken met data-analyse dan welke term we ervoor gebruiken, was ik toch blij dat ik een medestander had gevonden.
Wil je deel II in deze blogreeks niet missen? Volg Kadenza dan op Facebook of LinkedIn en blijf op de hoogte van alle nieuwe publicaties.

En stel jezelf ondertussen alvast de volgende vraag: “hoe structureel is data science eigenlijk ingebed in mijn organisatie?”


Whitepaper
DOWNLOAD