Smart Analytics
Data Science, niet voor dummies – deel 2 Laatst bijgewerkt: 7 september 2017

In het eerste deel van “Data science, niet voor dummies” heb ik hopelijk de mystiek rond data science weggenomen. Data science is gewoon een (ingewikkeld) vak en er is vakmanschap nodig om maximale waarde uit je data halen. Ik eindigde dat artikel met de conclusie:

“Theorie en tooling is er voldoende voorhanden als je meer waarde uit data wil halen. Maar die op een duurzame manier in praktijk brengen en data science structureel tot bloei laten komen in je organisatie is een behoorlijke uitdaging die om een gedegen aanpak en veel geduld vraagt. En alleen met slimme technologie en kundige mensen ben je er nog lang niet.”

Oké, maar hoe doe je dat dan, data science tot bloei laten komen? Om je op weg te helpen, heb ik een aantal best practices voor je op een rij gezet.

Data science blog Kadenza

1. Testen, testen, testen

Onderzoek van data en de daaruit voortkomende inzichten vormen de basis voor belangrijke toekomstige beslissingen en acties. Wees je ervan bewust dat data science geen ‘spelletje’ is. Er is veel mee te winnen, maar er kan ook veel misgaan. Stel je voor dat klanten volledig verkeerde aanbiedingen ontvangen omdat je algoritme toch niet goed blijkt te werken. Of dat je inkoopbeslissingen baseert op een foutieve voorspelling van de voorraad.

Modellen die je ontwikkelt moeten robuust, stabiel en duurzaam zijn. Zodat ze ook in de toekomst betrouwbare resultaten blijven produceren. Neem niet zomaar genoegen met verbanden die je in de data denkt te zien, maar test je model door en door en controleer de uitkomsten onder verschillende omstandigheden. Dat betekent niet alleen statistische controle van je model, maar ook validatie van de uitkomsten door business experts. Zijn de resultaten logisch en bruikbaar? Doe dit niet eenmalig. maar op regelmatige basis!

Testen van data science modellen is een vak apart. Je bent immers bezig met wiskunde, statistiek en kansberekening. Modellen creëren een abstractie van de echte wereld om met een bepaalde betrouwbaarheid iets te kunnen zeggen over grote groepen observaties (klanten, producten, orders). Alleen als je goed snapt hoe dat werkt, weet je hoe en wanneer je model inzetbaar is.

2. Werk iteratief

Data science betekent verkennen en experimenteren. Je bent aan het pionieren om kansen en bedreigingen te ontdekken. Vooraf weet je niet altijd waar je eindigt en omdat je aan het innoveren bent, is er altijd een kans op ‘fouten’. Het is daarom belangrijk dat je een cultuur creëert waarin projecten mogen falen en fouten worden gezien als een leerervaring. Probeer vooral niet te zoeken naar dé perfecte oplossing, maar weet wanneer je moeten stoppen en focus op een cyclus van continu leren en verbeteren.

“Iedere uitkomst, positief of negatief, is waardevol

Begin niet met het meest uitgebreide data science project, maar werk iteratief in kleine stappen. Gebruik die uitkomst voortdurend om aan te scherpen en bij te sturen. En mocht het tegenvallen, stop dan op tijd!

Data Mining Kadenza

3. Implementeer geleidelijk

Hoe goed je modellen de realiteit ook benaderen, zodra je ze ‘in productie’ neemt, werkt het toch vaak net wat anders. Finetune je modellen daarom in de echte wereld. Start met een kleine uitrol en evalueer hoe het werkt en wat de resultaten zijn. Zo ga je gecontroleerd live en kun je op tijd ingrijpen als er problemen zijn.

“What is fragile should break early, while it is still small. Nothing should ever become too big to fail”
(Nassim Nicholas Taleb)

Dit principe geldt ook voor data science zelf. Begin met cases die geen al te groot risico met zich meebrengen als er iets niet goed gaat. Op die manier raken jij en de rest van de organisatie vertrouwd met het proces van modelontwikkeling zonder al te grote risico’s. Je leert wat de valkuilen zijn, in welke stappen je je proces het best indeelt, wie je het beste kunt betrekken om je doelen te behalen etc. Die lessons learned pas je vervolgens toe in grotere en belangrijkere projecten. Bovendien zorgt deze aanpak voor een olievlekeffect waarmee data science beter verankerd wordt binnen je organisatie.

4. Monitor het model

Het werk is niet voorbij als het ontwikkelde model of algoritme geïmplementeerd/toegepast is. Als het om een eenmalige analyse gaat die besluiten en acties tot gevolg heeft, kun je achteraf evalueren wat de impact was. Was het resultaat positief? Dan is de weg vrij voor nieuw of aanvullend onderzoek.

Wordt het model periodiek gebruikt of zelfs geïntegreerd in de operationele systemen? Monitor dan voortdurend of de werking en uitkomsten naar verwachting zijn. Werkt het model nog goed? Kunnen we nog optimaliseren? Wat is de impact tot nu toe geweest? Data science is een proces waarin je continu evalueert en zoekt naar verbetermogelijkheden. De wereld om ons heen verandert immers iedere dag. Het continu monitoren van de modellen die je ontwikkeld hebt, zorgt voor duurzame oplossingen in plaats van allerlei tijdelijke quick wins.

5. Werk multidisciplinair

De basis voor data science is vaak een (logisch) data warehouse waarin je allerlei data vanuit allerlei bedrijfsprocessen integreert. Die integratie creëert namelijk een enorme waarde voor je bedrijf. Is het dan niet net zo logisch om in je data science projecten ook mensen vanuit verschillende bedrijfsonderdelen te laten samenwerken? Natuurlijk betekent dat ook het afstemmen van verschillende belangen en meningen, maar de meerwaarde kan enorm zijn. Als iedereen domeinkennis en kennis van de onderliggende data(definities) inbrengt, zullen de projectresultaten exponentieel toenemen. Maak data science dus geen ‘feestje’ van één afdeling of expert, maar stel multidisciplinaire teams samen en investeer in samenwerking.

Samenwerken binnen een data science team betekent niet dat iedereen hetzelfde werk doet, maar optimaal gebruik maken van de unieke kennis en ervaring van ieder teamlid en hiaten in expertise laten aanvullen door andere teamleden. Zorg dat de rolverdeling helder is voor iedereen en maak duidelijk wie eigenaar is van ieder deelgebied van het project. En stimuleer samenwerking door overleg en afstemming.

6. Stel vragen

De meeste mensen in je bedrijf zijn niet thuis in data science, analytics en statistiek. Je zou daardoor de fout kunnen maken om “leken” geen vragen te laten stellen. Ze snappen immers toch niet waar het over gaat. In de praktijk wordt er daardoor soms zoveel vertrouwd op de data scientist dat die een single point of failure wordt. Of er is juist zoveel wantrouwen ten opzichte van de resultaten die tevoorschijn ‘getoverd’ worden, dat er niets mee wordt gedaan. Bovendien loop je het risico dat je data scientist vastroest in bepaalde ideeën en overtuigingen omdat hij nooit uitgedaagd wordt om zaken vanuit een ander perspectief te bekijken.

Je wil er dus voor zorgen dat er altijd doorgevraagd wordt tot iedereen “begrijpt waar we mee bezig zijn”. Vanuit de business experts naar de data scientist én andersom. Goede resultaten worden alleen bereikt als de data scientist goed begrijpt wat de business wil bereiken, hoe processen in elkaar zitten en waar de kansen liggen. En andersom kunnen business experts uitkomsten alleen valideren als ze begrijpen wat de analyse inhoudt, wat de uitgangspunten waren en welke keuzes er zijn gemaakt.

“If you can’t explain it simply, you don’t understand it well enough”
(Albert Einstein)

Soms moet je een handje helpen om die communicatie goed op gang te brengen. Check of bij iedereen alles duidelijk is en vraag om verheldering waar nodig. Doe geen aannames maar verifieer, want voor je het weet wordt er tijd en geld geïnvesteerd in allerlei projecten die door foute uitgangspunten geen resultaat zullen opleveren.

7. Focus op actie

Het klinkt voor de hand liggend, maar toch gaat het in de praktijk nogal eens mis. Waarvoor doen we dit onderzoek eigenlijk? Wat willen we bereiken met de resultaten van deze data-analyse? Hoe kunnen we een model hiervoor inzetten en wat gaat dat de organisatie opleveren? Laat de business experts en data scientists in je team eerst deze vragen samen beantwoorden, voordat het eigenlijke onderzoek start. Zoek niet in het wilde weg naar allerlei verborgen verbanden die uiteindelijk niet actionable blijken te zijn. Zorg wel dat teamleden niet op elkaars stoel gaan zitten, maar laat ieder vanuit de eigen expertise een bijdrage leveren aan een gezonde business case en een duidelijk stappenplan.

Geen losse flodders

Is het je opgevallen? Dat ik, een data scientist, eigenlijk amper over algoritmes, statistiek en betrouwbaarheid spreek? Maar het vooral heb over organisatie, processen, samenwerking en communicatie? En niet voor niets, want dat is nu juist waar het in de praktijk bij veel organisaties misgaat. Het beeld van data science komt daar niet verder dan “lekker spelen met de data en dan magisch meer winst maken”. Een beeld dat nog eens versterkt wordt door allerlei softwareleveranciers en consultants die gouden bergen beloven.

Maar zoals ik in deel 1 van dit artikel al uitlegde, betekent data science dat je gedegen onderzoek moet doen waarbij je gestructureerd werkt. Een use case definiëren, een hypothese opstellen, toetsen, evalueren en weer terug naar stap 1. De definitie van ‘klaar’ wordt daarbij bepaald door de concrete use case en niet door een ‘leuke uitkomst’.

Data science mag dan hip zijn, maar om het succesvol toe te passen moet je ook gewoon saaie dingen als structuur, planning en organisatie goed regelen. Door de juiste setting te creëren in je organisatie om professionele data science te bedrijven, zet je data echt in het hart van je organisatie. En blijft het niet bij allerlei losse flodders zonder duidelijk doel. Op deze manier zal iedereen in je bedrijf die een bijdrage levert aan data science veel efficiënter en effectiever werken.

Wat zou het voor jouw organisatie betekenen als je data science veel structureler en succesvoller zou kunnen toepassen?


Whitepaper
DOWNLOAD