Smart Analytics
4 redenen waarom businesskennis essentieel is voor data science Laatst bijgewerkt: 20 september 2018

Als het op gezondheidszorg aankomt, wil ik de beste behandeling voor mijn familie en mezelf. Kosten noch moeite moeten gespaard blijven als we iets nodig hebben en ik wil direct geholpen worden. Net als een hogere hypotheek tegen een lagere rente of goedkope boodschappen waar de boer ook nog voldoende aan verdient. Toch ben ik mij ervan bewust dat iedereen dit graag wil en dat het haast onmogelijk is om een situatie te creëren die goed is voor iedereen. We hebben nu eenmaal te maken met een beperkte hoeveelheid aan resources zoals geld, ruimte, mensen en tijd.

Toch streef ik er als data scientist naar om de beste oplossing te vinden tussen vraag en aanbod en wensen en behoeftes. Met data science pakken we vraagstukken op een kwantitatieve manier aan, We ontwikkelen modellen om patronen en trends bloot te leggen en te analyseren hoe we de beste oplossing kunnen vinden op basis van een grote verzameling aan data.

Eigenlijk simuleren we met data science wat het menselijke brein ook voortdurend doet; we leggen relaties om te begrijpen wat er om ons heen gebeurt en vervolgens bedenken we een oplossing om het beste resultaat te bereiken. Alleen beschrijven we de menselijke gedachtegang en het menselijke handelen vaak niet in formele termen. Terwijl statistische modellen expliciet uitgeschreven zijn. Bovendien ervaart en leert een mens organisch (als het goed is), terwijl we met data science modellen verbeteren door een ‘verliesfunctie’ te beschrijven. Kortgezegd, een regel die vertelt in hoeverre het algoritme afwijkt van de realiteit.

Neemt het model de beslissing of de mens?

Data science blijft hoe dan ook een menselijk project. Gartner beschrijft in het ‘Analytics vs. Human Input’-model de mate waarin de mens betrokken is bij verschillende vormen van analytics. De menselijke component is duidelijk aanwezig bij descriptive analytics, diagnostic analytics en predictive analytics. Bij decision automation geeft Gartner aan dat zelfs de beslissing door het model wordt gemaakt. Toch vergeten ze dat bij de opzet van het model alle keuzes zijn geoptimaliseerd en geïmplementeerd door mensen.

Zelfs de meest geavanceerde statistische modellen zijn niet onafhankelijk van de mens. Wij hebben altijd aangegeven wat goed of slecht is, en wanneer het model goed genoeg werkt om het in productie te nemen. Er is altijd een stap die genomen wordt van computer naar mens of andersom. De mate waarin de mens invloed heeft op data science projecten, hangt af van de combinatie van de betrouwbaarheid van het model en de impact van de resultaten. Bij een uitkomst waarbij de impact hoog is, blijft het noodzakelijk dat de business toezicht houdt en verantwoordelijkheid draagt voor de definitieve beslissing. En bij een model dat minder betrouwbaar is, moeten de uitkomsten worden aangevuld met inzichten uit de business.

 

Data science blog Kadenza

 

Belang van business kennis

Data science vraagt meer dan alleen het bouwen van statistische modellen. De Amerikaan Drew Conway definieerde het vakgebied data science in zijn ‘Venn Diagram’. Daarin gaat hij uit van drie deelgebieden – statistics, computer science en business knowledge – die samen het kennisgebied van de data scientist vormen.

 

Data science blog Kadenza

 

Toch ligt bij veel organisaties de focus bij data science voornamelijk op de technische kant, oftewel statistics en computer science. Data science wordt ook steeds toegankelijker voor ander business users dankzij slimme intuïtieve tools. Enerzijds is dat een goede ontwikkeling, omdat organisaties en gebruikers op deze manier meer waarde kunnen halen uit data. Anderzijds ontbreekt het veel gebruikers aan de kennis om ook duiding te geven aan statistische modellen. Met het risico dat ze niet weten waar ze op moet letten en welke haken en ogen er aan een model zitten.

Business kennis is het deel van het ‘Venn Diagram’ waar veel organisaties makkelijk overheen stappen. Maar business kennis is meer dan begrijpen wat je organisatie doet en welke processen er zijn. Business kennis gaat ook over het begrijpen en context geven aan een model. Binnen een data science project weeg je de verschillende belangen binnen en buiten je organisatie af. En begrijp je wie er met je modellen aan de slag gaan en hoe ze dat doen. Die kennis kan niet allemaal bij een data scientist zitten. Daarom moet er in een data science project altijd nauw samengewerkt worden met gebruikers en de business. De business kennis die je nodig hebt bij data science is wat mij betreft op te delen in vier verschillende gebieden. Ik zet ze kort op een rij.

1. Data interpreteren en afwegen welke data je gebruikt

Als je niet snapt waar je naar zit te kijken, kun je data of een model dat data verwerkt volledig verkeerd begrijpen. Neem bijvoorbeeld een model om de verkoop van producten te voorspellen. Neem je hierin de data mee van artikelen die zijn verkocht in de uitverkoop? Het effect hiervan kan een vertekend beeld geven van het model, omdat deze artikelen op een specifiek moment veel beter verkopen. Je kunt er dus voor kiezen om ‘uitverkoopdata’ achterwege te laten. Maar die zijn wel onderdeel van je daadwerkelijke verkopen. Deze data negeren geeft dus mogelijk een onvolledig beeld. Zonder gedetailleerde kennis van de business kun je deze data dus onmogelijk goed interpreteren.

2. Wanneer werkt een model?

Behalve dat je moet afwegen welke data je gaat gebruiken, moet je ook nadenken of de uitkomsten uit het model alleen moeten leiden tot betere performance of (ook) moet leiden tot nieuwe inzichten. Daarom is het belangrijk om te bepalen wanneer een model goed werkt. Stel dat je wil weten wat het effect is van gepersonaliseerde aanbiedingen. Wat wil je precies weten? En hoe bepaal je wanneer het effect heeft gehad? Meet je of iemand op een aanbieding klikt of meet je de uiteindelijke verkoopomzet van het product dat je aanbiedt? In het eerste geval meet je eigenlijk alleen de attentiewaarde. Een aankoop geeft een betere indicatie, maar de vraag is of dit een direct gevolg is van de gepersonaliseerde aanbieding. Vaak zoeken we bij analyses een balans tussen beide.

Hierover kun je alleen een gedegen beslissing nemen als je heel goed snapt hoe de business in elkaar zit, maar ook wat seizoensinvloed, feestdagen en trends voor effect hebben. Hoewel er veel kwantitatieve, statistische criteria zijn die aangeven of het model werkt, ligt de sleutel dus bij de business. Het gaat er, net als bij het definiëren van KPI’s, om dat op basis van cijfers en kennis de wensen en verwachtingen worden bepaald. Business kennis is daarom essentieel, omdat alleen een mens cijfers kan interpreteren vanuit zijn praktijksituatie.

3. Model in praktijk implementeren

De resultaten van een data science project zullen uiteindelijk gebruikt worden in de business. Om processen te verbeteren, werkwijzen aan te passen, nieuwe producten te ontwikkelen of door het model in te bouwen in bestaande applicaties. Voordat je start met het bouwen van een data science model, is het daarom essentieel dat je weet wie ermee gaan werken en op welke manier. Je wil weten of je een model kunt implementeren of integreren met bepaalde applicaties of digitale kanalen. Daarnaast moet het model gebruiksvriendelijk zijn voor eindgebruikers. Begrijpen zij de uitkomsten van het model? Ze hoeven niet het volledige model te snappen, maar wel hoe ze de resultaten het beste kunnen benutten. Door te weten wie je gebruikers zijn, kun je ze zelfs in een vroeg stadium betrekken bij de bouw van het model. Op die manier haal je snel feedback op en kun je het model, daar waar nodig, op tijd bijsturen. In het geval van van de webwinkel, kan het begrijpen van het model gebruikers helpen om te bepalen welke producten ze het beste kunnen aanbieden. Maar het geeft ze ook vertrouwen in het model en de onderliggende patronen die het model blootlegt.

4. Belangen afwegen

Ieder model dat je bouwt, heeft impact op de business en klanten. Als data scientist weeg je voortdurend de verschillende belangen af. Bijvoorbeeld als je een model bouwt voor een verzekeringsmaatschappij om het risico op fraude te berekenen onder klanten. Op basis van het model kan de business heel gericht claims van bepaalde klanten weigeren. Maar wat nou als het model alle mensen in de sociale bijstand als een risicogeval ziet? Neem je dan je maatschappelijke verantwoordelijkheid?

Daarnaast moet je ook rekening houden met de belangen van de verschillende afdelingen en teams. Iedere afdeling wil dat je model meerwaarde oplevert voor hun domein. Dat is geen eenvoudige opgave, gezien hun sterk uiteenlopende wensen en doelstellingen. De financiële afdeling is waarschijnlijk erg tevreden met het model, omdat ze minder claims uit moeten betalen. Terwijl sales mogelijk een grote groep potentiële klanten misloopt door het model. Ga je dus vooral voor veel nieuwe klanten of wil je liever goede klanten die vaker gaan terugkomen? Kennis van de business stelt je in staat om die belangen af te wegen en je keuzes te beargumenteren.

Data science vraagt om samenwerking

Tijdens een data science project sta je voor veel verschillende uitdagingen en keuzes. Data science stopt niet bij de cijfermatige uitkomst van een analyse, maar je lost ook de vragen achter het model op. Dat kan alleen met kennis van de business. Maar het is onmogelijk dat een data science team exact weet hoe het hele bedrijf werkt. Daar heeft iedere organisatie en afdeling zijn professionals voor. Data science is daarom nooit een geïsoleerd project, maar vraagt om intensieve samenwerking met de business. Door van tevoren met alle betrokkenen doelen scherp te stellen, is het helder wat er van iedereen verlangd wordt. En kun je bepalen wanneer het resultaat van een data science project goed genoeg is.

Hoe intensief werken data scientists in jouw organisatie samen met hun collega’s in de business?


eBook: Datademocratie!
DOWNLOAD