Self Service Analytics
Denk vier keer na voordat je externe data gebruikt!

Ieder zichzelf respecterend bedrijf is bezig met data science initiatieven om op basis van slimme data-analyse nieuwe – vaak onverwachte inzichten – te ontdekken. En als het gesprek over data science gaat, vallen al snel de magische woorden ‘externe data’. Want als analyse van data uit je CRM- of ERP-systeem al zulke mooi inzichten oplevert, wat gebeurt er dan wel niet als je externe data meeneemt in die analyse? Data die buiten de organisatie wordt geproduceerd of verzameld, bijvoorbeeld over het weer, de beurskoersen, consumentengedrag of op social media. Iedereen is ervan overtuigd dat er enorme waarde ligt in die data, maar weinig bedrijven weten hun weg te vinden in de wereld van externe data. Ik help je graag op weg.

Start dicht bij huis

Mijn collega Alexander schreef recent een verhelderend artikel waarin het pace layer model van Gartner centraal staat. In dit model bevindt het werkveld van de data scientist zich in de ‘systems of innovation’, gericht op innovatie en vernieuwing. De rol van data scientists is het uitvinden van nieuwe, baanbrekende oplossingen die – bij bewezen succes – geoperationaliseerd kunnen worden voor de hele organisatie (lees: gepromoveerd worden naar een volgende laag van het pace layer model). Logisch dat zij buiten de gebaande paden treden en steeds op zoek zijn naar nieuwe databronnen om te combineren met data uit de interne bedrijfsprocessen. Maar moet externe data daar ook altijd een rol bij spelen?

Niet per se… Misschien heb je het idee dat gebruik van externe data een vereiste is voor een geslaagd data science project, maar dat is zeker niet het geval. Vaak liggen oplossingen dichter bij huis dan je denkt. De meeste organisaties beschikken over meer dan voldoende data om de gemiddelde data scientist maanden, of zelfs jaren, zinvol bezig te houden. In veel gevallen wordt het pas zinvol (en een logische vervolgstap) om je blik naar buiten te richten als je analyse van je eigen data goed onder de knie hebt. Zeker omdat externe databronnen (en de koppeling ervan met je interne data) vaak nog een stuk weerbarstiger zijn dan je eigen systemen.

Vooraf nadenken

De data scientist combineert creativiteit met analytisch vermogen en krijgt vaak veel vrijheden om op onderzoek uit te gaan. Met andere tools, een andere aanpak, nieuwe methodes en… andere data. Maar hij/zij weet ook dat succesvolle ontdekkingen uiteindelijk geïntegreerd moeten worden in het bestaande IT-landschap en bruikbaar moeten zijn voor ‘gewone medewerkers’. En dat geldt net zo goed voor de externe data die daarbij gebruikt wordt. Richt je je blik naar buiten voor nieuwe inzichten, dan is het goed om vooraf goed na te denken wat de voorwaarden en consequenties zijn bij het gebruik van data die niet onder je eigen controle staat. Hoe start je de zoektocht naar zinvolle externe data en waar hou je rekening mee bij je keuzes?

Drie soorten

Overal om je heen is data te vinden en door de snelle ontwikkeling van technologie ligt die data vaak voor het oprapen. Een one-stop-shop waar je externe data vandaan kunt halen, bestaat echter niet. Je zult dus gericht moeten zoeken naar data die voor jou zinvol én geschikt is. Grofweg zijn er drie soorten externe data waar je uit kunt putten.

1. Open data

Open data wordt – onder bepaalde voorwaarden – gratis aan iedereen ter beschikking gesteld. Dit soort data is een aantal jaren terug in de belangstelling gekomen bij de invoering van de Wet hergebruik van overheidsdata. Deze wet heeft ervoor gezorgd dat veel overheidsdata tegenwoordig (geanonimiseerd) wordt vrijgegeven via https://data.overheid.nl. Dit loket biedt data aan over bijvoorbeeld verkeer, milieu, bevolking, huisvesting en de economie. Een belangrijk kenmerk van open data is de focus op hergebruik, waardoor er goed is nagedacht over structuur, levering en licentievoorwaarden.

2. Betaalde data

Er komen ook steeds meer partijen op de markt die tegen betaling data aanbieden die ze zelf verzameld en verrijkt hebben. Denk aan de levering van naw-gegevens, consumentenprofielen of aandelenkoersen. Deze leveranciers verdienen hun geld met de handel in data en hebben goed nagedacht over de behoefte van hun klanten. De kwaliteit van betaalde externe data is meestal hoog en dit soort gegevens is makkelijk te integreren met data uit interne systemen. Betaalde data biedt bovendien een grotere kans om inzichten te ontdekken die een concurrent nog niet heeft.

3. Scraped data

En dan is er nog de mogelijkheid om je externe data ‘bij elkaar te schrapen’. Door op zoek te gaan naar datasets die niet netjes voor je klaar staan (ook niet als je ervoor betaalt), maar die jezelf moet ontsluiten, structureren en controleren. Denk aan data van nieuws-websites, internet fora of social media die je binnenhaalt via API’s of scripts in Python of R. Externe data scrapen betekent dat je zelf over veel meer dingen moet nadenken. Wat haal ik binnen? In welk formaat? En wat betekent al die data precies? Wat wil ik ermee en hoe pak ik dat aan? Want lukraak allerlei data van internet binnenhalen heeft natuurlijk geen zin.

Consequenties en randvoorwaarden

Experimenteren met externe data is één ding, maar die data structureel en dagelijks toepassen binnen je organisatie is heel wat anders. Denk dus voorafgaand aan je experimenten al na over de consequenties als je experiment succesvol is. Kun je het gebruik van die externe data wel operationaliseren? (Of: is die externe data wel te promoveren naar een volgende laag in het pace layer model?). Met welke randvoorwaarden moet je rekening houden bij je zoektocht naar zinvolle, bruikbare externe data?

1. Aanlevering

Misschien wel de belangrijkste randvoorwaarde om rekening mee te houden is de mogelijkheid voor een structurele en betrouwbare aanlevering van de externe data die je gaat gebruiken. Het eenmalig te pakken krijgen van data voor een experiment is vaak niet het probleem. Een data scientist komt meestal wel op een creatieve manier, met zijn eigen tools, aan een bruikbare dataset om mee te experimenteren. Maar wat als de analyses bevestigen dat die data bruikbare inzichten oplevert die je breed beschikbaar wil stellen in je bedrijf? Is het dan mogelijk om die data regelmatig (of zelfs real time) binnen te halen en betrouwbaar te koppelen aan bijvoorbeeld het data warehouse?

2. Datakwaliteit

De kwaliteitseisen aan externe data zijn niet anders dan die aan interne data! Als analysetoepassingen met externe data ‘gepromoveerd’ worden tot ‘systems of differentation’ of zelfs ‘systems of record’ zijn gewoon de gebruikelijke data governance eisen van toepassing. Het probleem is dat de kwaliteit van externe data nogal varieert, zeker tussen de drie soorten die ik hiervoor beschreven heb. Hoe interessant externe data ook lijkt voor jouw bedrijf, denk eerst goed na of de kwaliteit structureel te borgen is. Zorg dat je (de definities van) de databron goed doorgrondt en hebt getoetst aan de requirements die je organisatie stelt aan kwaliteit en controleerbaarheid. En check of die requirements structureel te monitoren zijn. Extra belangrijk als je externe data via een ‘live’ verbinding gaat binnenhalen en real time wil analyseren. Je bent en blijft afhankelijk van externe partijen, dus zorg dat je vooraf weet wat je kunt verwachten.

3. Wet- en regelgeving

Heel veel data ligt voor het oprapen, zeker als je data gaat scrapen. Maar mag je al die data zomaar overal voor gebruiken? De meeste open en betaalde data gaan vergezeld van uitgebreide licentievoorwaarden waarin beschreven staat wat je met die data mag doen. Lees die goed, want lang niet alles is toegestaan. Ook op social media en internet fora staat vaak expliciet vermeld wat wel en niet mag. Sommige websites verbieden het scrapen van content van hun site zelfs volledig. Het is voor veel data scientists verleidelijk om allerlei data die eenvoudig beschikbaar lijkt te gebruiken, maar vergis je niet in het risico van illegaal gebruik van data! En dan hebben we het nog niet gehad over wetgeving als de GDPR, die in 2018 van kracht wordt. Wetgeving die strenge eisen stelt aan opslag en gebruik van privacygevoelige informatie. Externe data verzamelen en koppelen aan interne klantdata, introduceert een scala aan extra risico’s vanuit de wetgeving. Heb je daaraan gedacht in je zoektocht naar baanbrekende nieuwe inzichten?

Vier keer nadenken

Kun je dan maar beter afblijven van externe data? Nee, zeker niet, want externe data kan soms geweldige nieuwe inzichten opleveren. Ik hoop alleen dat je vier keer goed nadenkt waar je aan begint en wat de toekomstige consequenties zijn.

  • Waar vind ik de beste data voor mijn doel?
  • Hoe kan deze data aangeleverd worden?
  • Hoe garanderen we de kwaliteit van deze data?
  • Onder welke voorwaarden mag mijn organisatie deze data gebruiken?

Raadpleeg bij het beantwoorden van deze vragen altijd collega’s vanuit IT, data governance en/of juridische zaken.

De ‘weg met de file’ case

Tot slot een fictief voorbeeld om de rol van externe data te illustreren. Ik en mijn collega-consultants zijn de hele week onderweg naar verschillende klanten door het hele land. We zitten vaak uren op de weg en niets is daarbij vervelender dan tijd (en geld!) verdoen in weer zo’n eindeloze file. Zou het niet mogelijk zijn onze agenda zo te plannen dat het filerijden tot een minimum beperkt wordt? Onze agenda’s worden misschien wel intern gepland, maar onze reistijd is voor een groot deel afhankelijk van externe factoren. Welke rol zou externe data hier kunnen spelen?

Waar vind ik de beste data voor mijn doel?

Het Dataportaal van de Nederlandse overheid biedt een geweldige open dataset van het NDW aan over de intensiteit van reistijden op 24.000 meetpunten (600 miljoen metingen per dag). Het aantal voertuigen dat een meetpunt passeert wordt iedere minuut vastgelegd. De dataset is zowel historisch als real time te verkrijgen. Voorspellende modellen op deze data kunnen ons adviezen geven bij het maken van afspraken of zelfs automatisch (delen van) die agenda indelen, zodat we zo min mogelijk in de file belanden.

Aanlevering

De mogelijkheid om van open data van het NDW gebruik te maken biedt grote voordelen. We beschikken zowel over historische als real time data en we kunnen zowel gebruiken maken van een goede export-functie als een rechtstreekse koppeling met de database. De historische data gebruiken we om een initieel model te trainen waarmee de files van de komende week voorspeld kunnen worden. Dit model kan direct ingezet worden om de agenda’s zo goed mogelijk in te delen. Vervolgens zorgen we dat het model zichzelf voortdurend verder kan optimaliseren op basis van de meest recente gegevens, door het leggen van een directe koppeling met de NDW database.

Data kwaliteit

Hoe zit het met de kwaliteit van de gegevens in deze dataset? Dat het om open data gaat, garandeert niet automatisch dat de datakwaliteit ook voldoende is voor ons gebruik. Het NDW is afhankelijk van het functioneren van alle meetpunten om tot kwalitatief goede data te komen. We voeren daarom op de historische dataset een aantal kwaliteitsanalyses uit. Denk aan de check op nulwaarden/missende gegevens en vreemde uitschieters. Die controles moeten we ook vertalen naar monitoring van de real time datastroom, omdat we geen garanties hebben dat de data continue aan onze kwaliteitseisen blijft voldoen. Zijn er kwaliteitsproblemen, dan kunnen we daar actief op ingrijpen, bijvoorbeeld door missende data te vervangen door gemiddeldes en uitschieters niet mee te nemen in onze analyses. Uiteraard verdiepen we ons ook in de exacte definitie en betekenis van alle gegevens in de dataset. Het NDW levert daarvoor gelukkig uitgebreide documentatie, inclusief alle definities.

Wet en regelgeving
Uiteraard bekijken we ook of we dit allemaal wel zo mogen doen. Deze data wordt aangeboden onder de Wet hergebruik overheidsgegevens met een ‘CC-0’ licentie: “De persoon (hergebruiker) die deze licentie heeft gekoppeld aan de dataset, heeft de dataset toegewezen aan het publiek domein door wereldwijd zijn of haar rechten op het werk onder het auteursrecht, inclusief alle bijbehorende en naburige rechten, af te staan, voor zover door de wet is toegestaan”. Dat zit dus wel goed. Door de koppeling van de data met gegevens uit de agenda’s ontstaat ook geen extra privacygevoelige informatie. Zolang we maar wel op de juiste manier met de persoonlijke gegevens uit de agenda’s omgaan. Deze nieuwe gegevensbron (de agenda) moeten dus wel onderdeel uit gaan maken van ons data goverance beleid en waar nodig moet dat beleid worden aangescherpt.

Conclusie

Het gebruik van externe data biedt een heleboel kansen, maar is complexer dan je in eerste instantie denkt. Loop dus niet te hard van stapel als je de data-paden buiten je organisatie gaat bewandelen. Externe data biedt oneindig veel kansen om te experimenteren en nieuwe inzichten te vinden die van waarde zijn voor je organisatie. Hoe frustrerend is het als je succesvolle experimenten niet kunt omzetten in dagelijks bruikbare oplossingen, omdat je vooraf niet goed hebt nagedacht over de randvoorwaarden en consequenties bij het gebruik van externe data? De markt voor externe data is nog behoorlijk onvolwassen, maar als je doelgericht te werk gaat liggen er zeker kansen. Denk eerst vier keer na en grijp dan de kansen die er voor jouw bedrijf liggen!