Datavirtualisatie
Orde in je dataleveringen Laatst bijgewerkt: 17 november 2016

Hoeveel afnemers van data heb jij binnen en buiten je organisatie? Tientallen? Of misschien wel honderden? Allemaal met andere eisen en wensen over de structuur en inhoud van de dataset(s) die ze ontvangen. En waarschijnlijk hebben al die afnemers andere rechten met betrekking tot wat ze wel en niet mogen zien. Bij veel organisaties is hierdoor in de loop van de jaren een heel circuit ontstaan van dataleveringen in allerlei vormen en maten. Hoe creëer je orde en betrouwbaarheid in deze chaos aan datastromen? Eigenlijk heel simpel. Met een datavirtualisatieplatform!

In commerciële organisaties worden vaak datasets aangeleverd aan klanten en toeleveranciers. Al die partijen ontvangen met een vaste frequentie gegevensbestanden op maat in een voor hen bruikbaar formaat. Deze bestanden worden gebruikt voor data-analyse of als bron voor het eigen managementinformatiesysteem. Andere organisaties hebben zelfs de verplichting om gegevens aan te leveren door hun positie in de markt of vanwege wet- en regelgeving. Bijvoorbeeld aan overheidsinstanties, controlerende instanties, branchegenoten en/of koepelorganisaties. In dat geval gaat het vaak om zeer vertrouwelijke of privacygevoelige data.

De meeste organisaties gebruiken een centraal dataplatform voor het uitleveren van datasets. Meestal met een ‘traditionele’ architectuur waarbij brondata met een ETL-tool fysiek gekopieerd, getransformeerd en geïntegreerd worden. Vanuit bijvoorbeeld ERP systemen, CRM applicaties, cloud toepassingen of (ook weer) aangeleverde bestanden. Het centrale, geïntegreerde dataplatform (of data warehouse) is vervolgens de bron voor alle datasets. Met hetzelfde ETL-tool worden ook de fysieke tabellen en bestanden geproduceerd en uitgeleverd volgens de gemaakte afspraken. Soms zijn stappen in dit proces ‘logisch’ gemaakt door database views te gebruiken.

Gaat het er bij jou ook zo aan toe? Dan heb je ongetwijfeld te maken met één of meer van de volgende vier problemen.

1. Chaos
Initiatieven voor het leveren van datasets beginnen vaak met goede ideeën, plannen en voornemens. Maar ergens langs de route komt vaak het moment dat je je realiseert dat je niet meer in controle bent en dat er chaos is ontstaan. Stel je levert aan je klanten een informatieproduct in de vorm van bestanden met alle data van hun klantportefeuilles. Je bent ooit gestart met één of twee klanten die één keer per maand een set bestanden wilden ontvangen. Om hieraan te voldoen heb je een omgeving ingericht waarmee je aan alle eisen en wensen van die klanten kon voldoen en je hebt rekening gehouden met groei van de omgeving. Je bent nu een aantal jaren verder, je organisatie is gegroeid en professioneler geworden. Met diverse gevolgen:

  • Groei: het aantal klanten waaraan je levert is sterk toegenomen.
  • Maatwerk: een aantal klanten stelt afwijkende eisen aan de structuur en inhoud van de bestanden.
  • Versiebeheer: sommige klanten kunnen aanpassingen aan hun omgeving niet doen met dezelfde frequentie als waarmee jij wijzigingen in de dataleveranties doorvoert.
  • Auditeerbaarheid: eenmaal uitgeleverde bestanden moeten wettelijk voor een bepaalde tijd bewaard blijven.
  • Frequentie: ééns per maand een bijgewerkte dataset is niet meer acceptabel, je klanten eisen minimaal wekelijks, dagelijks of zelfs real time ververste gegevens.

Al deze aspecten hebben grote invloed op de complexiteit van je omgeving. De situatie dat je geen uitzonderingen voor bepaalde klanten hoeft te maken en met één aanpak al je afnemers kunt bedienen komt eigenlijk niet voor. De klant is nu eenmaal koning. En zo groeien de datastromen uit tot een aaneenschakeling van klantspecifieke uitzonderingen en work arounds. Niemand kent de exacte verschillen tussen afnemers meer en veel van de kennis zit in de hoofden van de medewerkers. Het aantal exacte bestanden dat wordt geleverd en of ze nog worden gebruikt, is misschien niet eens meer bekend. En het toevoegen of aanpassen van een datalevering aan een klant is een project op zich.

 

Blog Kadenza

2. Arbeidsintensief
Bij een traditioneel dataplatform kost het relatief veel tijd om een nieuwe datalevering te implementeren of een bestaande aan te passen. Na een functionele en technische analyse moet een ontwikkelproces gestart worden om nieuwe ETL voor de specifieke levering te ontwikkelen, testen, accepteren en in productie te nemen. Nog los van functionele acceptatie, rework op basis van testresultaten, documentatie en nazorg. Al met al veel werk om één datalevering te realiseren.

3. Intensief beheer
De groei van het aantal klanten en dataleveringen heeft ook flinke gevolgen voor de omvang en complexiteit van het beheer van alle datastromen. Bovendien neemt in de loop van de tijd het volume op je dataplatform fors toe. Steeds meer klanten willen steeds meer data ontvangen. Alle data die wordt geleverd wordt gerepliceerd en op de één of andere manier bewaard. Datavolumes groeien hiermee niet geleidelijk, maar exponentieel. Meer data en meer dataleveringen leidt vanzelf tot meer beheer, totdat de rek eruit is. De omgeving wordt veel te duur en problemen kunnen niet meer snel genoeg opgelost worden waardoor data onvolledig, te laat of met fouten wordt geleverd.

4. Beperkte governance
Er komen steeds meer (wettelijke) regels als je werkt met vertrouwelijke of privacygevoelige data. De risico’s en boetes bij het verkeerd gebruiken van data en bij datalekken zijn aanzienlijk. Misschien ben je je daar al wel bewust van, maar je dataplatform hierop aanpassen is een uitdaging! Bij het ontwerp is geen rekening gehouden met de regelgeving van vandaag. De voornaamste vraag was altijd “wat wil de klant hebben?”. Terwijl de vraag nu is “wat wil de klant hebben, mag hij dat wel hebben en hoe veilig is dat?”

Wet- en regelgeving bezorgt je twee uitdagingen. Bij het samenstellen van dataleveringen moet je heel precies rekening houden met wat de ontvanger mag zien. Het kunnen ook meerdere ontvangers zijn! Daarnaast moet je omgeving auditeerbaar zijn. Van elke data-element moet vastgelegd zijn wat de herkomst is en hoe die informatie tot stand is gekomen. Je moet kunnen aantonen dat ontvangers van informatie gerechtigd zijn om die (samengestelde) informatie te bekijken. Ook als je informatie niet privacygevoelig is, is data governance een heel relevant onderwerp. Een afnemer die informatie ziet die niet voor hem bedoeld is, of die beslissingen neemt op basis van incorrecte of onvolledige data, is in elk opzicht een ramp.

Orde met datavirtualisatie

Een datavirtualisatieplatform lost deze vier problemen op en helpt je om orde te scheppen in de chaos aan dataleveringen. Vier problemen in één klap opgelost!

Het principe van datavirtualisatie is het op en logische manier ontsluiten en integreren van data uit diverse bronnen naar afnemende systemen, zonder dat daarbij replicatie van data plaatsvindt. Met hetzelfde eindresultaat als traditionele ETL processen met fysieke replicatie van data. Datavirtualisatie helpt je om dataleveringen efficiënter uit te voeren, geeft je meer flexibiliteit om veranderingen door te voeren, met minder beheerinspanning. En bovendien kun je eenvoudig inzichtelijk maken hoe datasets tot stand zijn gekomen, wie toegang heeft tot welke data en welke informatie precies wordt uitgevraagd!

1. Geen chaos maar overzicht
Met een platform voor datavirtualisatie kun je in principe al je dataleveringen doen zonder enige data te repliceren. Als je een centraal dataplatform hebt dat voorziet in auditeerbare historie en herleidbaarheid, dan kun je die als databron aansluiten op het datavirtualisatieplatform, waarmee je alle fysieke ETL om datasets te genereren vervangt. Een enorme reductie in complexiteit. Nieuwe databronnen kun je ontsluiten via het traditionele dataplatform, maar ook rechtsreeks aansluiten op de datavirtualisatielaag. Die laag gebruik je vervolgens voor de publicatie van datasets naar de afnemers.

Met de autorisatiemogelijkheden in een datavirtualisatieplatform hou je grip op wie toegang heeft tot welke data. Omdat de virtuele omgeving over je bestaande data warehouse heen ligt, kun je eenvoudig dezelfde datasets blijven leveren, maar nu op basis van maar één set virtuele tabellen. Aan gebruikers en gebruikersgroepen worden vervolgens filters gekoppeld, zodat iedere gebruiker alleen die gegevens ziet die hij mag zien. Als een afnemer afwijkende eisen en wensen heeft, kunnen die in veel gevallen eenvoudig worden opgelost met autorisatieregels. En als dat niet afdoende is, maak je in een handomdraai een nieuwe virtuele tabel aan, inclusief transformaties en koppelingen.

 

Blog Kadenza

2. Snel ontwikkelen
Met een datavirtualisatieplatform ben je veel minder tijd kwijt om nieuwe dataleveringen te ontwikkelen dan in een traditionele (fysieke) omgeving. Je hoeft namelijk alleen te ontwerpen en te prototypen. Bij het ontwerpen bepaal je inhoud en structuur van de tabel. In de virtuele laag definieer je vervolgens de benodigde tabel via joins, transformaties en filters. Omdat de tabel virtueel is, zie je direct resultaat en kun je direct afstemmen met je afnemers of de informatie voldoet aan de eisen en wensen.

3. Beperkt beheer
Met datavirtualisatie zijn dataleveringen veel makkelijker te beheren. Data wordt niet gerepliceerd en de groei van het datavolume blijft daarmee minimaal. De kosten voor het technisch beheer van je dataplatform zijn – door het ontbreken van de exponentiele groei aan data – vele malen lager dan bij fysieke replicatie. Doordat je gebruik maakt van virtuele tabellen en slimme autorisatie is de hoeveelheid logica in het platform veel overzichtelijker. En het aantal datasets dat in je organisatie ‘rondslingert’ is veel kleiner.

4. Governance geregeld
Een datavirtualisatieplatform biedt uitgebreide mogelijkheden voor logging, impact- en lineagebepaling. In combinatie met de autorisatiemogelijkheden ben je daarmee in staat precies te zien waar informatie vandaan komt en hoe die tot stand is gekomen. Bovendien maakt het platform inzichtelijk wie welke informatie heeft geraadpleegd en wie welke autorisaties heeft. Het platform biedt je daarmee alle middelen om – in combinatie met je bestaande data warehouse – je dataleveringen op een transparante maar auditeerbare wijze op te zetten.

Een kwestie van tijd

Veel mensen zijn bang dat een datavirtualisatie oplossing tot performance problemen leidt. Met de middelen die we tot nu toe tot onze beschikking hadden (zoals views) was dat ook zo. En die middelen losten ook maar een klein deel van de problemen van fysieke replicatie op vanwege de beperkte functionaliteiten. De nieuwe generatie datavirtualisatieplatformen levert echter een krachtige en slimme ‘virtuele motor’ vol intelligentie, waarmee virtualisatie op grote schaal mogelijk wordt, zonder significant in te leveren op performance. Wat dat betreft is het net als bij server virtualisatie. Het is slechts een kwestie van tijd voordat technologie voor datavirtualisatie deel uitmaakt van het informatielandschap van iedere organisatie.

Blijf jij genoegen nemen met kostbare chaos in je dataleveringen, of pak je die chaos voor eens en voor altijd aan?


Whitepaper
DOWNLOAD