Logisch Data Warehouse
Maak je data warehouse flexibel Laatst bijgewerkt: 10 februari 2016

Sommige mensen beschouwen het datawarehouse als achterhaald en overbodig omdat je tegenwoordig gemakkelijk snel en veel data kunt opslaan in een datalake of datareservoir. Volgens mij is dat te kort door de bocht. Want wat heb je aan al die data zonder overzicht? Hoe combineer je die data met data uit andere bronnen? Data blijven dan puur data, terwijl je er ook informatie van kunt maken en inzicht uit kunt halen. Mijn pleidooi is dan ook dat alle energie die je in je datawarehouse hebt gestoken om informatie van data te maken, geen verloren energie is. Gooi die niet overboord, maar combineer die flexibel met nieuwe technieken binnen een datavirtualisatieplatform.

Data warehouse springlevend

De mensen die roepen dat het datawarehouse dood is, zijn meestal de mensen die Hadoop, NoSQL of ‘NewSQL’ gebruiken. En ik geef direct toe dat bijvoorbeeld Hadoop sommige dingen absoluut beter en sneller kan dan een datawarehouse. Denk aan verwerking van grote volumes, archivering en toegangssnelheid, maar ook aan datawarehouse-functies zoals verrijking, archivering en exploratie. Maar dat wil nog niet zeggen dat het datawarehouse daarmee minder relevant wordt. Je hoeft niet
al de waarde die je ontwikkeld hebt – uitgewerkt in je datawarehouse, het bedrijfsmodel, je logica, je kennis, je manier van spreken over de data zodat het informatie wordt – overboord te kieperen. Juist niet als je kiest voor datavirtualisatie!

Hybride=flexibel

Datawarehousing is neutraal ten opzichte van de onderliggende bronnen en formaten en schema’s in het datawarehouse. Datavirtualisatie is dat ook, maar biedt ten opzichte van datawarehousing wel de flexibiliteit die ontbreekt in een datawarehouse. Het leveren van één integraal informatiemodel is met een datavirtualisatieplatform veel gemakkelijker dan wanneer je dat in een datawarehouse samenbrengt of opbouwt. Met datavirtualisatie vergroot je dus je mogelijkheden. Kies voor een hybride architectuur waarin je Hadoop, NoSQL, het bestaande datawarehouse, externe files, batch-
en realtime-verwerking kunt combineren tot één logisch datawarehouse.

Kies daarom voor een organische aanpak zodat je kunt blijven aansluiten.

SQL-ON-HADOOP ENGINES

De kracht van het datawarehouse combineren met nieuwe technologie wordt steeds eenvoudiger in een moderne informatiearchitectuur. Het is bovendien mogelijk, en vooral praktisch, om een relationeel-model toe te passen op Hadoop en NoSQL-platforms. Juist de ontwikkeling van SQL-on-Hadoop engines (zoals Cloudera Impala e.a.) draagt enorm bij aan de toegankelijkheid en inzetbaarheid van deze platformen. Lees wat dat betreft ook het blog van Rick van der Lans daarover.

datareservoir

 

Waar begin je?

Een datawarehouse is nooit af, een logisch datawarehouse ook niet. Kies daarom voor een organische aanpak zodat je kunt blijven aansluiten. Ga stapsgewijs te werk. Begin niet te groot en probeer niet alles in een keer te doen. Stel prioriteiten, definieer incrementen en lever direct waarde aan eindgebruikers door in korte sprints op te leveren. Kies voor een groeimodel waarin de architectuur van het logisch datawarehouse het kader is voor je nieuwe ontwikkelingen en waarin het toevoegen van een big-data bron aan je bestaande architectuur een organisch proces blijft.

Auteur: Jonathan Wisgerhof, Senior architect bij Kadenza


Whitepaper
DOWNLOAD