De rol van data governance in je data lakehouse of -warehouse

In de huidige digitale wereld zijn steeds meer organisaties bezig met de transitie naar data gedreven bedrijfsvoering. Het doel voor vele van deze bedrijven is het kunnen maken van beslissingen op basis van data ten opzichte van een onderbuik gevoel. Om data effectief en efficiënt te kunnen benutten is het hebben van een data infrastructuur cruciaal. Hier komt dan ook data governance om de hoek kijken. In deze blog willen we je meenemen in dit onderwerp en zullen we je een aantal tips mee geven!

Wat is data governance?

Data governance omvat alle afspraken en spelregels met betrekking tot hoe de organisatie om gaat met de data. Nu voelt dat wellicht onwijs bureaucratisch, maar toch kan dit niet ontbreken bij een data gedreven organisatie. Het onderwerp gaat verder dan alleen de technische kant van het opslaan en beschikbaar maken van de data. Denk bijvoorbeeld aan dat de ingevoerde data moet voldoen aan de kwaliteitseisen en dat de organisatie voldoet aan de AVG/GDPR regelgeving. Het omvat het definiëren van rollen en verantwoordelijkheden, procedures en het auditen van de afspraken.

Waarom is het zo belangrijk?

Het belang van data governance kan worden verdeeld in een aantal onderwerpen.

Data kwaliteit

Zonder goeie richtlijnen kan de kwaliteit van de data worden vervuild. Het doel is dat de data schoon, accuraat en ook bruikbaar blijft over de tijd. Als de data niet actief wordt onderhouden, is er een grote kans dat de kwaliteit zal afnemen. We hebben al eerder geschreven over de impact van data kwaliteit, daar spraken we over dat lage of dalende kwaliteit impact kan hebben op het vertrouwen waardoor het gebruik van data kan afnemen. Dat is natuurlijk het laatste wat je wilt bereiken! Om de data kwaliteit te borgen, kan je denken aan het opzetten van naamconventies in je data model, maar procedures ook hoe eindgebruikers gebruik maken van de bronsystemen waar data uit wordt ontsloten.

Daarnaast kun je ook nieuwe functies of verantwoordelijkheden introduceren. Denk hierbij aan data owners en data stewards.

  • De data owners zijn verantwoordelijk voor de data uit een specifiek domein, sector of afdeling. Het is hun rol om er voor te zorgen dat de data correct is in de bron, het goedkeuren van data definities, etc. Data owners hebben vaak een senior positie en diepgaande kennis. Een data owners kan bijvoorbeeld veel betrokken zijn bij een data model en is goed om de hoogte hoe het in elkaar zit.
  • De data stewards zit daarentegen meer op de operatie. Zij zijn verantwoordelijk voor het dagelijkse beheer en bewaking van de data.

Let op, het introduceren van deze rollen is niet zo maar niks. Voor bedrijfskritische data kan het soms wel een losse functie worden en zul je als extra verantwoordelijkheid te weinig tijd hebben om een impact te maken.

Veiligheid

In je data infrastructuur komt veel bedrijfskristische data samen en wordt dit omgezet tot waardevolle informatie. Binnen deze ontsloten data kan je te maken hebben met gevoelige data (i.e. persoonsgegevens, financiële of HR data). Het is dan ook cruciaal voor een organisatie om de veiligheid dan ook goed te waarborgen. Naast dat je te maken zult hebben met de AVG/GDPR wetgeving als je werkt met persoonsgegevens, wil je natuurlijk dat je systeem waterdicht is.

De eerste slag die je kan maken is de toegang naar de data vanuit technisch oogpunt goed te beschermen. Wellicht heb je een cloud of on-premise data infrastructuur. Zorg ervoor dat je infrastructuur goed is beveiligd! Denk aan het introduceren van een firewall, een hub-and-spoke-netwerktopologie en twee staps verificatie.

Als al die data bij elkaar komt en je het aanbiedt aan de organisatie om er gebruik van te maken, via bijvoorbeeld een PowerBI rapportage of SQL/Python, dan zul je ook in de gaten moeten houden wie waar bij mag. Mogen bijvoorbeeld alle HR collega's bij alle HR data? En wie mag bij de data van HR gecombineerd met financiële data? Mag dan ook de financiële afdeling erbij? Je zult dus goed moeten nadenken over wie waar bij mag en hoe je dat zo goed mogelijk kan automatiseren. Werk bijvoorbeeld met het principle of least privilege (PoLP). Een veiligheidsconcept dat aangeeft dat een persoon of applicatie alleen maar toegang zou moeten krijgen tot de specifieke data m.b.t. zijn taak. Daarnaast kan je ook service accounts introduceren voor applicaties die data automatische ophalen voor specifieke taken. Als laatste adviseren we je ook om goed na te denken over technische automatiseringen hierin.

Groeiende data

Het ziet er niet naar uit dat de groei van data binnenkort zal afvlakken. We maken met z'n allen meer gebruik van applicaties die steeds beter en meer data kunnen bijhouden. Voor een organisatie is dit dus niet anders. Je ziet dat veel bedrijven op een gegeven moment de smaak te pakken hebben en steeds meer data gaan gebruiken/ontsluiten in hun data infrastructuur. Het is daarom ook van belang om data governance al vanaf het begin serieus te nemen. Des te beter je bent voorbereid, des te beter het je al zal gaan bij de groei van de data.

Conclusie

Data governance kan op het eerste ook overkomen als een bureaucratische taak, maar heeft een duidelijk doel: data kwaliteit, beschikbaarheid en veiligheid verhogen. In zowel data lakehouse en -warehouses infrastructuren zul je hier mee te maken hebben. Onderschat ook zeker niet de kracht die het de organisatie biedt als je dit goed hebt opgezet. Succes!