Het belang van datakwaliteit

Datakwaliteit, één van de onderwerpen waar wij ons graag hard voor maken. In deze blog gaan we je meer vertellen over waarom wij dit zo belangrijk vinden, hoe je dit kan monitoren en nog veel meer!

Wat is datakwaliteit?

De definitie van datakwaliteit luidt voor ons als volgt:

Datakwaliteit verwijst naar de mate waarin gegevens voldoen aan de gestelde eisen en geschikt zijn voor het beoogde gebruik. Het omvat nauwkeurigheid, volledigheid, consistentie, actualiteit en betrouwbaarheid van de data. Een hoge datakwaliteit zorgt ervoor dat gegevens bruikbaar, betrouwbaar en relevant zijn voor effectieve besluitvorming en probleemoplossing.

Wat is het gevaar van lage datakwaliteit?

In de praktijk zien we dat organisaties graag met data aan de slag gaan, maar datakwaliteit vaak links laten liggen. De gevaren hiervan? Die kunnen groter zijn dan je denkt. Hieronder beschrijven we een twee voorbeelden die wij zelf in praktijk hebben ervaren bij diverse organisaties, wellicht herkenbaar voor de gang van zaken bij je eigen organisatie.

Ontbrekende data

In rapportages en/of dashboards komt men er achter dat er data ontbreekt. Stel je voor dat je kwartaal dashboards hebt staan. Omdat deze niet regelmatig wordt besproken, opent men deze maar een aantal keer per jaar. Tijdens het bespreken kom je er achter dat visualisaties er vreemd uitziet of dat er een aantal kapot gaat. Na het bekijken van de onderliggende data kom je er achter dat de data incompleet (bijvoorbeeld lege velden) of is verouderd (de nieuwe data was niet opgehaald). Dat is mooi balen dat het op dat moment aan het licht komt.

Foutieve waardes en dubbelingen in financiële cijfers

Het is ons nu al een aantal keer voorgekomen dat in financiële gegevens foutieve data is te vinden. En nee dit is niet gelogen, zo hebben we al een aantal keer gezien dat men heeft gerapporteerd over dubbele omzetten. Het management team is natuurlijk hartstikke blij, totdat je dieper in de data duikt en er achter komt dat het inzicht niet klopt. Denk hierbij dat er in het bronsysteem een veld foutief is ingevuld of dat er dubbele regels zijn te vinden in het bronsysteem.

Samenvatting

Datakwaliteit monitoren en waarborgen is voor vele organisaties vaak een reactieve handeling. Zo merken wij dat er een groot aantal organisaties zijn die graag met data aan de slag willen gaan, maar weinig aandacht besteden aan datakwaliteit. Dit kan een grote impact hebben op de organisatie, denk hierbij aan het maken van verkeerde keuzes op basis van foutieve data, verspilde tijd/geld in verband met rapportages die niet werken, verlies in vertrouwen in de data.

Hoe monitor je de kwaliteit van je data?

Als je een data gedreven organisatie wilt opzetten is het van belang dat je data toegankelijk en centraal beschikbaar is voor je organisatie. Daarom adviseren wij de bedrijven met deze ambities om een data warehouse op te zetten met een component dat datakwaliteit kan monitoren en waarborgen. De tooling om dit te realiseren mag je zelf invullen, hoewel wij je zeker aanraden om een keertje te kijken naar de tool DBT.

DBT is een tool die je naast de kwaliteit borgen ook kan helpen met je data te transformeren en documenteren. DBT is in essentie een SQL-first tool waar je met behulp van SQL, workflows kan opzetten. Denk aan het opschonen en modelleren van je data en SQL testen op je data kan afvuren. In onze infrastructuur is DBT altijd aanwezig, indien je een data warehouse hebt zonder DBT aarzel dan zeker niet om hier in te duiken. Als je een technische achtergrond hebt, adviseren we je dan ook om op zowel de website van DBT als andere bronnen rond te kijken. Bij vragen kan je ons natuurlijk ook altijd een bericht sturen.

Hoe ga je hiermee aan de slag?

Wij stellen organisaties altijd voor om bij het ontwikkelen van nieuwe modellen altijd stil te staan bij mogelijke data testen. Wilt de CFO een nieuwe tabel voor zijn PowerBI rapportage die op weekbasis alle sales geaggregeerd? Dan is de volgende vraag die je moet stellen, hoe we kunnen waarborgen dat hier geen gekke cijfers in voorkomen. Zo zul je meer tijd moeten investeren in het voortraject, maar bespaard het je op termijn weer tijd.

In de praktijk merken we vaak dat het achteraf wordt opgepakt, wat heel begrijpelijk is. Er zijn wensen om nieuwe data in het data warehouse te plaatsen om direct mee aan de slag te gaan. Achteraf kan het zijn dat er toch vreemde waardes naar boven komen. Dit is dan ook een goed moment om de benodigde data testen toe te voegen. De volgende keer dat jij een bericht ontvangt dat er data niet klopt in één van de dashboards, rapportages of het data warehouse kan jij nu in oplossingen gaan denken. Wij adviseren je om de volgende stappen te doorlopen:

  1. Uitzoeken waar het mis gaat. Waarom is de data incorrect? Wat had het moeten zijn? Welke onderliggende tabellen hebben een relatie en kunnen mogelijk de fout bevatten?
  2. Schoon je benodigde data modellen op en voeg de data testen toe.
  3. Neem de testen dagelijks mee in de data warehouse pipeline. Zo weet je zeker dat de business kan vertrouwen dat de kwaliteit voldoet.

Succes met je reis!

Hopelijk hebben we je hiermee voldoende kunnen informeren om een start te maken met je datakwaliteit, succes!