• darkblurbg

Maximale Data Quality in 4 stappen

Gepubliceerd op: 30-03-2018

Een veel gehoorde klacht bij onze klanten: “Wij kunnen geen goede analyses maken en al helemaal niet profiteren van het onbenut potentieel dat in onze data besloten ligt. Onze data is niet betrouwbaar of onvolledig. Kortom we hebben een probleem met onze Data Quality en we missen de kennis en kunde om dit probleem aan te pakken. Bovendien kunnen we nu onmogelijk mensen vrijmaken om dit voor eens en altijd op te lossen.”

Wat is Data Quality?

De vraag achter dergelijke vraagstukken is altijd wat er nu precies met Data Quality bedoeld wordt. Gaat het over een specifiek bestand of gaat het over de combinatie van verschillende bestanden? Gaat het alleen om bestanden of wordt er met Dta Qality ook alle mensen, middelen en processen bedoeld rondom het verzamelen, vastleggen onderhouden en interpreteren van data?

Hoe breed de Data Quality problematiek ook gedefinieerd wordt, het doel is vrijwel altijd gelijk: er moet een Single Point of Truth komen. Ook wel Golden record, 360 graden klantbeeld of Single Customer View genoemd.

25% van uw klantenbestand is vervuild

Laten we ons eerst eens op de data richten. In veruit de meeste bedrijven en organisaties wordt met verschillende bestanden gewerkt. Deze bestanden kunnen opgeslagen zijn in een facturatiesysteem, een CRM-pakket of een campagnemanagmenttool. Ieder systeem heeft zijn eigen toepassingen en gebruikers. In de afzonderlijke bestanden zit vaak al het eerste probleem: Gemiddeld is 25% van elk klantenbestand vervuild. Maar dat is lang niet het enige probleem.

Data is niet gekoppeld

Buiten deze systemen zwerven er waarschijnlijk ook nog eens vele Excel lijstjes rond met topklanten, prospects, wanbetalers en repsonsgegevens. Deze lijstjes bevinden zich vrijwel allemaal buiten de normale dataflow om en zijn zeker niet gekoppeld aan welk systeem dan ook. Juist deze lijstjes bevatten vaak het onbenut potentieel van data binnen een organisatie. Als we de inzichten uit responsgegevens van een eerdere actie bijvoorbeeld niet meenemen, betekent dat een gemiste kans voor een toekomstige camapagne.      

 Single Point of Truth: Maak uw data ACCU

Als we Data Quality gelijkstellen aan een Single Point of Truth, is in dergelijke situaties inderdaad sprake van een problematische Data Quality. Hier is gelukkig wel wat aan te doen.

 Een Single Point of Truth wordt bereikt door de data ACCU te maken. Een stappenplan in 4 delen waarin de data Actueel, Correct, Compleet en Uniek gemaakt wordt. 

De data die we willen samenvoegen zullen we eerst uit de diverse systemen waarin ze besloten liggen, moeten kunnen halen. Soms is dit eenvoudig door een CSV bestand te exporteren. Als de data in legacy systemen opgeslagen is, is dit vaak complexer. Dan moet de data met behulp van ETL tooling (Extract, Transform, Load) vrijgemaakt worden. Als de datasets beschikbaar zijn, begint de  eigenlijke Transform fase. De fase waarin de data ACCU gemaakt wordt.

Correct

Per bestand zullen we de data moeten uniformeren of standaardiseren. Dit is niets meer dan de data zodanig te organiseren dat alle records op een specifieke plaats staan. Bijvoorbeeld Naam, Voornaam, Straat, Huisnummer, Huisnummertoevoeging, Postcode, Plaats, Telefoon,….

In sommige gevallen zal een specifieke bewerking nodig zijn om bijvoorbeeld straatnaam en huisnummers te scheiden. Dat gaat niet altijd goed in Excel. Wat te maken van Plein 14-18 36 E? Data Kitchen beschikt over eigen tooling waarmee dergelijke problematiek snel en eenvoudig wordt opgelost.

Actueel

Als de data in een standaard format is gegoten, moeten we nagaan in hoeverre de data actueel is. Met andere woorden: Woont meneer Jansen nog in de Julianastraat of is hij inmiddels verhuisd? Misschien missen we nog zijn huisnummer of huisnummertoevoeging. Met andere woorden in deze fase wordt data gevalideerd, gecorrigeerd en worden de lege velden aangevuld. 

Dit kan alleen door de klantbestanden tegen goede referentiedata aan te houden. Voorbeelden van dynamische referentiedata zijn: 

  • Data Kitchen Postcodebase
  • PostNL Movers Database
  • Overledenen bestand
  • Nationaal Consumenten Bestand
  • DM Blokkade bestand

Uniek

Pas als fase 1 en 2 zijn afgerond kunnen we starten met de data uniek te maken. Dat betekent dat er een klantbestand gemaakt wordt waarin elke klant maar éénmaal voorkomt en waaraan een maximaal aantal gegevens zijn gekoppeld op basis van de combinatie van gegevens die binnen de organisatie al beschikbaar zijn.

Moeilijkheid bij het ontdubbelen of groeperen is per record te bepalen welke bestanden voorrang krijgen boven andere bestanden. Als het om adresgegevens gaat, zou een uitleverbestand bij een webshop waarschijnlijk de hoogste prioriteit krijgen. Bestellers in een webshopomgeving willen immers zeker weten dat hun pakje aankomt. Gaat het om het vullen van een e-mail veld, dan is een up-to-date nieuwsbrief bestand waarschijnlijk goed bruikbaar.

In veel gevallen is het bij het ontdubbelen lang niet duidelijk wat de beslisregels zouden moeten zijn. In dat geval is het zaak de hulp van een externe specialist in te roepen.

Compleet

Als alle bestanden op elkaar ontdubbeld zijn en de sterkste data zijn gebruikt om tot een Single Point of Truth of eenduidig klantbeeld te komen, kunnen we deze gegevens aanvullen met extra kenmerken. Deze kunnen uiteenlopend van aard zijn: BSR kenmerken*, kredietinformatie, lifestylekenmerken, NPS**, koopverleden, verjaardagsdata, etc.

Daarbij is het zaak van te voren te bepalen waarvoor we deze extra data willen gebruiken. Gaat het om het segmenteren van een klantenbestand waarvoor data uit een RFM analyse (Recency, Frequency Monetary Value) goed bruikbaar is. Of wil men Churn met 20% terugdringen door actief klagende klanten te benaderen? Misschien is het nodig de tone of voice op een website of campagne aan individuele lezers aan te passen? In dat geval kan een BSR kenmerk heel goed werken.

Single Point of Truth handhaven

Het komen tot een Single Point of Truth is een ding het handhaven daarvan is iets anders. Immers we zullen moeten bepalen hoe we mensen, middelen en processen moeten veranderen om de Single Point of Truth te kunnen handhaven.

Daarmee kunnen zeer ingrijpende beslissingen gemoeid zijn. Pak ik Data Quality bij de bron aan? Of bouw ik een systematiek waarbij ik niets aan de (legacy) systemen hoef te veranderen? Het antwoord op deze vraag hangt volledig af van de situatie binnen individuele organisaties en de doelstellingen die men met het verhogen van de Data Quality heeft. In een andere publicatie zullen we hier dieper op ingaan.

Ook eens over Single Point of Truth brainstormen? Neem plaats aan de keukentafel van Data Kitchen en wissel met ons vrijblijvend van gedachten over de stand van zaken rondom Data Quality binnen uw organisatie en mogelijke quick wins hierin (info@datakitchen.nl).

 

 

BSR-Kenmerken*: Brand Strategy Research van Smart Agent: Hiermee worden belevingswerelden van consumenten in kaart gebracht. Het BSR-model verkent en structureert de achterliggende waarden, behoeften en motieven van mensen binnen een bepaald domein (zie: www. SAMR.nl).

NPS**: Net Promoter Score