Vertrouwen krijgen in data en datakwaliteit door middel van data lineage

Data wordt in grote hoeveelheden en soorten aangemaakt, geanalyseerd, rondgestuurd en gebruikt voor uiteenlopende doeleinden. Denk hierbij aan foto’s delen op social media, maar ook aan registratie van persoonsgegevens door overheidsinstanties. Bij gebruik van data is de oorsprong en kwaliteit hiervan niet altijd bekend. Maar ook wanneer data aangemaakt wordt, is er niet altijd zicht op hoe deze data gebruikt gaat worden. Voor een digitaler wordende rechtsstaat is het noodzakelijk om als maatschappij en overheid vertrouwen te kunnen hebben in data en de kwaliteit ervan—data lineage kan daaraan bijdragen, aldus een nieuw WODC-rapport.

Je ziet een tafel met computers, toetsenborden en muizen. Plus van de mensen die met die computers werken de handen en delen van de armen.
Beeld: ©Pixabay

Wat is data lineage?

Inzicht krijgen in de levensloop van data door ontstaan, veranderingen en eindgebruik te registeren heet data lineage. Dit kan door informatie toe te voegen over de data, ook wel metadata genoemd.

Een voorbeeld van data lineage is dat wanneer iemand een foto maakt op vakantie, dat dan de naam van de fotograaf aan het bestand wordt toegevoegd, evenals de datum en de locatie van de foto. Voordat de foto gedeeld wordt op social media, wordt eerst een fotobewerkingsprogramma gebruikt om in-de-weg-staande toeristen te verwijderen. Ook deze handeling wordt toegevoegd aan de metadata van de foto.

Als iemand dan deze foto bekijkt op social media en metadata opvraagt, dan wordt duidelijk dat de foto bewerkt is. Iemand kan dan zijn eigen overwegingen maken om de foto wel of niet als betrouwbaar te zien. Context speelt hierbij ook een rol. De foto is een geschikte bron om te zien waar iemand op vakantie is geweest, maar niet noodzakelijk om de drukte op deze locatie in te schatten vanwege de bewerkingen.

Data lineage binnen het rechtsstelsel

Omdat binnen het Nederlandse rechtstelsel er steeds meer gebruik gemaakt wordt van algoritmische en data-gedreven instrumenten bij het vormen en uitvoeren van beleid, is data lineage cruciaal om te implementeren. Data genereren en uitwisselen binnen het rechtstelsel zijn versplinterd, waardoor niet altijd goed ingeschat kan worden waar de data zijn oorsprong heeft. Instrumenten die zicht bieden op de levensloop van data zijn daarom nodig om als gebruiker van deze data de juiste overwegingen te maken.

Het WODC-rapport schetst kaders waarbinnen data professionals binnen het Nederlands rechtsstelsel moeten gaan nadenken over oplossingen rondom data lineage. Daarnaast biedt het rapport handvaten welke (technische) aanpakken, methoden en instrumenten hiervoor gebruikt zouden kunnen worden, en welke voor- en nadelen deze hebben.