Predictieve textmining in politieregistraties naar cyber- en gedigitaliseerde criminaliteit
Het WODC heeft onderzoek gedaan naar het aantal cyber- en gedigitaliseerde delicten in de politieregistratie.
Het aantal registraties met deze typen delicten was tot op heden onbekend. Dit komt omdat deze informatie veelal alleen in de tekstvelden staat en daardoor moeilijk te kwantificeren is. In het huidige onderzoek is een machine-learning model ontwikkeld dat accuraat cyber- en gedigitaliseerde delicten in de politieregistraties herkent en als zodoende classificeert. Vervolgens is de omvang van cyber- en gedigitaliseerde delicten in de politieregistratie van 2016 geschat en zijn achtergrondkenmerken van verdachten beschreven.
Het doel van het onderzoek was drieledig: het ontwikkelen van een machine-learning model om cyber- en gedigitaliseerde delicten accuraat in de politieregistraties te classificeren; het schatten van de omvang van deze delicten in de politieregistratie van 2016; en het beschrijven van de achtergrondkenmerken van bekende verdachten bij deze delicten.
Lees het volledige rapport of de samenvatting: Predictieve textmining in politieregistraties (Cahier, 2019-2).
Een machine-learning model kan accuraat cyber- en gedigitaliseerde delicten classificeren
Een machine-learning model is ontwikkeld waarmee accuraat kan worden voorspeld wanneer een registratie betrekking heeft op één of meer van de drie onderzochte cyberdelicten of van de vijf onderzochte gedigitaliseerde delicten. Bij cyberdelicten is de ICT zowel middel als doelwit van crimineel handelen. In dit onderzoek gaat het om hacken, DDoS-aanvallen of ransomware versturen. Bij gedigitaliseerde delicten wordt ICT alleen als middel ingezet. In dit onderzoek gaat het om online bedreiging, online stalken, online smaad/laster/belediging, online identiteitsfraude en online aan- en verkoopfraude. Voor het onderzoek is gebruik gemaakt van alle registraties van de politie van acties en incidenten zoals genoteerd in Basisvoorziening Handhaving (BVH) 2016.
Het aantal politieregistraties met cyberdelicten is zeldzamer dan politieregistraties met gedigitaliseerde delicten
Gebaseerd op een zeer grote willekeurige steekproef uit de BVH-2016 kan met een zekerheidsmarge van 95% het aantal registraties met cyber- en gedigitaliseerde criminaliteit worden geschat. In 2016 heeft tussen 0,1%-0,6% van de registraties betrekking op een cyberdelict. In absolute aantallen betreft het tussen de 4.000-25.000 registraties van cyberdelicten. Uitgesplitst naar verschillende typen cyberdelicten is het aantal registraties met ransomware het laagst en van hacken het hoogst. In hetzelfde jaar heeft tussen 3,3%-7,4% van de registraties betrekking op een gedigitaliseerd delict. In absolute aantallen zijn dat tussen de 132.000-293.000 registraties met gedigitaliseerde delicten. Het aantal registraties van online bedreiging is het hoogst, van online aan- en verkoopfraude het laagst.
Achterhalen achtergrondkenmerken cyber- en gedigitaliseerde verdachten vraagt veel precisie bij de classificatie
Om de achtergrondkenmerken van verdachten in de registraties van cyber- en gedigitaliseerde delicten vast te stellen, is een zeer precieze classificatie van de politieregistraties nodig. Daarnaast moeten ook alle relevante politieregistraties van cyber- en gedigitaliseerde delicten worden gevonden. Immers, voorkomen moet worden dat kenmerken van verdachten die geen cyber- of gedigitaliseerde delicten hebben gepleegd worden meegenomen en dat verdachten die dat wel hebben gedaan worden gemist. Het bleek alleen mogelijk registraties van hacken, ransomware en online aan- en verkoopfraude in voldoende mate nauwkeurig te classificeren om daarvoor de achtergrondkenmerken van de verdachten te achterhalen. Het gaat hierbij om minder dan 1% van alle politieregistraties. Als er een verdachte in beeld is, geldt voor de registraties betreffende hacken, ransomware en online aan/verkoopfraude met minimaal één verdachte dat het merendeel van de verdachten man is en in Nederland is geboren. In 11,0%-33,0% van de politieregistraties van deze online delicten met minimaal één verdachte gaat het om een minderjarige verdachte.
Conclusie
Het is mogelijk om met een zekerheidsmarge van 95% de omvang van cyber- en gedigitaliseerde criminaliteit in de politieregistratie te schatten op basis van een machine learning classificatie. Het aandeel politieregistraties met dit type delicten blijkt vooralsnog laag.Het is mogelijk om met een zekerheidsmarge van 95% de omvang van cyber- en gedigitaliseerde criminaliteit in de politieregistratie te schatten op basis van een machine learning classificatie. Het aandeel politieregistraties met dit type delicten blijkt vooralsnog laag.