De uitdagingGemeentelijke overheden beschikten over miljoenen gevoelige administratieve records die ze wegens GDPR-beperkingen wettelijk niet voor analyse mochten gebruiken.
De aanpakWe ontwikkelden een geautomatiseerde, high-throughput pipeline die persoonsgegevens (PII) herkent en verwijdert uit volledig ongestructureerde tekst, zodat de data veilig beschikbaar wordt voor onderzoek.
Het resultaatSuccesvolle ontsluiting van datagedreven inzichten door ruwe tekst veilig te transformeren naar privacy-compliant datasets, klaar voor analyse.
Geldt niet voorGeoptimaliseerd voor Nederlandse bestuurlijke tekst. Meertalige of sterk ongestructureerde documenten vereisen aanvullende domeinspecifieke training.
+-- PII_SANITIZER // NLP_PIPELINE ---------+
| |
| IN: "Jan de Vries woont in Utrecht." |
| "Hij werkt bij Rijkswaterstaat." |
| "Geboortedatum: 14-03-1987." |
| |
+-- ENTITY_DETECTION ----------------------+
| [PER: Jan de Vries ] conf: 0.999 |
| [LOC: Utrecht ] conf: 0.998 |
| [ORG: Rijkswaterstaat] conf: 0.995 |
| [DAT: 14-03-1987 ] conf: 0.999 |
+-- SANITIZED_OUTPUT ----------------------+
| "[PER] woont in [LOC]." |
| "Hij werkt bij [ORG]." |
| "Geboortedatum: [DAT]." |
+-- THROUGHPUT ----------------------------+
| RECORDS: 4,200,000 |
| ENTITIES_FOUND: 6,800,000+ |
| DOCS/HOUR: ~350,000 |
| ACCURACY: 99.8% |
+------------------------------------------+