Cases

Show, don't tell.
Wat we hebben gebouwd.

Geen vage beloftes, maar harde resultaten.¹ Hieronder een selectie van de systemen, data-pipelines en modellen die we recent hebben ontworpen en gebouwd.

¹ En een beetje retro ASCII-art, omdat we onszelf niet konden inhouden.

High-Dimensional Market Clustering

De uitdaging

Een klant wilde bedrijven vinden die werken zoals hun best presterende vestigingen, niet volgens de SBI-code op papier maar in de praktijk.

De aanpak

We bouwden een model dat bedrijven vergelijkt op basis van hun websites en social media, niet op hun sectorlabel. Zo zie je welke bedrijven echt op elkaar lijken.

Het resultaat

Een clustering-engine die 47.000+ bedrijven groepeert op operationeel gedrag in plaats van SBI-codes. De klant vindt nu locaties die lijken op hun best presterende vestigingen, niet op hun formele branchegenoten.

Geldt niet voor

Gelijkenis verslechtert wanneer bedrijven weinig data hebben in het register. Werkt het best in goed gevulde nationale datasets met rijke operationele signalen.

+-- MARKET_SIMILARITY_MATRIX ----------------+
|  ENGINE: v2.4   DIM: 512   N: 47,200+      |
+-- NODE SAMPLE -----------------------------+
|                                            |
|  [A: FOOD_RETAIL] --0.92-- [D: FINANCE]    |
|         |                        |         |
|       0.88                     0.95        |
|         |                        |         |
|  [B: LOGISTICS] --0.91-- [C: HEALTH]       |
|                                            |
+-- ACTIVE CLUSTERS -------------------------+
|  FOOD_RETAIL       n=  1,847   LIVE        |
|  FINANCE_PROF      n=  2,103   LIVE        |
|  LOGISTICS         n=    891   LIVE        |
|  [... +309 more clusters ...]              |
+--------------------------------------------+
|  NODES:  47,200   PRECISION:  94%          |
|  DIMS:      512   SECTOR_CODES: BYPASSED   |
+-- STATUS: LIVE ----------------------------+

Automatische winkelpui herkenning

De uitdaging

Duizenden mogelijke retaillocaties beoordelen betekende dure, foutgevoelige veldbezoeken.

De aanpak

We bouwden een computer-vision-model dat gevelkenmerken automatisch uit straatbeelden haalt.

Het resultaat

80% minder veldwerk. 86.000+ locaties beoordeeld uit straatbeelden, met consistente kenmerken in plaats van wisselende handmatige scores.

Geldt niet voor

Betrouwbaarheid daalt in gebieden met beperkte straatfoto-dekking of verouderde Street View-data. Handmatige verificatie aanbevolen voor locaties met dunne beeldhistorie.

+-- CV_PIPELINE // FACADE_DETECT ----------------+
|                                                |
|  +--------------------------------------------+|
|  | //// [SIGNAGE: conf=0.96] DETECTED //////// ||
|  +----------+  +----------+  +----------+      ||
|  |          |  |          |  |          |      ||
|  | W      W |  | W      W |  | W      W |      ||
|  | [W: 0.98]|  | [W: 0.97]|  | [W: 0.99]|      ||
|  +----------+  +----------+  +----------+      ||
|  +----------+  +----------+  +----------+      ||
|  |          |  |          |  |          |      ||
|  | W      W |  | W      W |  | W      W |      ||
|  | [W: 0.96]|  | [W: 0.94]|  | [W: 0.98]|      ||
|  +----------+  +----------+  +----------+      ||
|  +----------------------------+  +---------+   ||
|  | [STOREFRONT: conf=0.94]    |  |[D: 0.91]|   ||
|  +----------------------------+  +---------+   ||
|                                                |
|  EXT_FEATURES: 402  WINDOWS: 14  CONF: 0.97    |
|  FIELD_WORK: -80%   SITES_DONE: 86,000+        |
+------------------------------------------------+

Precision Retail Risk Modeling

De uitdaging

Retailers kozen nieuwe winkellocaties op buikgevoel en losse, lokale data.

De aanpak

We brachten honderden databronnen samen tot één risicoscore voor elk winkelpand in de Benelux, dezelfde maatstaf voor elke locatie.

Het resultaat

Eén vergelijkbare risicoscore voor elk commercieel pand in Nederland, 300.000+ panden opgebouwd uit 1.200+ databronnen. De klant rangschikt locaties op dezelfde maatstaf in plaats van op buikgevoel.

Geldt niet voor

Gekalibreerd voor de Nederlandse markt. Toepassing in andere landen vereist hertraining op lokale vastgoed- en loopstroomdata.

+-- RISK_PROFILE_AGGREGATOR -----------+
|  SITE: Kalverstraat 14, Amsterdam    |
+--------------------------------------+
|  CRIME_INDEX      [######....] 0.62  |
|  VACANCY_RATE     [########..] 0.81  |
|  FOOTFALL_IDX     [##........] 0.20  |
|  COMPET_DENSITY   [######....] 0.61  |
|  LEASE_HISTORY    [####......] 0.42  |
|  TRANSIT_ACCESS   [#########.] 0.90  |
+--------------------------------------+
|  INPUT_STREAMS:           1,247      |
|  SITES_SCORED:          300,000+     |
|  NL_COVERAGE:              100%      |
+-- RISK_SCORE ------------------------+
|                                      |
|       >>>   HIGH   0.74   <<<        |
|                                      |
+--------------------------------------+

Predictive Asset Deployment

De uitdaging

Beveiliging werd reactief ingezet en kwam vaak te laat op risicovolle bouwplaatsen.

De aanpak

We bouwden een model dat gedrags- en omgevingsdata leest om risicovolle plekken vooraf te herkennen, zodat beveiliging er is vóór er iets gebeurt.

Het resultaat

Van reactief scouten naar vooraf scoren: het model filtert 12.400 sites terug tot de 412 met de hoogste kans, en verhoogt de conversie met 34%.

Geldt niet voor

Nauwkeurigheid daalt wanneer er te weinig historische uitkomsten beschikbaar zijn voor kalibratie. Grote stedelijke ontwikkelingen kunnen de gedragspatronen die het model leert verstoren.

+-- SITE_CLASSIFICATION_ENGINE --------+
|  INPUT: 12,400 prospect sites        |
+--------------------------------------+
|  BEHAVIOURAL_SCORE                   |
|  [##########..........] 0.52  PASS   |
|                                      |
|  ENVIRONMENTAL_SCORE                 |
|  [###############.....] 0.78  PASS   |
|                                      |
|  HISTORICAL_CONVERSION               |
|  [#########...........] 0.46  FAIL   |
|                                      |
|  ACCESS_SCORE                        |
|  [############........] 0.62  PASS   |
+--------------------------------------+
|  TOTAL_IN:              12,400       |
|  PASSING_ALL_FILTERS:      412       |
|  CONVERSION_UPLIFT:        +34%      |
+-- [!] HIGH-VALUE ASSETS: 412 --------+

Multi-Modal Traffic Measurement

De uitdaging

Mediabedrijven prijsden buitenreclame op verouderde, periodieke verkeersschattingen.

De aanpak

We combineren smartphone-pings met infraroodbeelden tot een live beeld van hoeveel mensen er nú langskomen.

Het resultaat

Live bezoekersaantallen per locatie, ververst binnen 2 seconden. De klant prijst buitenreclame op de drukte van nu in plaats van op verouderde schattingen.

Geldt niet voor

Smartphone-pings vertegenwoordigen bepaalde demografische groepen systematisch minder. In auto-afhankelijke gebieden of bij lage smartphonepenetratie is het signaal dunner.

+-- FOOTFALL_FUSION // LIVE ------------------+
|  LOC: AMS_LEIDSEPLEIN   09:15:32            |
+-- SOURCE SIGNALS ---------------------------+
|  IR_CAMERA   [########..] 847/hr   0.98     |
|  MOBILE_PING [######....] 312/hr   0.91     |
|  WIFI_PROBE  [#######...] 518/hr   0.89     |
+-- FUSED OUTPUT -----------------------------+
|  [##########] 891 pax/hr   LAG: <2s   LIVE  |
+---------------------------------------------+
|  ACTIVE_SITES:  260+   ACCURACY:  93%       |
|  MARKETS:        25+   REFRESH:   <2s       |
+-- STATUS: STREAMING ------------------------+

IRIS: Strategic Location Intelligence

De uitdaging

Eén platform voor locatie-intelligentie en omzetvoorspellingen, gebouwd om te blijven.

De aanpak

We bouwden IRIS: onze eigen infrastructuur die grote hoeveelheden locatiedata verwerkt tot onderbouwde omzetvoorspellingen.

Het resultaat

Eén platform dat locatiedata omzet in omzetvoorspellingen, in gebruik in 25+ markten. De infrastructuur waar Blink en onze projecten op draaien.

+-- MAP_VIEW: AMSTERDAM -------------------+-- OUTPUT -----+
| [▲] .  .  [▲] .  .       .    [▲] .      |  RES:  € 1.06M|
| . [▲] .  [▲] .  . [▲] .  [▲] .  . [▲]    | WK:   €  561K |
| [▲] .  [▲] .  [▲] .  [▲] .  [▲] .  .     | PASS: €   58K |
| .  [▲] .  . [▲] .  .     .   .  [▲] .    +---------------+
| [▲] .  [▲] .  . [▲] .  [▲] .  [▲] .      | ACC:     90%  |
| .  [▲] .  [▲] .  .       .  .  [▲] .     | SIGNALS: 260+ |
| [▲] .  [▲] .  [▲] .  .  [▲] .  .  [▲]    | MARKETS:  25+ |
| .  [▲] .  .  [▲] .   .   .  [▲] .  .     |               |
| [▲] .  .  [▲] .  .       .  .  [▲] .     |               |
+------------------------------------------+---------------+

 QUERY  [########################] 0.24s
 FILTER [############............] 0.08s
 RENDER [################........] 0.31s
 EXPORT [####....................] 0.11s
 STATUS [LIVE // 25+ MARKETS     ]

Blink: Custom Spatial Embeddings

De uitdaging

Standaardmodellen missen de onzichtbare ruimtelijke verbanden (looproutes, buurtdynamiek) die succes echt bepalen.

De aanpak

Blink is ons eigen deep-learning-model dat Europese steden vertaalt naar bruikbare signalen voor portfoliokeuzes en omzetvoorspellingen.

Het resultaat

Eén model dat 1,2 miljoen+ locaties in Europa scoort, van QSR-omzet tot de plaatsing van pakketkluizen.

+-- EU SITE SCORING // BLINK ------------------------------+
|  MODEL: v3.1  EMBED_DIM: 512  MARKETS: 25+               |
|  █▓ = HIGH SCORE   ▒░ = MED SCORE   space = SEA          |
+-- SCORE_MAP ---------------------------------------------+
                            ░█▒█
               ░▒░          ▒▓▓██▓
               ░██▓        ▓███▒██▓
                            ▓▓▓▓▓ ▒██▒
                          ░▓▓██▒ ▓▓▓▓█
                        ▒█▓▓▒██   ██▓
                        ░██▓▓██▓   ░██
                 ▓▒      ░  ███     ▓█░
                 ▒▓       ▓░ █▓   ░▓██▓██
             ░█▓  █▓      ▒     ▓░▒▒▓████
             ░   ▓█▓▓  ░█▓███▓████▓▓██▓▒███▓██
                ▒ ░▒ ░▓▓▓▓▓█▓██████▒███▒▒▒▓████
                ░ █▓███▓▒████▓▓▓█▒▒▓▒██▓▒▓████░
                 ▒██████▓███▓██░▓██▓████▒░  █▒
                  ██████▒▒▓█▓░▓▒▒▓▓█████       ▓█
           ██▓░  ░█████▒▓▒██  ░▓▓▓▓▓▓▓█     ▓████
          ░█▓█████▒▒       ██░   ░▓▒▓▓▓█░█░▒███
         ░█▓██▓▓██▒       ░    ▓█▒ ░▓█░   ▓█████
         ░▓▓█████▒        ░      ░   ▓▓▒   ▓██▓▓░
+-- STATS ------------------------------------------------+
|  SCORED_SITES: 1,200,000+  AVG_ACCURACY: 91%            |
|  QSR / RETAIL / PARCEL                                  |
+----------------------------------------------------------+

Text Anonymisation

De uitdaging

Gemeentes hadden miljoenen gevoelige records liggen die ze door de AVG niet mochten gebruiken voor analyse.

De aanpak

We bouwden een model dat persoonsgegevens automatisch herkent en verwijdert uit vrije tekst, zodat de data veilig bruikbaar wordt voor onderzoek.

Het resultaat

4,2 miljoen records ontdaan van persoonsgegevens, zodat de gemeente data mag gebruiken die eerder wettelijk op slot zat. ~350.000 documenten per uur.

Geldt niet voor

Geoptimaliseerd voor Nederlandse bestuurlijke tekst. Meertalige of sterk ongestructureerde documenten vereisen aanvullende domeinspecifieke training.

+-- PII_SANITIZER // NLP_PIPELINE ---------+
|                                          |
|  IN:  "Jan de Vries woont in Utrecht."   |
|       "Hij werkt bij Rijkswaterstaat."   |
|       "Geboortedatum: 14-03-1987."       |
|                                          |
+-- ENTITY_DETECTION ----------------------+
|  [PER:  Jan de Vries  ]  conf: 0.999     |
|  [LOC:  Utrecht       ]  conf: 0.998     |
|  [ORG:  Rijkswaterstaat] conf: 0.995     |
|  [DAT:  14-03-1987    ]  conf: 0.999     |
+-- SANITIZED_OUTPUT ----------------------+
|  "[PER] woont in [LOC]."                 |
|  "Hij werkt bij [ORG]."                  |
|  "Geboortedatum: [DAT]."                 |
+-- THROUGHPUT ----------------------------+
|  RECORDS:           4,200,000            |
|  ENTITIES_FOUND:    6,800,000+           |
|  DOCS/HOUR:           ~350,000           |
|  ACCURACY:               99.8%           |
+------------------------------------------+

Even sparren?

Staat er iets soortgelijks op jouw lijst?
Laten we praten.

info@thebigdatacompany.nl →

The Big Data Company B.V.
Princetonlaan 6 · 3584 CB Utrecht
+31 30 899 9477

Show, don't tell.Wat we hebben gebouwd.

High-Dimensional Market Clustering

Automatische winkelpui herkenning

Precision Retail Risk Modeling

Predictive Asset Deployment

Multi-Modal Traffic Measurement

IRIS: Strategic Location Intelligence

Blink: Custom Spatial Embeddings

Text Anonymisation

Staat er iets soortgelijks op jouw lijst?Laten we praten.

Show, don't tell.
Wat we hebben gebouwd.

Staat er iets soortgelijks op jouw lijst?
Laten we praten.