Slechte data, slechte beslissingen: wat bedrijven verkeerd doen bij dataverzameling
Liesbeth Cortvriendt over data leakage, survivorship bias en andere valkuilen
Liesbeth Cortvriendt begeleidt bedrijven bij de opzet van datapijplijnen voor financiele ML-toepassingen. Ze ziet dezelfde fouten keer op keer terugkomen.
Waar gaat het mis in de datafase?
Bedrijven gebruiken data die ze toevallig beschikbaar hebben, niet data die relevant is voor hun specifieke strategie.
Een aandelenstrategie gericht op volatiliteitspatronen heeft andere data nodig dan een strategie op basis van orderboekdiepte. Dat verschil wordt zelden gemaakt aan het begin van een project.
Survivorship bias is een serieus probleem
Veel teams trainen op data van bedrijven die vandaag nog bestaan. Bedrijven die failliet gingen of werden overgenomen, ontbreken in die datasets.
Het model leert daardoor een vertekend beeld van historische rendementen. De strategie lijkt beter te werken dan ze in werkelijkheid zou hebben gedaan.
Wat doen teams ook nog verkeerd?
Ze normaliseren data over de volledige dataset in plaats van uitsluitend over de trainingsperiode. Daardoor lekt informatie uit de toekomst naar het verleden. Het model weet dingen die het op dat moment niet kon weten.Data leakage is subtiel en moeilijk te detecteren. Maar het verklaart waarom een model in backtest fantastisch scoort en live volledig onderpresteert.
Hoe los je dit op?
Werk met strikte tijdsgrenzen bij elke preprocessing stap. En documenteer elk datapunt: waar het vandaan komt, hoe het is schoongemaakt en wanneer het beschikbaar was in de markt.
Meer verkennen in onze case studies