Machine learning 3 min

Slechte data, slechte beslissingen: wat bedrijven verkeerd doen bij dataverzameling

Liesbeth Cortvriendt over data leakage, survivorship bias en andere valkuilen

Algoritmisch handelen/Machine learning/Ulnirames

Opslaan als bladwijzer Opgeslagen

Liesbeth Cortvriendt begeleidt bedrijven bij de opzet van datapijplijnen voor financiele ML-toepassingen. Ze ziet dezelfde fouten keer op keer terugkomen.

Waar gaat het mis in de datafase?

Bedrijven gebruiken data die ze toevallig beschikbaar hebben, niet data die relevant is voor hun specifieke strategie.

Een aandelenstrategie gericht op volatiliteitspatronen heeft andere data nodig dan een strategie op basis van orderboekdiepte. Dat verschil wordt zelden gemaakt aan het begin van een project.

Survivorship bias is een serieus probleem

Veel teams trainen op data van bedrijven die vandaag nog bestaan. Bedrijven die failliet gingen of werden overgenomen, ontbreken in die datasets.

Het model leert daardoor een vertekend beeld van historische rendementen. De strategie lijkt beter te werken dan ze in werkelijkheid zou hebben gedaan.

Wat doen teams ook nog verkeerd?

Ze normaliseren data over de volledige dataset in plaats van uitsluitend over de trainingsperiode. Daardoor lekt informatie uit de toekomst naar het verleden. Het model weet dingen die het op dat moment niet kon weten.

Data leakage is subtiel en moeilijk te detecteren. Maar het verklaart waarom een model in backtest fantastisch scoort en live volledig onderpresteert.

Hoe los je dit op?

Werk met strikte tijdsgrenzen bij elke preprocessing stap. En documenteer elk datapunt: waar het vandaan komt, hoe het is schoongemaakt en wanneer het beschikbaar was in de markt.

Technieken in dit artikel

Supervised learning modellen 82%

Backtesting via historische data 74%

Signaalverwerking en filtering 68%

Datavoorbereiding en normalisatie 91%

Reinforcement learning strategieën 55%

Meer verkennen in onze case studies

Terug naar boven