Correlatie vs Causatie: Is dit relevant voor jouw baan?
Buiten je werk heb je misschien wel eens gehoord van het beroemde gezegde “Correlatie is geen oorzakelijk verband”. Het klinkt misschien als een stukje theoretische onzin dat, hoewel het betrokken is bij een recente Nobelprijs voor de economie, niet relevant is voor je werk als vraagplanner. Is dat zo, dan heb je misschien slechts gedeeltelijk gelijk.
Extrapolatieve versus causale modellen
De meeste vraagvoorspellingen maken gebruik van extrapolatieve modellen. Deze modellen, ook wel tijdreeksmodellen genoemd, voorspellen de vraag door alleen gebruik te maken van de waarden van de vraag naar een artikel in het verleden. Plots van waarden uit het verleden onthullen trends, seizoensgebondenheid en volatiliteit, dus daar zijn ze goed voor. Maar er is een ander type model – causale modellen – dat de nauwkeurigheid van prognoses mogelijk kan verbeteren en verder kan gaan dan extrapolatieve modellen.
Causale modellen voegen meer gegevens toe aan de voorspellingstaak: informatie over veronderstelde voorspellingsfactoren buiten de vraaggeschiedenis van een artikel. Voorbeelden van potentieel bruikbare causale factoren zijn macro-economische variabelen zoals het inflatiepercentage, het groeipercentage van het BBP en grondstofprijzen. Voorbeelden die niet gebonden zijn aan de nationale economie zijn industriespecifieke groeipercentages en de advertentie-uitgaven van jezelf en je concurrenten. Deze variabelen worden meestal gebruikt als input voor regressiemodellen, die vergelijkingen zijn met de vraag als output en causale variabelen als input.
Voorspellen met behulp van causale modellen
Veel bedrijven hebben een S&OP-proces dat bestaat uit een maandelijkse beoordeling van statistische (extrapolatieve) prognoses waarbij het management de prognoses aanpast op basis van hun oordeel. Vaak is dit een indirecte en subjectieve manier om causale modellen in het proces te verwerken zonder regressiemodellen te maken.
Om daadwerkelijk een causaal regressiemodel te maken, moet je eerst een lijst van potentieel bruikbare causale voorspellende variabelen benoemen. Deze kunnen voortkomen uit je materiedeskundigheid. Stel bijvoorbeeld dat je vensterglas produceert. Veel van je glas kan terechtkomen in nieuwe huizen en nieuwe kantoorgebouwen. Het aantal nieuwe huizen en kantoren dat wordt gebouwd zijn dus plausibele voorspellende variabelen in een regressievergelijking.
Er is hier een complicatie: als je de vergelijking gebruikt om iets te voorspellen, moet je eerst de voorspellers voorspellen. De verkoop van glas in het volgende kwartaal kan bijvoorbeeld sterk gerelateerd zijn aan het aantal nieuwe huizen en nieuwe kantoorgebouwen in het volgende kwartaal. Maar hoeveel nieuwe woningen zullen er volgend kwartaal zijn? Dat is een eigen voorspellingsprobleem. Je hebt dus een potentieel krachtig voorspellingsmodel, maar je moet extra werk doen om het bruikbaar te maken.
Er is een manier om het eenvoudiger te maken: als de voorspellende variabelen “vertraagde” versies van zichzelf zijn. Het aantal nieuwe bouwvergunningen dat zes maanden geleden is afgegeven, kan bijvoorbeeld een goede voorspeller zijn van de glasverkoop volgende maand. Je hoeft de bouwvergunningsgegevens niet te voorspellen – je hoeft ze alleen maar op te zoeken.
Is het een causale relatie of slechts een onechte correlatie?
Causale modellen zijn het echte werk: er is een echt mechanisme dat een verband legt tussen de voorspellende variabele en de voorspelde variabele.
Het voorbeeld van het voorspellen van de glasverkoop op basis van bouwvergunningen is een voorbeeld. Een correlatie is twijfelachtiger. Er is een statistische associatie die al dan niet een solide basis biedt voor voorspellingen. Stel bijvoorbeeld dat je een product verkoopt dat Nederlanders toevallig het meest aanspreekt, maar je realiseert je dit niet. Nederlanders zijn gemiddeld de langste mensen in Europa. Als je verkoop stijgt en de gemiddelde lengte van Europeanen stijgt, kun je die relatie goed gebruiken. Maar als het aandeel Nederlanders in de eurozone afneemt terwijl de gemiddelde lengte toeneemt omdat de mix van mannen versus vrouwen verschuift naar mannen, wat kan er dan misgaan? Je zult verwachten dat de verkoop zal toenemen omdat de gemiddelde lengte toeneemt. Maar in werkelijkheid verkoopt u vooral aan Nederlanders, en hun relatieve aandeel in de bevolking daalt, dus uw omzet zal in werkelijkheid dalen. In dit geval is de associatie tussen verkoop en klantlengte een valse correlatie.
Hoe kun je het verschil zien tussen echte en onechte verbanden? De gouden standaard is om een rigoureus wetenschappelijk experiment uit te voeren. Maar je bent waarschijnlijk niet in de positie om dat te doen. In plaats daarvan moet je vertrouwen op je persoonlijke “mentale model” van hoe je markt werkt. Als je voorgevoel juist is, dan zullen je potentiële causale modellen correleren met de vraag en zal causaal modelleren voor jou lonend zijn, als aanvulling op extrapolatieve modellen of ter vervanging daarvan.
0 Comments