Multicollineariteit is een statistisch fenomeen waarin twee of meer verklarende variabelen in een regressiemodel sterk gecorreleerd zijn, wat wil zeggen dat minstens een van hen op basis van het model voorspeld kan worden. Multicollineariteit beïnvloedt de berekening van de coëfficiënten, aangezien ze in dat geval ten minste gedeeltelijk overlappen, en reduceert dus hun betrouwbaarheid.
Opsporen
Multicollineariteit kan opgespoord worden via de correlatiematrix of de variance inflation factor. Hoewel de correlatiematrix overzichtelijk is, wordt in deze matrix geen rekening gehouden met 'indirecte' correlatie (zo kunnen X en Z zwak gecorreleerd zijn, maar X&Y en Z sterk gecorreleerd zijn). De variance inflation factor (VIF) houdt hier wel rekening mee, en beschouwt een regressiemodel van een verklarende variabele in functie van alle andere verklarende variabelen. De VIF wordt berekend als 1/(1-R²) (de inverse van 1 min de determinatiecoëfficiënt). Nadelig is dat men voor elke verklarende variabele deze regressie moet doorvoeren. Over het algemeen wordt vanaf een VIF-waarde van 10 gesproken van ernstige multicollineariteit[1]. Een VIF waarde groter dan 4 kan al problematisch zijn.
Multicollineariteit komt typisch voor bij variabelen die zowel in gewone als in gekwadrateerde vorm worden opgenomen in een model, en bij interactie-effecten.
Oplossen
De meest voor de hand liggende oplossing is het centreren van de data, wat inhoudt dat elke waarde verminderd wordt met de gemiddelde waarde. Als bijvoorbeeld leeftijd en het kwadraat ervan in het model opgenomen zijn, kunnen zij vervangen worden door respectievelijk (leeftijd - gemiddelde leeftijd) en daarvan het kwadraat.
Als twee variabelen effectief hetzelfde lijken te meten, is het eenvoudiger om een van beide uit het model te halen.
- ↑ A. Burns, R. Bush, I. Smeets, Principes van marktonderzoek, 2006, blz. 481