A.8 Espérance conditionnelle et régression saturée
À retenir
Si les variables indépendantes sont exclusivement des variables indicatrices dichotomiques telles que (i) les différents groupes délimités par chacune de ces variables recouvrent toute la population d’intérêt et (ii) il n’est pas possible d’appartenir simultanément à plusieurs de ces groupes, alors les coefficients de la régression linéaire par les moindres carrés ordinaires sont égaux à l’espérance conditionnelle de la variable dépendante dans chacun de ces groupes.
Formellement, il s’agit donc de régresser la variable aléatoire \(Y\) sur des variables indicatrices dichotomiques qui correspondent à la partition de l’espace de départ en \(d\) ensembles disjoints, en omettant la constante pour éviter la colinéarité : \(Y = \sum_{i=1}^d \beta_i X_i + \epsilon\). La proposition précédente revient à dire que \(\beta_i = \mathbb{E}[Y \mid X_i=1]\).
Avant de commencer à calculer, on peut d’ores et déjà remarquer que la dimension du vecteur \(\beta=\left(\beta_1 \dots \beta_d\right)'\) est exactement le nombre de valeurs possibles différentes pour l’espérance conditionnelle \(\mathbb{E}[Y \mid X_i=1]\).
On peut ensuite noter que pour \(i\) et \(j\) dans \(\{1, \dots, d\}\), la variable aléatoire \(X_iX_j\) est constante égale à 0 si \(i \neq j\), et égale à \(X_i\) si \(i=j\). De ce fait, la matrice \(\mathbb{E}[XX']\), dont le coefficient à la \(i\)-ème ligne \(j\)-ème colonne est \(\mathbb{E}[X_iX_j]\) est diagonale, et ses termes diagonaux sont égaux à la probabilité \(p_i:=\mathbb{E}[X_i]\) d’appartenir à chaque sous-ensemble. Son inverse est donc la matrice diagonale dont les termes diagonaux sont les \(\frac{1}{p_i}\). Par ailleurs, pour \(i\) dans \(\{1, \dots, d\}\), la variable aléatoire \(X_iY\) est égale à 0 si \(X_i=0\) et \(Y\) sinon. Son espérance est donc égale à \(p_i \mathbb{E}[Y \mid X_i=1]\). En définitive, en multipliant \(\mathbb{E}[XX']^{-1}\) par \(\mathbb{E}[XY]\), on en déduit \(\beta_i = \mathbb{E}[Y \mid X_i=1]\).