A.10 Agrégation des coefficients par les moindres carrés ordinaires
À retenir
Lorsque l’on régresse par les moindre carrés ordinaires une variable aléatoire \(Y\) sur (i) une variable quelconque \(X\) et (ii) un lot de variables dichotomiques \(D_i\) qui découpent l’ensemble des résultats possibles en autant de sous-ensembles disjoints, le coefficient sur la variable \(X\) est égal à la moyenne des coefficients que l’on obtient en régressant \(Y\) sur \(X\) à l’intérieur de chacun des groupes définis par \(X_i=1\), avec des poids qui donnent davantage d’importance (i) aux groupes les plus nombreux dans la population d’intérêt et (ii) aux groupes au sein desquels la variance conditionnelle de \(X\) est plus grande.
On peut considérer par exemple le cas où l’on régresse dans la population des salariés américains le salaire horaire \(Y\) sur l’éducation mesurée en nombre d’années passées dans le système scolaire \(X\) et une variable indicatrice de vivre dans un État du Sud \(D\) : \(Y=\alpha + \beta X + \gamma D + \epsilon\) avec les contraintes usuelles sur \(\epsilon\). Alors le théorème de Frisch-Waugh-Lovell indique qu’il reviendrait au même pour l’identificaton du paramètre \(\beta\) de régresser dans un premier temps le salaire sur la région, puis l’éducation sur la région, et enfin le résidu de la première régression, noté \(\epsilon_Y\) sur le résidu de la seconde, noté \(\epsilon_X\).
En vertu de la discussion sur la régression saturée, on sait que \(\epsilon_Y\) n’est autre que la différence entre le salaire et l’espérance conditionnelle du salaire dans la région, et \(\epsilon_X\) la différence entre l’éducation et l’éducation dans la région.
On peut dans un premier temps calculer la variance de \(\epsilon_X\) : \[\begin{align} \mathcal{V}(\epsilon_X)&= \mathbb{E}\left[(\epsilon_X-\mathbb{E}[\epsilon_X])^2\right] \nonumber\\ &=\mathbb{E}\left[\epsilon_X^2\right] \nonumber\\ &=\mathbb{E}\left[\mathbb{E}\left[\epsilon_X^2 \mid D\right]\right] \nonumber\\ &=\mathbb{E}\left[\mathcal{V}(X \mid D)\right] \nonumber \end{align}\] où la première égalité n’est autre que la définition de la variance, la seconde traduit le fait que le résidu est d’espérance nulle, la troisième correspond à l’application de la loi des espérances itérées et la quatrième combine la définition de la variance conditionnelle et du fait que par définition l’espérance conditionnelle de \(\epsilon_X\) sachant \(D\) est nulle.
On peut également calculer la covariance de \(\epsilon_X\) et \(\epsilon_Y\). On définit au préalable la variable aléatoire \(\beta_D\) comme suit : \(\beta_D(\omega)\) est égal au coefficient de l’éducation lorsque l’on se restreint aux États du Sud si \(\omega\) habite dans un État du Sud, et \(\beta_D(\omega)\) est égal au coefficient de l’éducation lorsque l’on se restreint aux autres États si \(\omega\) habite dans un autre État. Alors : \[\begin{align} \mathcal{C}(\epsilon_X, \epsilon_Y) &= \mathbb{E}\left[(\epsilon_X-\mathbb{E}[\epsilon_X])(\epsilon_Y-\mathbb{E}[\epsilon_Y])\right] \nonumber\\ &= \mathbb{E}[\epsilon_X\epsilon_Y] \nonumber\\ &= \mathbb{E}\left[\mathbb{E}[\epsilon_X \epsilon_Y \mid D]\right] \nonumber\\ &= \mathbb{E}\left[\mathbb{E}\left[(X-\mathbb{E}[X \mid D]) (Y-\mathbb{E}[Y \mid D]) \mid D\right]\right] \nonumber\\ &= \mathbb{E}\left[\mathcal{C}(X, Y \mid D)\right] \nonumber\\ &= \mathbb{E}\left[\mathcal{V}(X \mid D) \beta_D\right] \nonumber \end{align}\] où la première égalité n’est autre que la définition de la covariance, la seconde vient du fait que l’espérance des résidus est nulle, la troisième est une application de la loi des espérances itérées, la quatrième est la définition de \(\epsilon_X\) et \(\epsilon_Y\) compte-tenu des résultats que l’on connaît sur les régressions saturées, la cinquième est la définition de la covarariance conditionnelle, et la dernière provient tout bonnement de ce que \(\beta_D=\frac{\mathcal{C}(X, Y \mid D)}{\mathcal{V}(X \mid D)}\)
En définitive, le coefficient \(\beta\) sur la variable d’éducation dans la régression du salaire sur l’éducation et l’indicatrice de région est donc égal à : \[\frac{\mathcal{C}(\epsilon_X, \epsilon_Y)}{\mathcal{V}(\epsilon_X)} = \frac{\mathbb{E}[\mathcal{V}(X \mid D) \beta_D]}{\mathbb{E}[\mathcal{V}(X\mid D)]}\] Par conséquent, ce coefficient est donc la moyenne des coefficients obtenus dans les régressions menées séparément à l’intérieur de chaque région \(d\) dans \(\{0,\,1\}\), avec des poids proportionnels à (i) la part de chaque région dans la population \(\mathbb{P}(D=d)\) et (ii) la variance de l’éducation à l’intérieur de chaque région \(\mathcal{V}(X \mid D=d)\).