A.9 Agrégation des contrastes conditionnels par les moindres carrés ordinaires

À retenir

Lorsque l’on régresse par les moindre carrés ordinaires une variable aléatoire \(Y\) sur (i) une variable dichotomique \(D\) et (ii) un lot de variables dichotomiques \(X_i\) qui découpent la population d’intérêt en autant de sous-ensembles disjoints, le coefficient sur la variable \(D\) est égal à la moyenne des contrastes conditionnels \(\mathbb{E}[Y \mid D=1,\, X_i=1] - \mathbb{E}[Y \mid D=0,\, X_i=1]\) avec des poids qui donnent davantage d’importance (i) aux groupes les plus nombreux dans la population d’intérêt et (ii) aux groupes au sein desquels la probabilité \(\mathbb{P}(D=1 \mid X_i=1)\) est plus proche de \(\frac{1}{2}\).

On peut considérer par exemple le cas où l’on régresserait dans la population des salariés étatsuniens le salaire \(Y\) sur une indicatrice d’être diplômé de l’enseignement supérieur \(X_d\) et une indicatrice de sexe féminin à l’état-civil \(X_f\) : \(Y = \alpha + \beta_d X_d + \beta_f X_f + \epsilon\) avec les constraintes usuelles sur \(\epsilon\). Alors le théorème de Frisch-Waugh-Lovell indique qu’il reviendrait au même de régresser d’abord le salaire sur le sexe, puis la variable de diplôme sur le sexe, et enfin le résidu de la première régression sur celui de la seconde régression.

En vertu de la discussion sur les liens entre l’espérance conditionnelle et les moindres carrés ordinaires dans les régressions saturées, le résidu de la première régression du salaire sur le sexe est égal à la différence entre le salaire et l’espérance conditionnelle du salaire pour chaque sexe : \(\epsilon_Y = Y - \mathbb{E}[Y \mid X_f]\). De la même façon, le résidu de la seconde régression est égal à la différence entre l’indicatrice de diplôme et la probabilité conditionnelle du diplôme pour chaque sexe : \(\epsilon_d = X_d - \mathbb{E}[X_d \mid X_f]\).

On peut dans un premier temps calculer la variance de \(\epsilon_d\). En utilisant la loi des espérances itérées et la linéarité de l’espérance, on a : \[\begin{align} \mathcal{V}(\epsilon_d) &= \mathbb{E}[\epsilon_d^2] \nonumber \\ &= \mathbb{E}[\mathbb{E}\left[\{X_d - \mathbb{E}[X_d \mid X_f]\}^2 \mid X_f] \right] \nonumber \\ &= \mathbb{E}\left[\mathbb{E}\left[X_d - 2 X_d \mathbb{E}[X_d \mid X_f] + \mathbb{E}[X_d \mid X_f]^2 \mid X_f \right] \right] \nonumber \\ &= \mathbb{E}\left[\mathbb{E}[X_d \mid X_f]\{1 - \mathbb{E}[X_d \mid X_f] \} \right] \nonumber \end{align}\] où la première égalité provient du fait que l’on sait pas définition que le résidu est d’espérance nulle, la seconde combine la définition de \(\epsilon_d\) avec la loi des espérances itérées, la troisième repose un développement du carré, et sur le fait que pour une variable dichotomique \(X_d^2 = X_d\), et la dernière égalité sur les propriétés fondamentales de l’espérance conditionnelle et sur une factorisation.

Dans un second temps, on peut considérer la covariance de \(\epsilon_Y\) et \(\epsilon_d\). En utilisant les propriétés élémentaires de l’espérance conditionnelle, on a : \[\begin{align} \mathcal{C}(\epsilon_Y, \epsilon_d) &= \mathbb{E}[\epsilon_Y\epsilon_d] \nonumber \\ &= \mathbb{E}\left[\mathbb{E}\left[ \{Y-\mathbb{E}[Y \mid X_f]\} \{X_d-\mathbb{E}[X_d \mid X_f]\} \mid X_f \right]\right] \nonumber \\ &= \mathbb{E}\left[\mathbb{E}\left[X_dY + \mathbb{E}[Y \mid X_f]\mathbb{E}[X_d \mid X_f] - \mathbb{E}[Y \mid X_f]X_d - Y\mathbb{E}[X_d \mid X_f] \mid X_f \right] \right] \nonumber \\ &= \mathbb{E}\left[\mathbb{E}[X_dY \mid X_f] - \mathbb{E}[Y \mid X_f]\mathbb{E}[X_d \mid X_f]\right] \nonumber \\ &= \mathbb{E}\left[\mathbb{E}[X_d \mid X_f] \{\mathbb{E}[Y \mid X_d=1, \, X_f] - \mathbb{E}[Y \mid X_f]\}\right] \nonumber \\ &= \mathbb{E}\left[\mathbb{E}[X_d \mid X_f]\{1 - \mathbb{E}[X_d \mid X_f]\}\{\mathbb{E}[Y \mid X_d=1, \, X_f] - \mathbb{E}[Y \mid X_d=0, \, X_f]\}\right] \nonumber \end{align}\] où la première égalité provient de ce que l’on sait que les résidus sont d’espérance nulle, la seconde de la définition des résidus et de la loi des espérances itérées, la troisième est un développement du produit, la quatrième utilise les propriétés élémentaires de l’espérance conditionnelle, la quatrième découle de la loi des espérances itérées appliquée à \(\mathbb{E}[X_dY \mid X_f]\) et la dernière égalité combine la loi des espérance itérées appliquée à \(\mathbb{E}[Y \mid X_f\) et une factorisation.

En définitive, le coefficient sur la variable de diplôme \(X_d\) dans la régression du salaire \(Y\) sur cette variable et sur la variable de sexe est donc égal à : \[\frac{\mathcal{C}(\epsilon_Y, \epsilon_d)}{\mathcal{V}(\epsilon_d)} = \frac{\mathbb{E}\left[\mathbb{E}[X_d \mid X_f]\{1 - \mathbb{E}[X_d \mid X_f]\}\{\mathbb{E}[Y \mid X_d=1, \, X_f] - \mathbb{E}[Y \mid X_d=0, \, X_f]\}\right]}{\mathbb{E}\left[\mathbb{E}[X_d \mid X_f]\{1 - \mathbb{E}[X_d \mid X_f]\}\right]}\] En d’autres termes, ce coefficient est égal à la moyenne des écarts d’espérance du salaire entre diplômés et non-diplômés de l’enseignement supérieur à l’intérieur de chaque strate définie par le sexe \(x\) dans \(\{0, \, 1\}\), \(\mathbb{E}[Y \mid X_d=1, \, X_f=x] - \mathbb{E}[Y \mid X_d=0, \, X_f=x]\), avec des poids proportionnels à (i) la taille de chacune de ces strates \(\mathbb{P}(X_f=x)\) et (ii) la variance de la variable \(X_d\) à l’intérieur de chaque strate, qui est égale à \(\mathbb{E}[X_d \mid X_f=x]\{1 - \mathbb{E}[X_d \mid X_f=x]\}\) pour puisque \(X_d\) est une variable dichotomique.