A.16 Interprétation causale des régressions linéaires

À retenir

Sous les hypothèses d’indépendance conditionnelle et de support commun, le coefficient qui porte sur la variable dichotomique représentant l’intervention, dans une régression linéaire par les moindres carrés ordinaires de la variable d’intérêt sur cette variable dichotomique et les variables de conditionnement, est égal à la somme de (i) une moyenne pondérée d’effets causaux moyens du traitement spécifiques à chaque strate définie par la valeur prise par les variables de conditionnement, avec des poids qui ne sont négatids que pour les strates pour lesquelles les valeurs du score de propension, estimées par une régression linéaire, dépassent 1, et (ii) un terme qui ne dépend pas des effets causaux de l’intervention, et qui est nul si les valeurs du score de propension estimées par régression linéaire s’identifient aux vraies valeurs du score de propension, ou si la moyenne des valeurs potentielles de la variable d’intérêt en l’absence d’intervention dans chacune des strates définies par les variables de conditionnement s’identifie à la valeur prédite par une régression linéaire sur ces variables de conditionnement.

On considère la régression linéaire par les moindres carrés ordinaires suivante : \[Y_i = \alpha + \beta D_i + X_i' \gamma + \epsilon_i\]\(Y_i\) est la variable d’intérêt, \(D_i\) la variable dichotomique qui représente l’intervention, et \(\epsilon_i\) un terme résiduel d’espérance nulle et de corrélation nulle tant avec \(D_i\) qu’avec \(X_i\).

Pour prouver la validité de cette décomposition, on va adopter les notations suivantes :

  • \(\tau(x):=\mathbb{E}[Y_i(1) - Y_i(0) \mid X_i=x]\) désigne l’effet causal moyen de l’intervention dans la strate définie par les valeurs des variables de conditionnement \(X_i=x\) ;
  • \(\hat{Y}(x)\) et \(\hat{D}(x)\) désignent les valeurs prédites par les régressions linéaires de \(Y_i\) et \(D_i\) sur les variables de conditionnement, évaluées dans la strate définie par les valeurs des variables de conditionnement \(X_i=x\) ;
  • \(\tilde{Y}_i:=Y_i-\hat{Y}(X_i)\) et \(\tilde{D}_i:=D_i-\hat{D}(X_i)\) désignent les résidus de ces régressions ;
  • \(\overline{Y}(x):=\mathbb{E}[Y_i \mid X_i=x]\) et \(\overline{D}(x):=\mathbb{E}[D_i \mid X_i=x]\) désignent les espérances conditionnelles, c’est-à-dire les moyennes, dans la population prise toute entière, de \(Y_i\) et \(D_i\) dans la strate définie par les valeurs des variables de conditionnement \(X_i=x\), la seconde est donc le score de propension ;
  • enfin \(\overline{Y}(d,x):=\mathbb{E}[Y_i \mid D_i=d, X_i=x]\) est l’espérance conditionnelle, c’est-à-dire la moyenne de la variable d’intérêt \(Y_i\) dans la strate définie par la valeur des variables de conditionnement \(X_i=x\), pour le groupe dont la valeur de la variable représentant l’intervention est \(d\).

Grâce au théorème de Frisch-Waugh-Lovell, on sait que l’on peut tout aussi bien définir \(\beta\) comme la pente de la droite de régression, lorsque l’on régresse le résidu \(\tilde{Y}_i\) sur le résidu \(\tilde{D}_i\). Ainsi, en revenant à la valeur des coefficients dans une régression linéaire simple : \[\beta=\frac{\mathcal{C}(\tilde{Y}_i,\tilde{D}_i)}{\mathcal{V}(\tilde{D}_i)}\] On peut commencer par évaluer le numérateur : \[\begin{align} &\mathcal{C}(\tilde{Y}_i,\tilde{D}_i) \nonumber \\ =&\mathbb{E}[\tilde{Y}_i\tilde{D}_i] \nonumber \\ =&\mathbb{E}\left[\left(\left\{Y_i-\overline{Y}(X_i)\right\} + \left\{\overline{Y}(X_i)-\hat{Y}(X_i)\right\}\right)\left(\left\{D_i-\overline{D}(X_i)\right\} + \left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right)\right] \nonumber \\ =&\mathbb{E}\left[\left\{Y_i-\overline{Y}(X_i)\right\}\left\{D_i-\overline{D}(X_i)\right\}\right] \nonumber\\ &+\mathbb{E}\left[\left\{\overline{Y}_i-\hat{Y}(X_i)\right\}\left\{D_i-\overline{D}(X_i)\right\}\right] \nonumber\\ &+\mathbb{E}\left[\left\{Y_i-\overline{Y}(X_i)\right\}\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right] \nonumber\\ &+\mathbb{E}\left[\left\{\overline{Y}_i-\hat{Y}(X_i)\right\}\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right] \nonumber\\ =&\mathbb{E}\left[\mathbb{E}\left[\left\{Y_i-\overline{Y}(X_i)\right\}\left\{D_i-\overline{D}(X_i)\right\} \mid X_i \right] \right] \nonumber\\ &+\mathbb{E}\left[\left\{\overline{Y}_i-\hat{Y}(X_i)\right\}\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right] \nonumber\\ =&\mathbb{E}\left[\mathcal{C}(Y_i, D_i \mid X_i) \right] \nonumber\\ &+\mathbb{E}\left[\left\{\overline{Y}_i-\hat{Y}(X_i)\right\}\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right] \nonumber\\ \end{align}\]

La première égalité tient simplement à ce que les deux variables dont on considère la covariance sont les résidus d’une régression linéaire, donc de moyenne nulle. La seconde revient à la définition \(\tilde{Y}_i:=Y_i-\hat{Y}(X_i)\), en intercalant un terme intermédaire : \(\tilde{Y}_i=(Y_i-\overline{Y}(X_i))+(\overline{Y}(X_i)-\hat{Y}(X_i))\), et fait le même travail pour les termes relatifs à la variable représentant l’intervention. La troisième égalité est simplement un développement du produit, et fait intervenir la linéarité de l’espérance. Les deux termes intermédiaires de la somme sont nuls. En effet, \(\overline{D}(X_i)-\hat{D}(X_i)\) est une fonction de \(X_i\), de sorte que lorsque l’on va utiliser la loi des espérances itérées : \[\begin{align} &\mathbb{E}\left[\left\{Y_i-\overline{Y}(X_i)\right\}\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right] \nonumber \\ =&\mathbb{E}\left[\mathbb{E}\left[\left\{Y_i-\overline{Y}(X_i)\right\}\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\} \mid X_i\right]\right] \nonumber \\ =&\mathbb{E}\left[\mathbb{E}\left[\left\{Y_i-\overline{Y}(X_i)\right\} \mid X_i\right]\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right] \nonumber \\ =&\mathbb{E}\left[\left\{\mathbb{E}\left[Y_i \mid X_i\right]-\overline{Y}(X_i)\right\}\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right] \nonumber \\ =&0 \nonumber \\ \end{align}\] Un raisonnement très similaire tient pour l’autre terme. On élimine ainsi les deux termes intermédiaires, et on applique la loi des espérances itérées dans le premier terme restant, ce qui justifie la quatrième égalité. Enfin, la cinquième égalité utilise simplement la définition de la covariance conditionnelle.

On peut travailler sur les deux termes résultat de la cinquième égalité séparément. Lorsque l’on considère le premier, on peut se souvenir de la valeur des coefficients de la régression linéaire simple. Ainsi, si l’on faisait une régression de la variable d’intérêt \(Y_i\) sur la variable d’intervention \(D_i\) à l’intérieur de la strate \(X_i=x\), le coefficient que l’on récupèrerait serait \(\frac{\mathcal{C}(Y_i, D_i \mid X_i=x)}{\mathcal{V}(D_i \mid X_i=x)}\). Par ailleurs, on est dans le cas d’une régression saturée : ce coefficient doit donc être égal au contraste conditionnel \(\mathbb{E}[Y_i \mid D_i=1, X_i=x]-\mathbb{E}[Y_i \mid D_i=0, X_i=x]\). Comme on fait l’hypothèse d’indépendance conditionnelle, ce contraste conditionnel est égal à l’effet causal moyen de l’intervention dans la strate \(\tau(x):=\mathbb{E}[Y_i(1)-Y_i(0) \mid X_i=x]\). Cela justifie d’écrire in fine : \[\mathbb{E}\left[\mathcal{C}(Y_i, D_i \mid X_i) \right]=\mathbb{E}[\mathcal{V}(D_i \mid X_i)\tau(X_i)]\]

Pour ce qui est du second terme, on peut commencer par développer le produit et utiliser la linéarité de l’espérance : \[\begin{align} &\mathbb{E}\left[\left\{\overline{Y}_i-\hat{Y}(X_i)\right\}\left\{\overline{D}(X_i)-\hat{D}(X_i\right\}\right] \nonumber\\ =&\mathbb{E}\left[\overline{Y}(X_i)\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right] \nonumber\\ &-\mathbb{E}\left[\hat{Y}(X_i)\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right] \nonumber\\ \end{align}\] Le second terme de cette différence est nul. En effet, \(\hat{Y}(X_i)\) est une fonction affine de \(X_i\), tandis que \(\overline{D}(X_i)-\hat{D}(X_i)\) est le résidu de la régression linéaire de \(\overline{D}(X_i)\) sur \(X_i\) : la valeur prédite par la régression linéaire de \(D_i\) sur \(X_i\), et la valeur prédite par la régression linéaire de l’espérance conditionnelle \(\overline{D}(X_i)\) sur \(X_i\) coïncident. Ce résidu est de moyenne nul et n’est corrélé avec aucune des composantes de \(X_i\), donc il n’est corrélé avec aucune fonction affine de \(X_i\).

Pour examiner le terme \(\mathbb{E}\left[\overline{Y}(X_i)\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right]\), on utilise la loi des espérances itérées, qui, en particulier combinée avec l’hypothèse d’indépendance conditionnelle, indique que, pour une valeur \(x\) quelconque des variables de conditionnement : \[\begin{align} &\overline{Y}(x) \nonumber \\ =& \mathbb{E}[Y_i \mid X_i=x] \nonumber \\ =& \mathbb{E}\left[\mathbb{E}\left[Y_i \mid D_i, X_i=x\right] \mid X_i=x\right] \nonumber \\ =& \mathbb{E}\left[Y_i \mid D_i=1, X_i=x\right]\overline{D}(x) \nonumber \\ &+ \mathbb{E}\left[Y_i \mid D_i=0, X_i=x\right]\left\{1-\overline{D}(x)\right\}\nonumber \\ =& \left\{\mathbb{E}\left[Y_i \mid D_i=1, X_i=x\right]-\mathbb{E}\left[Y_i \mid D_i=0, X_i=x\right]\right\}\overline{D}(x) \nonumber \\ &+ \mathbb{E}\left[Y_i \mid D_i=0, X_i=x\right]\nonumber \\ =& \overline{D}(x)\tau(x) + \overline{Y}(0,x)\nonumber \\ \end{align}\] On peut réinjecter cette égalité dans le terme que l’on cherche à calculer : \[\begin{align} &\mathbb{E}\left[\overline{Y}(X_i)\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right] \nonumber \\ =& \mathbb{E}\left[\left\{\overline{D}(X_i)\tau(X_i) + \overline{Y}(0, X_i)\right\}\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right] \nonumber \\ =&\mathbb{E}\left[\overline{D}(X_i)\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\tau(X_i) \right] \nonumber \\ &+\mathbb{E}\left[\overline{Y}(0, X_i)\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right] \nonumber \\ \end{align}\]

Au total, en regroupant tous les termes, et en tenant compte du fait que comme \(D_i\) est dichotomique, \(\mathcal{V}(D_i \mid X_i)=\overline{D}(X_i)\left\{1-\overline{D}(X_i)\right\}\), on arrive à : \[\mathcal{C}(\tilde{Y}_i, \tilde{D}_i)=\mathbb{E}\left[\overline{D}(X_i)\left\{1-\hat{D}(X_i)\right\}\tau(X_i)\right] + \mathbb{E}\left[\overline{Y}(0, X_i)\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right]\]

Par une série de raisonnements très similaires, on montre également que : \[\mathcal{V}(\tilde{D}_i) = \mathbb{E}\left[\overline{D}(X_i) \left\{1-\hat{D}(X_i)\right\}\right]\]

En réécrivant le coefficient d’intérêt sous la forme d’un quotient, on en déduit : \[\beta = \frac{\mathbb{E}\left[\overline{D}(X_i)\left\{1-\hat{D}(X_i)\right\}\tau(X_i)\right]}{\mathbb{E}\left[\overline{D}(X_i) \left\{1-\hat{D}(X_i)\right\}\right]} + \frac{\mathbb{E}\left[\overline{Y}(0, X_i)\left\{\overline{D}(X_i)-\hat{D}(X_i)\right\}\right]}{\mathbb{E}\left[\overline{D}(X_i) \left\{1-\hat{D}(X_i)\right\}\right]}\] Le premier terme de cette somme est une moyenne d’effet causaux moyens spécifiques à chaque strate, \(\tau(x)\), avec des poids proportionnels à la taille de chaque strate, mais aussi au produit \(\overline{D}(x)\left\{1-\hat{D}(x)\right\}\). Le premier terme de ce produit est toujours positif strictement, d’après l’hypothèse de support commun. Le second terme est négatif si et seulement si \(\hat{D}(x)\) est strictement supérieur à 1, c’est-à-dire si les valeurs du score de propension estimées par une régression linéaire dépassent 1.

Le second terme de cette somme est nul si, pour toutes les valeurs possibles \(x\) des variables de conditionnement, \(\overline{D}(x)=\hat{D}(x)\), c’est-à-dire si les valeurs du score de propension, estimées par une régression linéaire, et notée \(\hat{D}(x)\) s’identifient aux vraies valeurs du score de propension \(\overline{D}(x)\). Il est également nul si l’on peut écrire \(\overline{Y}(0, X_i)\) comme une fonction affine des variables de conditionnement \(X_i\). En effet, dans ce cas le résidu de la régression de \(\overline{D}(X_i)\) sur \(X_i\) n’est pas corrélé à \(\overline{Y}(0, X_i)\), et comme ce résidu est \(\overline{D}(X_i)-\hat{D}(X_i)\) le numérateur est nul. On a défini \(\overline{Y}(0,x):=\mathbb{E}[Y_i \mid D_i=0, X_i=x]\) à partir des valeurs réalisées de la variable d’intérêt, mais par l’hypothèse d’indépendance conditionnelle on peut aussi définir cette variable aléatoire à partir des valeurs potentielles de la variable d’intérêt, ce qui donne \(\overline{Y}(0, x)=\mathbb{E}\left[Y_i(0) \mid X_i=x\right]\). Ains, le second terme est bien nul lorsque la moyenne dans la population prise toute entière des valeurs potentielles en l’absence d’intervention, prise dans chaque strate définie par les valeurs des variables de conditionnement est une fonction affine des variables de conditionnement, c’est-à-dire quand cette moyenne s’identifie à la valeur prédite par une régression linéaire.