A.17 Interprétation causale de la décomposition de Oaxaca-Blinder
À retenir
Sous les hypothèses d’indépendance conditionnelle et de support commun, on peut identifier les effets causaux d’une intervention en commençant par régresser la variable d’intérêt sur les variables de conditionnement séparément pour le groupe des individus qui ont fait l’objet de l’intervention et pour ceux qui n’en ont pas fait l’objet, puis en comparant la valeur prédite par chacune de ces régression dans toute la population. La différence moyenne entre ces valeurs prédites coïncide les effets causaux moyens de l’intervention si (i) les poids calculés à partir du score de propension dans une stratégie de repondération sont une fonction affine des variables de conditionenement, ou si (ii) si les moyennes des valeurs potentielles de la variable d’intérêt dans chacune des strates définies par les variables de conditionnement s’identifie aux valeurs prédites par une régression linéaire sur ces variables de conditionnement.
A.17.1 Démonstration
Dans le groupe défini par la valeur \(d\) prise dans \(\{0,1\}\) de la variable d’intervention, on considère la régression linéaire de la variable d’intérêt \(Y_i\) sur les variables de conditionnement \(X_i\) (parmi lesquelles on compte la constante) : \[Y_i = X_i'\beta_d+\epsilon_i\] avec \(\mathbb{E}\left[X_i\epsilon_i\right]=0\). En supposant que l’on a bien choisi les variables de conditionnement de façon à éviter les problèmes de colinéarité, on sait que cette définition implicite de \(\beta_d\) implique : \[\beta_d=\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_iY_i \mid D_i=d\right]\]
Pour n’importe quel individu de la population, quelque soit son statut vis-à-vis de l’intervention, la valeur prédite par la régression effectuée dans le groupe \(d\) est : \[\hat{Y_i^d}:=X_i'\beta_d\] On va d’abord s’intéresser à la première condition sous laquelle la procédure décrite permet d’identifier les effets causaux moyens de l’intervention. En reprenant ce qui précède, la moyenne de la valeur prédite pour toute la population (et non pour le seul groupe \(D_i=d\)) s’écrit : \[\begin{align} &\mathbb{E}\left[\hat{Y_i^d}\right] \nonumber \\ =&\mathbb{E}\left[X_i'\beta_d\right] \nonumber \\ =&\mathbb{E}\left[X_i'\right]\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_iY_i \mid D_i=d\right] \nonumber \\ \end{align}\]
Par ailleurs, comme on est dans un cas où les hypothèses de support commun et d’indépendance conditionnelle sont vérifiées, on sait que l’on dispose de poids \(\omega(d,x)\) tels que lorsque l’on applique ces poids au groupe défini par la valeur \(d\) de la variable d’intervention, la distribution des caractéristiques observables dans ce groupe est la même que dans la population prise toute entière. Ainsi, en particulier : \[\mathbb{E}\left[X_i\right]=\mathbb{E}\left[\omega(d,X_i)X_i \mid D_i=d\right]\]
En réinjectant dans le calcul de la moyenne de la valeur prédite, il vient : \[\begin{align} &\mathbb{E}\left[\hat{Y_i^d}\right] \nonumber \\ =&\mathbb{E}\left[\omega(d,X_i)X_i \mid D_i=d\right]'\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_iY_i \mid D_i=d\right] \nonumber \\ =&\mathbb{E}\left[\mathbb{E}\left[\omega(d,X_i)X_i \mid D_i=d\right]'\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}X_iY_i \mid D_i=d\right] \nonumber \\ =&\mathbb{E}\left[\left\{X_i'\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_i\omega(d,X_i) \mid D_i=d\right]\right\}'Y_i \mid D_i=d\right] \nonumber \\ \end{align}\] où la première égalité réinjecte les égalités précédentes dans l’expression de la moyenne dans la population de la variable prédite, la deuxième est une utilisation de la linéarité de l’espérance conditionnelle, et la troisème un simple réarrangement qui utlise le fait que si \(A\) et \(B\) sont deux matrices, alors \((AB)'=B'A'\).
Le terme \(\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_i\omega(d,X_i) \mid D_i=d\right]\) correspond au vecteur des coefficients d’une régression linéaire, effectuée dans le groupe \(d\), des poids \(\omega(d,X_i)\) sur les variables de conditionnement \(X_i\). Par conséquent, le produit \(X_i'\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_i\omega(d,X_i) \mid D_i=d\right]\) n’est autre que la valeur prédite de cette régression linéaire, que l’on peut noter \(\hat{\omega}(d,X_i)\). Il en découle finalement que : \[\mathbb{E}\left[\hat{Y_i^d}\right]=\mathbb{E}\left[\hat{\omega}(d, X_i)Y_i \mid D_i=d\right]\]
Si les poids fondés sur le score de propension dans le groupe \(d\) sont une fonction affine des variables de conditionnement, alors ils coïncident avec leur valeur prédite \(\hat{\omega}(d,X)\). Dans ce cas, on peut en déduire : \[\begin{align} &\mathbb{E}\left[\hat{Y_i^d}\right] \nonumber \\ =&\mathbb{E}\left[\omega(d, X_i)Y_i \mid D_i=d\right] \nonumber \\ =&\mathbb{E}\left[\omega(d, X_i)Y_i(d) \mid D_i=d\right] \nonumber \\ =&\mathbb{E}\left[Y_i(d) \right] \nonumber \\ \end{align}\] où la première égalité traduit ce qui vient d’être avancé, la seconde réécrit la valeur observée de la variable d’intérêt dans le groupe \(d\) en termes des valeurs potentielles de la variable d’intérêt, et la dernière égalité utilise les propriétés des poids définis à partir du score de propension pour passer du groupe \(d\) à la population toute entière.
En définitive, si les poids \(\omega(1,x)\) et \(\omega(0,x)\) sont des fonctions affines de \(x\), alors ce qui précède vaut dans les deux valeurs prédites \(\hat{Y_i^0}\) et \(\hat{Y_i^1}\), de sorte que : \[\mathbb{E}\left[\hat{Y_i^1}-\hat{Y_i^0}\right]=\mathbb{E}\left[Y_i(1)-Y_i(0) \right]\]
On peut finalement considérer le cas où les moyennes des valeurs potentielles de la variable d’intérêt dans chacune des strates définies par les variables de conditionnement s’identifie aux valeurs prédites par une régression linéaire sur ces variables de conditionnement. Dans cette situation, on dispose donc d’un vecteur \(\gamma_d\) tel que : \[\mathbb{E}\left[Y_i(d) \mid X_i\right] = X_i' \gamma_d\]
On peut alors repartir de l’expression du vecteur de coefficients \(\beta_d\), obtenu en régressant, dans le groupe \(d\) la valeur observée de la variable d’intérêt sur les variables de conditionnement : \[\begin{align} &\beta_d \nonumber \\ =&\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_iY_i \mid D_i=d\right] \nonumber\\ =&\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_iY_i(d) \mid D_i=d\right] \nonumber\\ =&\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_i\mathbb{E}\left[Y_i(d) \mid X_i, D_i\right] \mid D_i=d\right] \nonumber\\ =&\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_i\mathbb{E}\left[Y_i(d) \mid X_i\right] \mid D_i=d\right] \nonumber\\ =&\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_iX_i'\gamma_d \mid D_i=d\right] \nonumber\\ =&\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_iX_i \mid D_i=d\right]'\gamma_d \nonumber\\ =&\gamma_d \nonumber\\ \end{align}\] où la première égalité part de la définition fondée sur les moindres carrés ordinaires, la deuxième exprime les valeurs observées de la variable d’intérêt en fonction des valeurs potentielles, la troisième emploie la loi des espérances itérées et les propriétés fondamentales de l’espérance conditionnelle, la quatrième invoque l’hypothèse d’indépendance conditionnelle, la cinquième remplace la moyenne des valeurs potentielles de la variable d’intérêt dans chaque strate par leur expression comme une fonction affin des variables de conditionnement, la sixième utilise la linéarité de l’espérance conditionnelle et la dernière est une simplification algébrique.
Ainsi, le vecteur obtenu en effectuant la régression s’identifie au vecteur qui définit la valeur de la moyenne des valeurs potentielles de la variable d’intérêt selon la strate définie par la valeur des variables de conditionnement que l’on regarde. Par conséquence, si l’on considère la moyenne sur toute la population des différences entre valeurs prédites : \[\begin{align} &\mathbb{E}\left[\hat{Y_i^1}-\hat{Y_i^0} \right] \nonumber \\ =&\mathbb{E}\left[X_i'\beta_1-X_i'\beta_0 \right] \nonumber \\ =&\mathbb{E}\left[X_i'\gamma_1-X_i'\gamma_0 \right] \nonumber \\ =&\mathbb{E}\left[\mathbb{E}\left[Y_i(1) \mid X_i\right]-\mathbb{E}\left[Y_i(0) \mid X_i\right] \right] =&\mathbb{E}\left[\mathbb{E}\left[Y_i(1)-Y_i(0) \mid X_i\right] \right] \nonumber \\ =&\mathbb{E}\left[Y_i(1)-Y_i(0)\right] \nonumber \\ \end{align}\] où la première égalité renvoie à la définition des valeurs prédites, la deuxième exploite le résultat précédent, la troisième reprend la définition des vecteurs \(\gamma_d\), la quatrième utilise la linéarité de l’espérance conditionnelle et la cinquième est une application de la loi des espérances itérées. En définitive, la moyenne sur toute la population de la différence entre les valeurs prédites par les deux régressions est bien égale aux effets causaux moyens de l’intervention dans toute la population.
A.17.2 Cette technique est-elle utilisable en pratique ?
Pour pouvoir utiliser cette technique d’estimation qui s’apparente à une repondération, on souhaiterait connaître les valeurs du score de propension à partir desquelles sont définis les poids que l’on utilise, pour pouvoir ensuite passer par les étapes d’examen de la crédibilité de l’hypothèse de support commun et de mise à l’épreuve de la propriété équilibrante du score de propension. La question que l’on se pose est donc de savoir si cela est possible, ou en d’autres termes si on peut connaître les valeurs des poids \(\hat{omega}(d,x)\) que l’on utilise.
La réponse à cette question est positive : en revenant à la preuve précédente, on voit que l’on a : \[\hat{\omega}(d,x)=x'\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_i\right]\] Ces poids peuvent donc être exprimés en fonction de moyennes dans la population de variables observables et il sera donc possible de les estimer pour évaluer la qualité de l’estimation du score de propension à partir duquel on a en fait implicitement travaillé : \[\hat{p}(X_i)=\left\{\begin{array}{l} \frac{\mathbb{E}[D_i]}{\hat{\omega}(D_i, X_i)}\mbox{ si }D_i=1 \\ \frac{\hat{\omega}(D_i, X_i)-1+\mathbb{E}[D_i]}{\hat{\omega}(D_i, X_i)}\mbox{ si }D_i=0 \\ \end{array} \right.\]
Il est donc possible d’estimer les poids implicites que l’on utilise en faisant cette procédure, et le score de propension associé. On peut donc évaluer la pertinence de l’hypothèse de support commun, ainsi que la propriété équilibrante du score de propension.
On rencontre une dernière difficulté lorsque l’on cherche à évaluer celle-ci. En effet, si l’on fait la mise à l’épreuve de la propriété équilibrante du score de propension par repondération, en utilisant les poids implicites, alors la moyenne de n’importe quelle combinaison linéaire des variables incluses dans les régressions est exactement la même dans les deux groupes.
Cela peut se montrer facilement : si l’on considère un vecteur \(\gamma\), et que l’on s’intéresse à sa moyenne dans le groupe \(D_i\) avec la repondération utilisant les poids estimés : \[\begin{align} &\mathbb{E}\left[\hat{\omega}(d, X_i)X_i'\gamma\mid D_i=d\right] \nonumber \\ =&\mathbb{E}\left[\left\{X_i'\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_i\right]\right\}'X_i'\gamma\mid D_i=d\right] \nonumber \\ =&\mathbb{E}\left[\left\{\mathbb{E}\left[X_i\right]'\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}X_i\right\}X_i'\gamma\mid D_i=d\right] \nonumber \\ =&\mathbb{E}\left[X_i\right]'\mathbb{E}\left[X_iX_i' \mid D_i=d\right]^{-1}\mathbb{E}\left[X_iX_i'\mid D_i=d\right]\gamma \nonumber \\ =&\mathbb{E}\left[X_i\right]'\gamma \nonumber \\ =&\mathbb{E}\left[X_i'\gamma\right] \nonumber \\ \end{align}\] où la première égalité remplace les poids implicites par leur expression, la deuxième renvoie au fait que pour deux matrices \(A\) et \(B\), \((AB)'=B'A'\), la troisième utilise la linéarité de l’espérance conditionnelle, la quatrième procède à une simplification algébrique et la dernière exploite de nouveau la linéarité de l’espérance.
Cela implique en particulier qu’indépendamment de la qualité de l’estimation implicite du score de propension, si on met à l’épreuve la qualité de l’estimation en utilisant les poids estimés, alors l’écart après repondération entre les groupes définis par la variable d’intervention est mécaniquement toujours nul lorsque l’on considère les moyennes des composantes des variables incluses dans les régressions. Pour autant la propriété équilibrante qui porte sur toute la distribution des variables de conditionnement peut ne pas être vraie.
Pour pallier à ce problème, on peut ou bien ne pas passer par la repondération lorsque l’on met à l’épreuve la propriété équilibrante, et utiliser plutôt par exemple une approche par stratification, ou bien considérer plutôt des quantiles, par exemple la médiane, pour les variables continues, et lorsque l’on considère des variables dichotomiques s’intéresser plutôt à des interactions non-incluses dans les régressions.