4.2 Sous quelles hypothèses contrôler les facteurs confondants permet-il d’identifier des effets causaux ?

4.2.1 Un cas idéal : l’expérience aléatoire stratifiée

L’exemple de l’étude des admissions à Berkeley montre que l’usage des comparaisons de moyenne entre groupes repose toujours peu ou prou sur l’assimilation de la situation empirique à une expérience aléatoire contrôlée. Ainsi, l’interprétation causale de la comparaison de l’ensemble des candidatures entre femmes et hommes au niveau de l’université revient à supposer une étape fictive entre l’envoi des candidatures et la réception par l’université, au cours de laquelle un sexe serait attribué aléatoirement à chaque candidature, avec une distribution de probabilité qui est la même pour toute les candidatures. L’interprétation causale de cette comparaison au niveau de chaque département revient à supposer que cet étape est faite séparément pour chaque département, avec une distribution de probabilité qui est la même pour toutes les candidatures reçues par un département, mais qui peut varier d’un département à un autre.

Avant de distinguer la crédibilité de l’assimilation d’une situation empirique à une expérience aléatoire contrôlée, il est nécessaire de clarifier le cadre conceptuel de cette comparaison. On suppose donc que l’on s’intéresse à une population d’individus indexé par \(i \in \mathcal{I}\), pour lesquels on étudie une certaine grandeur réelle \(Y_i\). Dans le cas de l’exemple des admissions à Berkeley, il s’agit simplement de dire que l’on s’intéresse à la population des candidatures adressées en graduate school à l’université en 1973, et que l’on étudie une variable \(Y_i\) propre à chaque candidature qui vaut 1 lorsque la candidature \(i\) est acceptée et 0 sinon.

En reprenant le cadre des résultats potentiels à la Neyman-Rubin, on suppose également que l’on s’intéresse à l’effet d’une intervention binaire indexée par les valeurs 0 et 1, et que l’on peut donner un sens aux valeurs potentielles de la variable d’intérêt \(Y_i(0)\) et \(Y_i(1)\). On se souvient, quitte à revenir à 3.2.1 que ces valeurs ne sont pas observées mais représentent des résultats contrefactuels de l’intervention. Ainsi, pour chaque individu \(i\) de la population d’intérêt, \(Y_i(0)\) correspond à la valeur que prendrait la grandeur qui lui est associé s’il ne recevait pas le traitement, et \(Y_i(1)\) correspond à la valeur qu’elle prendrait dans le cas contraire. Dés lors, \(Y_i(1)-Y_i(0)\) correspond à l’effet individuel de l’intervention, c’est-à-dire à la différence entre la valeur potentielle de la variable d’intérêt pour l’individu \(i\) s’il recevait l’intervention, et la valeur potentielle de la variable d’intérêt pour l’individu \(i\) s’il ne recevait l’intervention.

Dans l’exemple choisi, on peut considérer que l’intervention qui concerne chaque candidature 1 si cette candidature est (perçue par le jury d’admission comme) celle d’une femme, et 0 sinon. Dans ce cas, \(Y_i(1)\) est une variable qui vaut 1 si la candidature \(i\) serait acceptée si elle était perçue comme celle d’une femme, et 0 si dans les mêmes conditions cette candidature ne serait pas acceptée. La variable \(Y_i(0)\) concerne tout autant la candidature \(i\), mais désigne ses résultats potentiels si elle était perçue comme émanant d’un homme. Ainsi, l’effet causal individuel \(Y_i(1)-Y_i(0)\) peut prendre 3 valeurs possibles :

  • il vaut 1 si la candidature \(i\) serait acceptée si elle était perçue comme émanant d’une femme, mais pas si elle était perçue comme émanant d’un homme ;
  • il vaut 0 si le résultat serait le même qu’elle soit perçue comme émanant d’une femme ou d’un homme ;
  • il vaut -1 si elle serait refusée si elle était perçue comme émanant d’une femme, mais acceptée si elle était perçue comme émanant d’un homme.

Cette intervention, représentée par la variable \(D_i\), est assignée de la façon suivante. On suppose que l’expérimentateur (fictif) stratifie la population selon un vecteur des variables observables \(X_i\). À l’intérieur de chaque strate définie par une valeur \(x\) de \(X_i\), il réalise une expérience aléatoire contrôlée en assignant l’intervention avec une probabilité propre à cette strate, notée \(p(x):=\mathbb{P}(D_i=1 \mid X_i=x)\).

Dans le cas des admissions à Berkeley, ces strates ne sont autres que les différents départements de l’université : chaque candidature est adressée à un département en particulier, et il est donc tout à fait raisonnable d’associer à chaque candidature \(i\) une variable \(X_i\) qui contient l’information quant au département à laquelle cette candidature est adressée.

On observe donc en définitive \(Y_i:=D_i Y_i(1) + (1-D_i) Y_i(0)\) pour chaque individu, ainsi que la valeur de l’intervention \(D_i\) et la valeur des variables observables \(X_i\) qui ont servi à la stratification. En d’autres termes, en revenant à l’exemple considéré, on observe l’admission effective de chaque candidature, le sexe du candidat, et le département auquel la candidature est adressée.

4.2.2 Quantifier le biais de sélection dans la comparaison naïve

La comparaison naïve consiste à estimer la différence entre l’espérance de la variable d’intérêt dans le groupe auquel l’intervention a été assigné (\(D_i=1\)) et le groupe auquel l’intervention n’a pas été assigné (\(D_i=0\)). Formellement : \[\Delta^{\mbox{naïve}}:=\mathbb{E}[Y_i \mid D_i=1] - \mathbb{E}[Y_i \mid D_i=0]\] Dans le cas des admissions à Berkeley, cette quantité correspond bien à la différence entre la part d’admis parmi les candidatures émises par des femmes et la part d’admis parmi les candidatures émises par des hommes.

On peut décomposer cette quantité en utilisant la loi des espérances itérées (voir 1.3.3). En revenant à l’exemple empirique des admissions à Berkeley, cela revient simplement à se souvenir que le taux d’admission à Berkeley n’est autre que la moyenne pondérée des taux d’admission de chaque département de l’université, avec des poids qui correspondent à la part des candidatures adressées à chacun de ces départements : \[\begin{align}\Delta^{\mbox{naïve}} =& \sum_x \mathbb{E}[Y_i \mid D_i=1, \, X_i=x] \mathbb{P}(X_i=x \mid D_i=1) \nonumber\\ & \quad - \sum_x \mathbb{E}[Y_i \mid D_i=0, \, X_i=x] \mathbb{P}(X_i=x \mid D_i=0) \nonumber\\ \end{align}\] On se souvient ici qu’à l’intérieur de chaque strate, on regarde une expérience aléatoire contrôlée. Ainsi, tant que l’on reste bien à l’intérieur d’un groupe défini par une valeur \(x\) des variables observables qui ont servi à faire la stratification, l’intervention \(D_i\) est assignée indépendamment des valeurs potentielles de la variable \(Y_i\). Dans le cas des admissions à Berkeley, cela revient à dire que tant que l’on se place à l’intérieur d’un département, le taux d’admission chez les femmes donne une estimation correcte de ce qu’aurait été le taux d’admission chez les hommes s’ils avaient été des femmes, et réciproquement. On peut donc passer d’une égalité qui portait sur des valeurs observées de la variable d’intérêt chez des groupes définis par la valeur de la variable d’intervention à une égalité qui porte sur les valeurs potentielles de la variable d’intérêt dans toute la population : \[\begin{align}\Delta^{\mbox{naïve}} = &\sum_x \mathbb{E}[Y_i(1) \mid X_i=x] \mathbb{P}(X_i=x \mid D_i=1) \nonumber \\ &- \quad \sum_x \mathbb{E}[Y_i(0) \mid X_i=x] \mathbb{P}(X_i=x \mid D_i=0) \nonumber\\ \end{align}\] En regroupant les termes, on a donc :

\[\begin{align} \Delta^{\mbox{naïve}} = & \sum_x \left\{\mathbb{E}[Y_i(1) \mid X_i=x] -\mathbb{E}[Y_i(0) \mid X_i=x] \right\} \mathbb{P}(X_i=x \mid D_i=1) \nonumber \\ & \quad + \sum_x \mathbb{E}[Y_i(0) \mid X_i=x]\left\{\mathbb{P}(X_i=x \mid D_i=1) - \mathbb{P}(X_i=x \mid D_i=0)\right\} \nonumber \\ \end{align}\]

Le premier terme de cette somme peut être regroupé en utilisant la linéarité de l’espérance conditionnelle et la loi des espérances itérées : il est égal à l’effet moyen de l’intervention pour ceux qui ont été sélectionnés pour l’intervention, c’est-à-dire \(\mathbb{E}[Y_i(1)-Y_i(0) \mid D_i=1]\). Un raisonnement en tout point similaire, mais avec un regroupement légèrement différent des termes donne : \[\begin{align} \Delta^{\mbox{naïve}} = & \sum_x \mathbb{E}[Y_i(1) \mid X_i=x]\left\{\mathbb{P}(X_i=x \mid D_i=1) -\mathbb{P}(X_i=x \mid D_i=0) \right\} \nonumber\\ &\quad + \mathbb{E}[Y_i(1) - Y_i(0) \mid D_i=0] \nonumber \\ \end{align}\]

Comme \(\Delta^{\mbox{naïve}}=\mathbb{P}(D_i=1)\Delta^{\mbox{naïve}}+(1-\mathbb{P}(D_i=1))\Delta^{\mbox{naïve}}\), on peut sommer les deux égalités avec ces poids, et il vient en regroupant les termes grâce à la loi des espérances itérées : \[\begin{align} \Delta^{\mbox{naïve}}=& \,\mathbb{E}[Y_i(1)-Y_i(0) \mid D_i=1] \nonumber \\ & \quad +\left\{1-\mathbb{P}(D_i=1)\right\} \left\{\mathbb{E}[Y_i(1)-Y_i(0) \mid D_i=1]-\mathbb{E}[Y_i(1)-Y_i(0) \mid D_i=0]\right\} \nonumber \\ & \quad + \sum_x \mathbb{E}[Y(0) \mid X_i=x]\left\{\mathbb{P}(X_i=x \mid D_i=1) - \mathbb{P}(X_i=x \mid D_i=0)\right\} \nonumber \\ \end{align}\]

Ainsi, la comparaison naïve des groupes définis par l’assignation du traitement, c’est-à-dire dans l’exemple choisi la comparaison des taux d’admission entre femmes et hommes est égal à la somme de trois termes. Le premier correspond à l’effet causal moyen de l’intervention sur toute la population, qui est la quantité à laquelle il est fait implicitement référence lorsque l’on commente la comparaison naïve en la considérant comme montrant l’existance de pratiques discriminatoires dans la phase d’admission.

Le second tient au fait qu’en dehors de l’expérience aléatoire contrôlée, les effets moyens peuvent être hétérogènes : ainsi, la part d’hommes dont la candidature serait rejetée si elle émanait d’une femme n’est pas nécessairement égal à la part de femmes dont la candidature serait acceptée si elles étaient des hommes.

Enfin, le dernier terme provient de ce que le niveau de référence en l’absence d’intervention n’est pas le même selon que l’on considère le groupe ayant fait l’objet d’une intervention ou pas : \(\mathbb{E}[Y_i(0) \mid D_i=1] \neq \mathbb{E}[Y_i(0) \mid D_i=0]\). Cela provient d’une part de ce que le niveau de référence varie avec la strate : \(\mathbb{E}[Y_i(0) \mid X_i]\) n’est pas constante. Cela provient également de ce que la répartition des individus qui ont fait l’objet de l’intervention entre les différentes strates n’est pas la même que celle des individus qui n’ont pas fait l’objet de l’intervention : \(\mathbb{P}(X_i=x \mid D_i=1) \neq \mathbb{P}(X_i=x \mid D_i=0)\).

À retenir

Dans le cas de l’expérience aléatoire stratifiée, ou des situations empiriques qui s’y apparentent, la comparaison naïve des individus qui ont fait l’objet de l’intervention avec ceux qui n’ont pas fait l’objet de l’intervention est différente de l’effet moyen de l’intervention lorsque (i) le niveau de référence, en l’absence d’intervention, varie avec la strate considérée et (ii) la probabilité de faire l’objet de l’intervention dépend de la strate à laquelle chaque individu appartient.

Dans la situation empirique d’intérêt, cela vient de ce que les femmes candidatent à des départements plus sélectifs que les hommes. Si on assimile la situation à une forme de testing réalisé au niveau de chaque département, le taux d’admission des femmes si elles étaient des hommes dans un département donné est égal au taux d’admission des hommes dans ce département. Ainsi, le taux d’admission des femmes si elles étaient des hommes au niveau de l’université tout entière est égal à la moyenne de ces taux pris département par département, avec des poids égaux à la part des candidatures adressée à ces départements parmi les candidatures émises par des femmes, par opposition au taux d’admission des hommes au niveau de l’université qui est la moyenne des mêmes taux mais avec des poids égaux à la part des candidatures adressée à ces départements parmi les candidatures émises par des hommes. Comme les candidatures féminines sont davantage orientées vers des départements plus sélectifs, le taux contrefactuel d’admission des femmes si elles étaient des hommes, au niveau de l’université tout entière, est plus petit que le taux d’admission des hommes.

Le fragment de code suivant permet d’estimer le taux contrefactuel d’admission des femmes en graduate school à Berkeley si elles étaient des hommes, sous l’hypothèse que la situation est assimilable à un testing aléatoire réalisé séparément au niveau de chaque département.

#Il faut simplement sommer les taux d'admission des hommes dans les différents
# départements, avec des poids proportionnels au nombre de candidatures 
# adressées à chaque département par des femmes.
taux_contrefactuel<-100*(
  1-
    sexbias_dat_dpt[,
                    list(taux_contrefactuel=
                           sum(selectivite_hommes*
                                 part_femmes*
                                 taille)/
                           sum(part_femmes*
                                 taille))])
taux_contrefactuel
##    taux_contrefactuel
## 1:           30.24544
#On peut le comparer au taux effectif d'admission des hommes, c'est-à-dire au
# contrefactuel de la comparaison naïve
sexbias_dat[Gender=="Male",
            list(part=sum(as.numeric(Admit=="Admitted")*
                            N)/
                   sum(N)*
                   100)]
##        part
## 1: 44.51877
#On peut aussi le comparer au taux effectif d'admission des hommes
sexbias_dat[Gender=="Female",
            list(part=sum(as.numeric(Admit=="Admitted")*
                            N)/
                   sum(N)*
                   100)]
##        part
## 1: 30.35422

4.2.3 Deux hypothèses cruciales

Cette sous-section vise à clarifier les deux hypothèses cruciales sur lesquelles repose l’identification des effets causaux moyens dans le cas de l’expérience stratifiée.

4.2.3.1 Indépendance conditionnelle

À retenir

Dans le cas de l’expérience aléatoire stratifiée, l’assignation à l’intervention est indépendante des valeurs potentielles de la variable d’intérêt à l’intérieur de strates décrites par les valeurs prises par les caractéristiques observables.

En effet, à l’intérieur de chaque strate définie par une valeur prise par les caractéristiques observables \(X_i\), la situation se ramène à une expérience aléatoire simple : l’assignation à l’intervention \(D_i\) est faite par l’expérimentateur (fictif) qui utilise un générateur aléatoire pour assigner l’intervention aux différents individus d’une façon qui ne dépend plus d’aucune caractéristique – observable ou inobservable – des individus, et donc en particulier qui ne dépend pas des valeurs potentielles de la variable d’intérêt \((Y_i(1), Y_i(0))\). Formellement, on écrit : \[(Y_i(1), Y_i(0)) \perp \!\!\! \perp D_i \mid X_i\]

Cette hypothèse permet d’assurer qu’à l’intérieur de chaque strate définie par une valeur possible \(x\) des caractéristiques observables, la comparaison des individus ayant fait l’objet de l’intervention avec ceux qui ne l’ont pas été identifie bien l’effet causal moyen de l’intervention dans cette strate.

Dans l’exemple de l’admission en graduate school à Berkeley, c’est cette hypothèse qui permet donc d’interpréter la différence entre les taux d’admission des femmes et le taux d’admission des hommes au niveau de chaque département comme l’effet causal moyen du sexe sur l’admission. Le fragment de code suivant permet d’estimer cet effet causal moyen spécifique à chaque département, mesuré en points de pourcentage. Cet effet moyen est égal à la part de femmes qui ont été admises, mais ne l’auraient pas été si leur candidature avait été celle d’un homme, ou de façon équivalente, la part d’hommes qui n’ont pas été admis, mais l’auraient été si leur candidature avait émané d’une femme.

#On fait la différence entre le taux d'admission des femmes et celui des 
# hommes à l'intérieur de chaque département
sexbias_dat_dpt[,
                effet_causal_moyen:=
                  ((1-selectivite_femmes)
                   -(1-selectivite_hommes))*100]
sexbias_dat_dpt[,c("Dept",
                   "effet_causal_moyen")]
##    Dept effet_causal_moyen
## 1:    A          20.346801
## 2:    B           4.964286
## 3:    C          -2.858996
## 4:    D           1.839808
## 5:    E          -3.830116
## 6:    F           1.140000

4.2.3.2 Support commun

Toujours en partant de l’exemple empirique des admissions à Berkeley, imaginons que l’on rencontre un département qui ne recevrait que des candidatures féminines. Dans ce cas, la différence entre les taux d’admissions pour les candidatures émanant de femmes et pour les candidatures émanant d’hommes n’est pas définie, et ne peut pas être observée dans les données. Ainsi, quand bien même l’hypothèse d’indépendance conditionnelle est vérifiée, c’est-à-dire quand bien même chaque département recevrait des candidatures féminines et masculines de valeur égale, on ne pourrait pas identifier l’effet causal moyen du sexe sur la décision d’admission pour ce département particulier. Dans la mesure où l’effet causal au niveau de l’université dépend de ce qui se passe pour chacun de ces départements, cette impossibilité concerne également l’identification de l’effet causal moyen du sexe sur la décision d’admission au niveau de l’université de Berkeley prise toute entière.

L’hypothèse d’indépendance conditionnelle est donc cruciale pour pouvoir interpréter les différences entre groupes comme des effets causaux moyens, mais elle n’est cependant pas suffisante pour inférer la valeur de ces effets causaux à partir de données.

Dans le cas général, on pourrait en effet imaginer une situation dans laquelle, pour une certaine strate définie par la valeur \(x\) prise par les caractéristiques observables, tous les individus sont assignés à l’intervention. Formellement, cela implique \(\mathbb{P}(D_i=1 \mid X_i=x)=1\). Le problème est alors que quelque soit la quantité de données que l’on collecte, il n’est jamais possible d’acquérir de l’information sur le niveau de référence, en l’absence d’intervention, de la variable d’intérêt dans cette strate : dans la différence \(\mathbb{E}[Y_i \mid D_i=1,\, X_i=x]-\mathbb{E}[Y_i \mid D_i=0,\, X_i=x]\), il n’est pas possible de connaître même de façon approximative le terme \(\mathbb{E}[Y_i \mid D_i=0,\, X_i=x]\).

Inversement, le même problème se poserait dans le cas d’une strate où l’on n’aurait que des individus n’ayant pas fait l’objet de l’intervention. Dans ce cas, le problème est que l’on ne peut pas acquérir d’information sur la valeur potentielle de la variable d’intérêt si les individus de cette strate étaient traités \(\mathbb{E}[Y_i \mid D_i=1,\, X_i=x]\).

À retenir

Dans le cas de l’expérience aléatoire stratifiée, on ne peut identifier les effets causaux moyens conditionnels qu’à l’intérieur des strates dans lesquels la probabilité d’assignation de l’intervention est comprise strictement entre 0 et 1.

Remarque

Cette hypothèse de support commun s’apparente en un sens à la condition de rang rencontrée dans le contexte des régressions linéaires (voir 2.2). Par exemple, si l’on n’a que deux strates, \(X_i=0\) et \(X_i=1\), et que tous les individus de \(X_i=1\) font l’objet de l’intervention, alors l’interaction \(D_iX_i\) est colinéaire à \(D_i\) (ces deux variables aléatoires sont en fait égales entre elles).

Remarque

L’hypothèse de support commun interdit une des interprétation fallacieuses que l’on trouve parfois de l’approche qui consiste à conditionner sur certaines caractéristiques observables pour identifier les effets causaux moyens d’une intervention. Selon cette interprétation fallacieuse, il faudrait conditionner sur tous les facteurs susceptibles de déterminer l’intervention, de sorte que celle-ci ne dépend que des variables de conditionnement. C’est pourtant incompatible avec l’hypothèse de support commun ! Si l’intervention ne dépend que des valeurs des variables de conditionnement, alors à l’intérieur d’une strate définie par une des valeurs prises par ces variables, on n’a ou bien que des individus qui ont fait l’objet de l’intervention, ou bien que des individus qui n’en ont pas fait l’objet, et l’hypothèse de support commun est fausse.

4.2.4 Quantités identifiées

Les deux hypothèses précédentes permettent donc de s’assurer que (i) au sein de chaque strate définie par une valeur prise par les caractéristiques observables, la comparaison des individus qui ont fait l’objet de l’intervention, et de ceux qui n’en ont pas fait l’objet identifie un effet causal moyen de l’intevention spécifique à cette strate et (ii) que cette comparaison peut être menée à partir des données disponibles. Pour retrouver l’effet causal moyen de l’intervention au sein de la population, il ne reste donc plus qu’à agréger les contrastes avec un choix de poids appropriés, ce qui est en principe faisable à partir des données

À retenir

Sous les hypothèses d’indépendance conditionnelle et de support commun, il est possible d’identifier l’effet causal moyen de l’intervention sur toute la population. Cet effet causal moyen est égal à la moyenne des contrastes mesurés dans chacune des strates définies par les valeurs prises par les caractéristiques observables, avec des poids proportionnels à la taille de ces strates dans la population.

L’effet causal moyen sur toute la population n’est pas la seule quantité identifiée. En effet, en changeant juste légèrement les poids avec lesquels on agrège les contrastes conditionnels, on peut tout aussi bien identifier l’effet causal moyen pour les individus qui ont fait l’objet de l’intervention. Il en va de même pour l’effet causal moyen pour les individus qui n’ont pas fait l’objet de l’intervention. Dans ces deux cas, on peut même un peu relâcher l’hypothèse de support commun. En effet, pour identifier l’effet causal moyen chez les individus qui ont fait l’objet de l’intervention, on ne va avoir besoin que de l’information sur les strates dans lesquelles il y a des individus qui font effectivement l’objet de l’intervention, et donc avoir des strates dans lesquelles il n’y a que des individus qui ne font pas l’objet de l’intervention n’est pas un problème tant que pour toutes celles où il y a des individus affectés il y a aussi des individus non-affectés à qui les comparer. Un raisonnement analogue tient pour l’effet causal moyen pour les individus qui n’ont pas fait l’objet de l’intervention.

À retenir

Sous les hypothèses d’indépendance conditionnelle et de support commun, il est possible d’identifier l’effet causal moyen de l’intervention pour la sous-population des individus qui font l’objet de l’intervention, ou pour la sous-population des individus qui n’ont pas fait l’objet de l’intervention. Ces effets causaux moyens sont égaux à la moyenne des contrastes mesurés dans chacune des strates définies par les valeurs prises par les caractéristiques observables, avec des poids proportionnels à la taille de ces strates dans chacune de ces sous-populations.

Une preuve des ces résultats est détaillée en Annexe A.13.

Le fragment de code suivant propose une façon d’estimer ces quantités dans le cas des admissions à Berkeley. Dans ce cas l’effet causal moyen sur toute la population correspond à la différence entre la part de candidatures de candidatures acceptées si toutes les candidatures émanaient de femmes, et la même part si toutes les candidatures émanaient d’hommes, à dossiers de candidatures et pratique de recrutement inchangées14. L’effet causal moyen sur la population qui fait l’objet de l’intervention (fictive) de changement de sexe sur le dossier de candidature est égal à la différence entre la part de femmes acceptées, et la part de leurs dossiers qui auraient été acceptées s’ils avaient été émis par des hommes. L’effet causal moyen sur la population qui n’a pas fait l’objet de l’intervention est égal à la différence entre la part des dossiers des hommes qui auraient été acceptés s’ils avait été envoyés par des femmes, et la part des hommes effectivement admis.

#Pour l'effet causal moyen sur toute la population, il faut faire la moyenne
# des différences entre les taux d'admission des femmes et des hommes dans
# chaque département avec des poids proportionnels au nombre total de 
# candidatures reçues

ATE<-sexbias_dat_dpt[,
                     list(ATE=sum(100*(
                       (1-selectivite_femmes)-
                         (1-selectivite_hommes))*
                         taille)/
                         sum(taille))]
ATE
##        ATE
## 1: 4.26368
#Pour l'effet causal moyen chez les femmes, il faut utiliser des poids 
# proportionnels au nombre de candidatures féminines reçues par chaque 
# département
ATT<-sexbias_dat_dpt[,
                     list(ATT=sum(100*(
                       (1-selectivite_femmes)-
                         (1-selectivite_hommes))*
                         taille*
                         part_femmes)/
                         sum(taille*
                               part_femmes))]
ATT
##         ATT
## 1: 0.108779
#Pour l'effet causal moyen chez les hommes, il faut utiliser des poids 
# proportionnels au nombre de candidatures masculines reçues par chaque 
# département
ATU<-sexbias_dat_dpt[,
                     list(ATU=sum(100*(
                       (1-selectivite_femmes)-
                         (1-selectivite_hommes))*
                         taille*
                         (1-part_femmes))/
                         sum(taille*
                               (1-part_femmes)))]
ATU
##         ATU
## 1: 7.096918
#On peut vérifier que l'ATE est bien égal à la moyenne pondérée de l'ATT et de 
# l'ATU avec des poids égaux aux parts respectives des deux sous-populations
# dans l'ensemble des candidatures
effectifs_sexe<-sexbias_dat[,
                            list(effectif=sum(N)),
                            by="Gender"]
ATE_calcul_alternatif<-
  (effectifs_sexe[Gender=="Male"]$effectif*ATU$ATU+
     effectifs_sexe[Gender=="Female"]$effectif*ATT$ATT)/
  (sum(effectifs_sexe$effectif))
all.equal(as.numeric(ATE),
          ATE_calcul_alternatif)
## [1] TRUE

  1. On voit ici qu’on tombe dans une hypothèse problématique qui tient à l’indépendance des décisions d’admission entre elles. En effet, il est plus probable que l’université, ou chaque département ait un lot de places à allouer, de sorte que changer complètement la composition de la population du point de vue du sexe changerait aussi probablement les probabilités conditionnelles d’admission.↩︎