3.2 Un cadre formel : les résultats potentiels d’une intervention
En vertu de ce qui précède, une proposition causale est donc une proposition qui compare les situations potentielles d’entités homologues entre elles dans des mondes possibles différents définis par une variation contrefactuelle. Cette définition sert de fondement à l’un des formalismes mathématiques les plus couramment utilisés pour l’inférence causale.Ce formalisme, développé initialement dans les années 1920 par Jerzy Neyman (Splawa-Neyman, Dabrowska et Speed (1990)) pour l’étude d’expériences agronomiques a été depuis précisé par Donald Rubin. Il est connu sous plusieurs noms, par exemple modèle des résultats potentiels, modèle de Neyman-Rubin.
L’intérêt de ce formalisme ne tient pas à ce qu’il permet de préciser les concepts de monde possible ou de variation contrefactuelle. Selon la portée de l’interrogation qui le concerne, celle-ci est du ressort ou bien de la théorie locale de l’objet d’intérêt de la ou du sociologue, ou bien d’un questionnement philosophique, qui sont tous les deux en dehors du champ que ce support entend couvrir. L’avantage de ce formalisme est plutôt qu’étant donné une définition convenable de cette variation contrefactuelle, il permet ;
- de clarifier les quantités inobservables qui sont l’objet de l’investigation ;
- de mettre en évidence les liens entre ces quantités inobservables et les quantités observées à la disposition de la chercheuse ou du chercheur.
3.2.1 Cas de l’intervention simple
Dans son article de 1923, Neyman cherche à formaliser ce en quoi consiste une expérience agricole. Pour cela, il considère un champ divisé en \(m\) parcelles dont on examine les rendements \(Y_1\), \(Y_2\), \(\dots\), \(Y_m\). La question que l’on se pose est celle du choix entre deux variétés de plants, que l’on peut noter \(0\) et \(1\).
Pour ce faire, on peut considérer en amont des rendements réalisés \(Y_1\), \(Y_2\), \(\dots\), \(Y_m\) les rendements potentiels des différentes parcelles, c’est-à-dire d’une part les quantités \(Y_1(0)\), \(Y_2(0)\), \(\dots\), \(Y_m(0)\) qui sont les rendements qu’aurait chacune des \(m\) parcelles si elles étaient plantées avec la variété \(0\), et d’autre part les quantités \(Y_1(1)\), \(Y_2(1)\), \(\dots\), \(Y_m(1)\) qui sont les rendements qu’aurait chacune des \(m\) parcelles si elles étaient plantées avec la variété \(1\). Les rendements que l’on observe in fine sont donc : \[Y_i := \left\{\begin{array}{l} Y_i(0) \mbox{ si la parcelle }i\mbox{ est plantée avec la variété }0 \\ Y_i(1) \mbox{ si la parcelle }i\mbox{ est plantée avec la variété }1 \\ \end{array}\right.\] ou encore, en notant \(D_i\) la variété avec laquelle la parcelle \(i\) est plantée : \[Y_i:=D_i Y_i(1) + (1-D_i)Y_i(0)\]
Parce que les conditions d’ensoleillement, de sol ou d’irrigation diffèrent d’une parcelle à l’autre, il n’y a pas lieu a priori de supposer que ces rendements sont les mêmes pour toutes les parcelles, ni qu’une des deux variétés est par exemple systèmatiquement supérieure à l’autre. Au contraire, il semble bien plus conforme à l’intuition que, selon la parcelle considérée, une variété soit bien plus adaptée que l’autre, et que celle-ci ne soit pas la même pour toutes les parcelles. On peut récapituler tout ce qui précède sous la forme d’un exemple, en imaginant que le champ est composé de 4 parcelles :
Parcelle | \(Y_i(0)\) | \(Y_i(1)\) | \(D_i\) | \(Y_i\) |
---|---|---|---|---|
1 | 5 | 8 | 0 | 5 |
2 | 7 | 7 | 1 | 7 |
3 | 5 | 3 | 1 | 3 |
4 | 6 | 5 | 0 | 6 |
Ce tableau associe à chacune des quatre parcelles les valeurs potentielles que prendraient les rendements selon la variété que l’on y planterait. Ces valeurs diffèrent d’une parcelle à l’autre, parce que celles-ci sont exposées à des conditions différentes, par exemple d’ensoleillement ou de sol. Pour chacune de ces parcelles, le tableau fait apparaît la variété qui a finalement été sélectionnée. Le rendement que l’on observe in fine est la valeur potentielle du rendement de chaque parcelle pour la valeur choisie.
Ce formalisme est bien entendu bien plus général que le seul champ de la statistique agricole. De façon générale, lorsque l’on s’intéresse aux conséquences d’une intervention simple – ici le choix d’une variété à planter – sur une certaine quantité – ici les rendements – au sein d’une population – ici les parcelles du champ – on est conduit à considérer les valeurs potentielles de la quantité d’intérêt pour chaque individu de la population selon que celui-ci a fait ou pas l’objet de l’intervention. Formellement, cela revient à considérer que l’on peut associer à chaque individu \(i\) de la population un couple de valeurs \((Y_i(0),\, Y_i(1))\) qui correspond aux valeurs potentielles de la quantité d’intérêt, mais que l’on n’observe in fine qu’une seule de ces deux valeurs.
La portée de ce formalisme est très large. Il permet ainsi de considérer beaucoup de problèmes qui concernent des populations de nature a priori très distinctes – les parcelles d’un champ, mais aussi en sciences sociales par exemple des populations humaines, des entreprises, des régions –, des quantités d’intérêt a priori différentes – les rendements agricoles, mais aussi par exemple en sciences sociales la décision de participer au marché du travail, la performance des entreprises, la mortalité dans une zone géographique –, des interventions très variées – le choix d’une variété à planter, mais aussi par exemple en sciences sociales la décision d’avoir un enfant, le recrutement de dirigeants d’entreprise ayant reçu une certaine formation, l’installation d’un équipement de santé.
À retenir
Lorsque l’on s’intéresse à l’effet d’une certaine intervention binaire au sein d’une population indexée par \(i \in \mathcal{I}\) sur une certaine quantité \(Y_i\), on associe à chaque individu \(i\) un couple de valeurs potentielles \((Y_i(0), \, Y_i(1))\), c’est-à-dire le couple de valeurs que la quantité \(Y_i\) prendrait selon que \(i\) ferait l’objet ou non de l’intervention. On observe in fine une seule de ces deux valeurs, à savoir \(Y_i(0)\) si \(i\) ne fait pas l’objet de l’intervention, et \(Y_i(1)\) si \(i\) fait l’objet de l’intervention.
3.2.2 Cas général
Le paragraphe précédent couvre le cas de l’intervention simple, pour laquelle la distinction pertinente entre situations contrefactuelles est celle qui sépare les situations où un individu de la population fait, et celles où il ne fait pas, l’objet de l’intervention. Si le domaine d’application en est déjà assez vaste, ce cas ne permet pas d’aborder des questions plus complexes pour lesquelles l’intervention étudiée ne peut pas être facilement résumée par une variable dichotomique qui vaut 0 ou 1.
Un cas typique de cette situation est celui des interventions pour lesquelles existe une dimension d’intensité. Un exemple très caractéristique serait l’étude de la décision d’acheter ou non un bien ou un service en fonction de son prix. Ici, résumer l’intervention en une variable dichotomique est en général dépourvu de sens, et l’on voudrait plutôt pouvoir examiner l’ensemble des valeurs possibles pour le prix. Un autre exemple serait l’étude des conséquences de la décision de suivre tel ou tel parcours scolaire. Dans ce cas, il y a d’une part une dimension d’intensité qui pourrait correspondre aux nombres d’années d’études, et d’autre part éventuellement des comparaisons possibles entre parcours différents dont la durée est la même (par exemple parce qu’ils relèvent de disciplines différentes).
Dans ce cas, l’ensemble des valeurs possibles de l’intervention ne peut pas être ramené à l’ensemble \(\{0,\,1\}\). Selon les cas, on choisira plutôt d’indexer les valeurs possibles de l’intervention par un ensemble plus vaste. Par exemple, s’il s’agit d’étudier les conséquences de la fixation du prix d’un bien ou d’un service à un certain niveau, il semble naturel de considérer que l’ensemble des valeurs possibles de l’intervention s’identifie à l’ensemble des nombres réels strictement positifs \(\mathbb{R}_+^*\). Si l’on étudie la décision d’acheter ce bien ou ce service en fonction de ce prix dans une population d’acheteurs potentiels, on attachera alors à chacun de ces acheteurs potentiels notés \(i\) la fonction \(q_i\) qui à chaque valeur possible du prix \(p\) associe \(q_i(p)\) le nombre d’unités de ce bien ou de ce service que l’acheteur \(i\) achèterait si la valeur du prix était \(p\).
Plus généralement, après avoir indexé chaque valeur possible de l’intervention par les éléments \(x\) d’un ensembe \(\mathcal{X}\) on associera à chaque individu de la population une fonction de réponse qui associe à chaque \(x\) la valeur potentielle de quantité d’intérêt qui serait la sienne dans le monde contrefactuel dans lequel \(i\) ferait l’objet de l’intervention de valeur \(x\).
À retenir
Lorsque l’on s’intéresse à l’effet d’une certaine intervention décrite par les éléments \(x\) d’un ensemble \(\mathcal{X}\) au sein d’une population indexée par \(i \in \mathcal{I}\) sur une certaine quantité \(Y_i\), on associe à chaque individu \(i\) la fonction \(Y_i()\) qui associe à chaque valeur \(x\) de \(\mathcal{X}\) la valeur que prendrait \(Y_i\) dans le monde contrefactuel dans lequel l’individu \(i\) ferait l’objet de l’intervention \(x\), notée \(Y_i(x)\). On observe in fine un seul élément de l’ensemble des valeurs potentielles \(\{Y_i(x)\}_{x \in \mathcal{X}}\), à savoir \(Y_i(X_i)\), c’est-à-dire la valeur potentielle de \(Y_i\) dans le monde contrefactuel dans lequel \(i\) fait l’objet de l’intervention dont la valeur est égale à l’intervention observée ; ce monde contrefactuel s’identifie au monde observé.
3.2.3 Notions d’effet causal individuel
On a ainsi formalisé les valeurs potentielles de la quantité d’intérêt. Comme on l’a vu précédemment, les propositions causales sont des comparaisons de ces valeurs potentielles. Formaliser la définition d’un effet causal revient donc simplement à formaliser une certaine façon de comparer entre elles ces valeurs potentielles.
3.2.3.1 Cas de l’intervention simple
En revenant à l’exemple traité par Neyman (voir 3.2.1), on suppose que l’on considère une certaine parcelle \(i\) d’un champ en s’intéressant aux conséquences sur le rendement du choix de la variété à y planter, entre deux variétés possibles. On associe donc à cette parcelle un couple \((Y_i(0), \, Y_i(1))\) de valeurs, où \(Y_i(0)\) correspond au rendement potentiel de la parcelle \(i\) si l’on choisit la première variété, et \(Y_i(1)\) est le rendement potentiel de la parcelle \(i\) si l’on choisit la seconde.
On définit souvent l’effet causal individuel du choix de la seconde variété pour la parcelle \(i\) comme la différence entre ces deux valeurs potentielles : \(\alpha_i:=Y_i(1)-Y_i(0)\). En d’autres termes, cette quantité répond à la question : de combien le rendement de la parcelle \(i\) serait-il plus élevé en choisissant la seconde variété plutôt que la première ?
On peut faire apparaître cette quantité dans le tableau de l’exemple des parcelles :
Parcelle | \(Y_i(0)\) | \(Y_i(1)\) | \(\alpha_i\) | \(D_i\) | \(Y_i\) |
---|---|---|---|---|---|
1 | 5 | 8 | 3 | 0 | 5 |
2 | 7 | 7 | 0 | 1 | 7 |
3 | 5 | 3 | -1 | 1 | 3 |
4 | 6 | 5 | -1 | 0 | 6 |
Il faut comprendre ici que ce choix est essentiellement conventionnel. On aurait par exemple tout aussi bien pu considérer un effet multiplicatif en optant pour une définition du type \(\beta_i:=\frac{Y_i(1)}{Y_i(0)}\). Cette quantité répond à une question légèrement différente de la première : par combien le rendement de la parcelle \(i\) serait-il multiplié en choisissant la seconde variété plutôt que la première ? Le choix de considérer un effet additif ou multiplicatif (ou encore une autre définition) est une décision de la chercheuse ou du chercheur, et dépend éventuellement de la théorie que l’on a de l’objet que l’on aborde, mais ne se résout pas statistiquement.
Il y a tout de même en général plusieurs arguments pour privilégier une définition additive :
- par linéarité de la moyenne et de l’espérance, cela facilite le passage des effets individuels aux effets à l’échelle de la population ;
- l’effet multiplicatif n’est correctement défini qu’à condition que \(Y_i(0)\) ne puisse jamais être nul, ou au moins à condition que \(Y_i(1)\) soit toujours nul lorsque \(Y_i(0)\) est nul, ce qui peut s’avérer une hypothèse trop restrictive.
À retenir
Dans le cas de l’intervention simple, l’effet causal individuel de l’intervention pour un certain individu \(i\) de la population étudiée est la différence entre la valeur potentielle de la quantité d’intérêt pour \(i\) si cet individu faisait l’objet de l’intervention, et la valeur potentielle de la quantité d’intérêt pour \(i\) si cet individu ne faisait pas l’objet de l’intervention.
3.2.3.2 Cas de l’intervention unidimensionnelle discrète
La définition précédente s’applique au cas de l’intervention simple. Il n’existe pas de définition conventionnelle appliquable au cas le plus général. En revanche, on peut considérer plusieurs autres cas, en particulier pour les interventions pour lesquelles existe une dimension d’intensité. Parmi ces cas, il est intéressant de distinguer les cas où cette intensité peut prendre des valeurs entières. Un exemple de cette situation serait celle de l’étude des conséquences de l’éducation assurée par le système scolaire, où celle-ci serait simplement ramenée au nombre d’années passées dans le système scolaire.
Dans ce cas, à chaque élève potentiel dans la population on peut associer par exemple la fonction qui associe à chaque nombre potentiel d’années passées dans le système scolaire \(n\) la valeur potentielle de son salaire à 35 ans \(Y_i(n)\). Une quantité intéressante dans ce cas serait \(Y_i(n+1)-Y_i(n)\), qui correspond à la variation de salaire à 35 ans qui résulterait d’une année d’éducation supplémentaire.
Il faut noter qu’ici cette quantité dépend de la référence \(n\) choisie : de ce fait, on n’associe pas à chaque individu un unique effet causal individuel comme dans le cas précédent, mais bel et bien une fonction qui à chaque valeur \(n\) possible associe l’effet causal d’une augmentation d’un an de la durée passée dans le système scolaire \(Y_i(n+1)-Y_i(n)\).
3.2.3.3 Cas de l’intervention unidimensionnelle continue
Un autre cas intéressant est celui où l’intervention étudiée peut s’identifier à un intervalle de l’ensemble des nombres réels. Un exemple classique de telles interventions est la fixation d’un prix. Si l’on s’intéresse aux conséquences de cette fixation du prix sur la quantité achetée par une population d’acheteurs potentiels, on a vu que l’on pouvait associer à chacun de ces acheteurs potentiels indexés par \(i\) la fonction qui à chaque valeur potentielle du prix \(p\) la quantité \(q_i(p)\) que celui-ci achèterait si le prix était fixé à la valeur \(p\).
Une façon intéressante de quantifier l’effet causal de cette fixation du prix pour un certain acheteur \(i\) est alors de considérer la dérivée de cette fonction. En effet, la quantité \(q_i'(p)\) informe sur la variation de la quantité achetée par cet acheteur qui résulterait d’une petite variation du prix autour de la valeur \(p\) : si le prix était fixé à \(p+\delta p\), alors pour peu que \(\delta p\) soit suffisamment petit, la quantité du bien ou du service considérée achetée par l’acheteur potentiel \(i\) est bien approximée par \(q_i(p)+q_i'(p) \delta p\). En d’autres termes, \(q_i'(p)\) est ici la pente de la courbe de demande de l’acheteur potentiel \(i\) à la valeur \(p\). In fine, les quantités d’intérêt classique de l’économiste peuvent s’insérer sans difficulté dans ce cadre très général de formalisation des relations causales.
3.2.4 Problème fondamental de l’inférence causale
Les considérations précédentes permettent de clarifier ce que certains auteurs appellent problème fondamental de l’inférence causale. Ce problème est celui que visent à résoudre toutes les stratégies développées pour l’inférence causale. Il s’agit simplement de constater que parmi les multiples mondes possibles qui définissent les quantités d’intérêt, et en particulier les effets causaux d’une intervention, un seul est donné à l’observation. En d’autres termes, pour tout individu \(i\) de la population d’intérêt auquel on associe la fonction de réponse qui à toute valeur possible \(d\) de l’intervention associe la valeur potentielle \(Y_i(d)\), ce que l’on observe n’est pas cette fonction elle-même, mais seulement la valeur qu’elle prend pour la valeur réalisée de l’intervention \(Y_i(D_i)\).
Dans le cas du choix de la variété plantée dans l’expérience agricole, cela revient simplement à dire que l’on peut observer la valeur des rendements \(Y_i(1)\) pour les parcelles plantées avec la variété \(1\), mais que la valeur de \(Y_i(0)\) pour ce groupe reste inconnue. Inversement, on peut observer la valeur des rendements \(Y_i(0)\) pour les parcelles plantées avec la variété \(0\), mais la valeur \(Y_i(1)\) pour ce groupe reste inconnue. Par conséquent les effets causaux individuels du choix d’une variété plutôt qu’une autre ne peuvent jamais être connus.
Ce problème peut s’interpréter comme un problème de données manquantes. Cependant, au contraire des problèmes usuels de la statistique, il ne serait pas possible ici de résoudre ce problème en collectant des données de meilleures qualité, en particulier en augmentant le nombre d’observations. En effet, même utiliser des données exhaustives au niveau de la couverture de la population d’intérêt ne résout en rien le problème lié au fait que le statut de chaque individu de cette population vis-à-vis de l’intervention est déterminé de façon unique.
À retenir
Les effets causaux individuels ne peuvent jamais être observés directement. Cela vient de ce qu’il est impossible d’observer le même individu dans plusieurs situations contrefactuelles possibles relativement à l’intervention d’intérêt.
3.2.5 Effets causaux moyens
Du fait du problème fondamental de l’inférence causale, la plus grande partie de la littérature vise non pas à identifier les effets causaux individuels de telle ou telle intervention, mais plutôt les **effets causaux moyens* de celles-ci. Schématiquement, ces effets moyens sont simplement la moyenne des effets causaux individuels au niveau de la population d’intérêt, ou de certains sous-ensembles intéressants de celle-ci.
On peut repartir de l’exemple des effets causaux sur le rendement du choix de la variété plantée sur les parcelles :
Parcelle | \(Y_i(0)\) | \(Y_i(1)\) | \(\alpha_i\) | \(D_i\) | \(Y_i\) |
---|---|---|---|---|---|
1 | 5 | 8 | 3 | 0 | 5 |
2 | 7 | 7 | 0 | 1 | 7 |
3 | 5 | 3 | -2 | 1 | 3 |
4 | 6 | 5 | -1 | 0 | 6 |
Ici, l’effet causal moyen – Average Treatment Effect (ATE) en anglais – est simplement la moyenne des effets causaux individuels \(\alpha_i=Y_i(1)-Y_i(0)\). Formellement, on écrit \(ATE=\mathbb{E}[Y_i(1)-Y_i(0)]\). Dans le cas présent, on a \(ATE=0\). Cet effet est égal à la différence entre le rendement moyen que l’on obtiendrait en plantant toutes les parcelles avec la variété 1, et le rendement moyen que l’on obtiendrait en plantant toutes les parcelles avec la variété 0. Cet effet moyen est ici nul bien que les effets individuels ne soient pas toujours nuls : en moyenne, le choix de la variété est nul pour la population d’intérêt, mais il y a des parcelles qui bénéficient du choix de la variété 1, et d’autres pour lesquels ce choix est défavorable.
Deux autres effets causaux moyens régulièrement étudiés dans la littérature sont l’effet causal moyen pour les traités – Average Treatment effect on the Treated (ATT) en anglais et l’effet causal moyen sur les non-traités – Average Treatment effect on the Untreated (ATU). Dans le cas présent, il s’agit de l’effet causal moyen pour les parcelles effectivement plantées avec la variété 1 pour le premier, et avec la variété 0 pour le second. Formellement, on écrit \(ATT=\mathbb{E}[Y_i(1)-Y_i(0) \mid D_i=1]\) et \(ATT=\mathbb{E}[Y_i(1)-Y_i(0) \mid D_i=0]\). Ainsi, on a ici \(ATT=-1\) et \(ATU=1\).
3.2.6 Notion de biais de sélection
Il est toujours tentant lorsque l’on s’intéresse aux effets causaux d’une intervention de comparer les individus de la population d’intérêt selon la valeur de l’intervention dont ils font l’objet. Par exemple, toujours en revenant à la discussion de l’expérience agricole, il est très tentant de comparer les parcelles qui ont été plantées avec la variété 1 aux parcelles qui ont été plantées avec la variété 0.
Parcelle | \(Y_i(0)\) | \(Y_i(1)\) | \(\alpha_i\) | \(D_i\) | \(Y_i\) |
---|---|---|---|---|---|
1 | 5 | 8 | 3 | 0 | 5 |
2 | 7 | 7 | 0 | 1 | 7 |
3 | 5 | 3 | -2 | 1 | 3 |
4 | 6 | 5 | -1 | 0 | 6 |
Dans le cas présent, la différence de rendements moyens entre les deux groupes est -0.5. Cette quantité est différente des effets causaux moyens.
C’est en fait le cas en général, et la différence entre les effets causaux moyens et le contraste entre les groupes définis par la valeur de l’intervention est appelée biais de sélection. Ce biais provient de ce que la distribution des résultats potentiels de l’intervention, et donc l’espérance de ces résultats potentiels, n’a a priori pas de raison d’être la même entre les différents groupes, et encore moins la même que la distribution des résultats potentiels dans toute la population. Formellement, ce biais de sélection tient à ce que, pour toute valeur possible \(d\) de l’intervention, les quantités \(\mathbb{E}[Y_i(d)]\) et \(\mathbb{E}[Y_i \mid D_i=d]\) diffèrent. La première de ces quantités est la moyenne dans la population d’intérêt des résultats potentiels de l’intervention si toute la population recevait l’intervention de valeur \(d\). La seconde renvoie à la moyenne des résultats dans le groupe qui reçoit effectivement la valeur \(d\) de l’intervention. Sauf cas particulier, ces deux quantités n’ont pas de raison de coïncider.
Un cas particulièrement important de biais de sélection correspond à la situation où la décision de choisir une valeur plutôt qu’une autre pour l’intervention se fonde sur les conséquences anticipées de cette décision, à partir d’une information disponible pour la personne qui prend la décision mais pas pour la statisticienne ou le statisticien qui cherche à en identifier les effets causaux. Pour s’en rendre compte, on peut modifier légèrement l’exemple fictif de l’expérience agricole. On suppose à présent que la décision d’utiliser une variété plutôt qu’une autre est prise par un agriculteur qui connaît parfaitement à la fois les conditions d’ensoleillement, d’irrigation etc. de chaque parcelle et les bénéfices liés à l’emploi d’une variété plutôt qu’une autre selon ces conditions, et qui fait appel à cette information pour choisir pour chaque parcelle la variété qui maximise les rendements.
Formellement, cela revient à supposer que cet agriculteur omniscient est capable d’observer les rendements potentiels \(Y_i(0)\) et \(Y_i(1)\) pour chaque parcelle \(i\), et de choisir \(D_i=0\) si \(Y_i(0) \geq Y_i(1)\) et \(D_i=1\) sinon. Le tableau initial devient :
Parcelle | \(Y_i(0)\) | \(Y_i(1)\) | \(\alpha_i\) | \(D_i\) | \(Y_i\) |
---|---|---|---|---|---|
1 | 5 | 8 | 3 | 1 | 8 |
2 | 7 | 7 | 0 | 0 | 7 |
3 | 5 | 3 | -1 | 0 | 5 |
4 | 6 | 5 | -1 | 0 | 6 |
Dans ce cas, la différence de rendement moyen entre les parcelles traitées avec la variété 1 et les parcelles traitées avec la variété 0 est égale à 2. Cette quantité est différente des effets causaux moyens puisque l’on a toujours \(ATE=0\), \(ATT=1\) et \(ATT=-1\).
Les situations analogues de celle-ci sont fréquentes en sciences sociales. Ainsi, aussitôt que l’on se trouve devant un cas empirique dans lequel il semble raisonnable de supposer que les agents du monde social ont en général de bonnes raisons, a priori inobservées ou difficiles à mesurer, de prendre les décisions qu’ils prennent, on se trouve vraisemblablement dans une situation de ce type. Repérer ce genre de situation ne demande absolument pas de s’appuyer sur une version forte de la théorie du choix rationnel mais s’accommode en réalité de presque toutes les théories plausibles du monde social.
3.2.7 Le rôle central de l’expérience aléatoire contrôlée et de l’expérience naturelle
La situation n’est pas pour autant désespérée ! En effet, on sait qu’il existe des situations dans lesquelles comparer en moyenne les parcelles selon la variété qui y a été plantée renseigne sur les effets causaux moyens du choix de la variété. Ces situations sont toutes celles où ce choix est fait au hasard. En effet, dans ce cas ne dépend pas des valeurs potentielles des rendements de chaque parcelle. Formellement, on dit que l’assignation à une variété ou une autre est indépendante de ces valeurs potentielles.
Cette indépendance implique que la distribution des valeurs réalisées des rendements dans le groupe des parcelles qui ont été plantées avec la variété 1 est la même que la distribution des valeurs potentielles des rendements si la variété 1 avait été choisie pour toutes les parcelles considérées. En fait, la situation est de ce point de vue la même que si l’assignation aléatoire de la variété permettait de faire un sondage aléatoire – représentatif – des valeurs potentielles des rendements.
Il en va de même pour les valeurs réalisées des rendements dans le groupe des parcelles qui ont été plantées avec la variété 0 : cette distribution coïncide avec celle des valeurs potentielles des rendements si toutes les parcelles étaient plantées avec la variété 0. Dés lors, la différence entre les rendements moyens des parcelles plantées avec la variété 1 et les rendements moyens des parcelles plantées avec la variété 0 s’identifie aux effets causaux moyens du choix de la variété 1 plutôt que 0.
À retenir
Si l’intervention est le résultat d’une assignation aléatoire, alors la différence des valeurs moyennes réalisées entre les différents groupes définis par les valeurs de l’intervention identifie les effets causaux moyens du traitement.
Formellement, ce résultat dit que si \(D_i \perp \!\!\! \perp (Y_i(1), Y_i(0))\), c’est-à-dire si l’assignation à l’intervention est indépendante des valeurs potentielles de la variable d’intérêt, alors \(\mathbb{E}[Y_i \mid D_i=1] - \mathbb{E}[Y_i \mid D_i=0] = \mathbb{E}[Y_i(1) - Y_i(0)]\), c’est-à-dire que le contraste entre les deux groupes est égal aux effets causaux moyens de l’intervention dans la population.
Schématiquement, cette situation se rencontre dans deux grands types de cas.
- On peut faire une expérience aléatoire contrôlée, c’est-à-dire une expérience dans laquelle c’est la chercheuse ou le chercheur lui-même qui prend la décision d’assignation de l’intervention en faisant appel à l’aléa. L’avantage est ici assez clairement que le caractère aléatoire de l’assignation de l’intervention ne fait aucun doute pour elle ou lui, parce que c’est elle ou lui qui a pris la décision.
- On peut étudier une expérience naturelle, c’est-à-dire une situation où le monde social est ainsi fait que l’assignation à l’intervention se fait de façon aléatoire et indépendante des valeurs potentielles de la variable d’intérêt. C’est par exemple le cas lorsque l’on étudie des loteries ou des tirages au sort.
Remarque
Les expériences aléatoires contrôlées sont parfois considérées comme la meilleure, si ce n’est la seule façon d’obtenir de l’information sur les effets causaux d’une intervention. Si ce sentiment n’est pas toujours injustifié au regard de la simplicité des hypothèses que cette approche requiert, il ne tient pas compte ni des difficultés sérieuses posées par l’organsation d’une telle expérience et le recueil de données la concernant, ou la possibilité d’en généraliser les résultats (Deaton et Cartwright (2018)), sans même parler des questions d’éthique que la pratique peut légitimement soulever.
3.2.8 Une hypothèse implicite : la stabilité des unités individuelles
Toute la discussion qui précède fait implicitement l’hypothèse que pour chaque individu de la population considérée, il est raisonnable de considérer son analogue dans les différentes situations contrefactuelles définies par les valeurs de l’intervention. Ainsi, si l’on reprend l’exemple de l’expérience agricole traitée par Neyman, cette hypothèse revient à considérer que l’on peut bien penser la parcelle \(i\), et en particulier les rendements de la parcelle \(i\) si l’on y plantait la variété \(0\), et la parcelle \(i\) si l’on y plantait la variété \(1\) comme le même objet envisagé dans deux situations différentes. C’est bien cette identité de la parcelle \(i\) dans les deux mondes contrefactuels qui permet de faire la comparaison des rendements dans les deux situations et de donner un sens à l’effet causal individuel.
Dans le cas de l’expérience agricole, cette hypothèse ne semble pas poser de problème qui ne soient pas des problèmes métaphysiques très généraux. En sciences sociales au contraire, il est courant de rencontrer des exemples dans lesquels cette hypothèse peut se révéler problématique. On peut penser par exemple à une question de reproduction scolaire, qui consisterait par exemple à s’interroger sur l’effet de l’éducation scolaire reçue par la mère sur le niveau d’étude atteint par ses enfants. Ainsi formulée, la question semble bien définie. Pour autant, elle pose de sérieuses difficultés dés lors que l’on considère aussi – comme une partie de la littérature peut y inciter (Osili et Long (2008); Chen et Guo (2022)) – que l’éducation a un effet causal sur les décisions de fécondité.
On peut imaginer par exemple que l’on souhaite aborder la question en comparant les niveaux d’éducation contrefactuels d’enfants selon que leur mère entre ou pas dans l’enseignement supérieur. Cette comparaison est bien définie lorsque l’on considère des mères potentielles dont les décisions de fécondité ne sont pas affectées par l’entrée dans l’enseignement supérieur. En revanche, la comparaison devient problématique lorsque l’on considère une femme qui aurait un enfant si elle ne faisait pas d’études supérieures, mais que l’entrée dans l’enseignement supérieur conduirait à renoncer à ses projets de maternité. En effet, dans ce cas, le niveau scolaire de l’enfant est bien défini dans le monde contrefactuel dans lequel sa mère n’entre pas dans l’enseignement supérieur, mais n’a pas de sens dans le monde contrefactuel dans lequel elle ferait le choix opposé.
Un autre exemple classique de telles situations concerne l’évaluation des conséquences de certaines interventions – formation, politiques d’activation sur le marché du travail, mais aussi décisions de fécondité – sur le salaire ou la qualité de l’emploi. Le problème tient à ce que le salaire n’est bien défini que pour les individus qui se trouvent occuper un emploi salarié. Ainsi, si ces interventions ont un effet causal sur le fait d’occuper un emploi salarié ou non, on risque de se retrouver par exemple face à des individus qui auraient été au chômage sans formation, mais occupent un emploi salarié du fait de cette formation ; pour de tels individus, la comparaison du salaire entre les deux situations est dénuée de sens.
Ces problèmes ne concernent bien entendu pas seulement les situations empiriques où la population d’intérêt est une population humaine. Ainsi, on peut très souvent rencontrer cette difficulté en étudiant des entreprises, dont l’ouverture ou la fermeture peut résulter de l’intervention que l’on cherche à étudier, ce qui rend problématique par exemple les comparaisons de taille ou de performance entre les situations contrefactuelles définies par l’intervention. On peut également penser au cas où l’on utiliserait des données d’enquête, et où l’intervention aurait un effet causal sur la décision de répondre ou non.
Tous ces problèmes sont connus sous le nom de sélection dans l’échantillon, et une importante littérature méthodologique leur est consacrée. Le présent chapitre n’entend pas s’y appesantir outre-mesure. La lectrice ou le lecteur intéressé par ces méthodes pourra notamment s’intéresser à la littérature qui étudie la solution proposée par Heckman (1979). Une approche assez différente, et dont la présentation s’insère facilement dans le cadre conceptuel développé ici est également proposée par Lee (2009).
3.2.9 Une autre hypothèse implicite : l’absence d’interaction
Le cadre proposé fait une hypothèse implicite supplémentaire : il ne fait dépendre les valeurs potentielles de la variable d’intérêt pour chaque individu de la population que de l’intervention reçue par ce même individu. C’est là une hypothèse simplificatrice très importante. En effet, lorsque l’on revient sur l’exemple de l’expérience agricole, chaque parcelle du champ peut ou bien être plantée avec la variété \(0\), ou bien être plantée avec la variété \(1\). La décision de planter une variété ou l’autre sur telle ou telle partielle définit donc \(2^N\) mondes contrefactuels distincts, chacun correspondant à une attribution différente des variétés aux parcelles.
L’hypothèse simplificatrice consiste dans ce cas-là à considérer que lorsque l’on considère une certaine parcelle \(i\), les valeurs potentielles des rendements de la parcelle \(i\) ne dépendent que la variété plantée sur la parcelle \(i\). En d’autres termes, il n’y a pas \(2^N\) valeurs potentielles différentes des rendements de \(i\), mais seulement 2 : la première commune aux \(2^{N-1}\) mondes contrefactuels dans lesquels on plante sur \(i\) la variété \(0\), et la seconde commune aux \(2^{N-1}\) mondes contrefactuels dans lesquels on plante sur \(i\) la variété \(1\).
Cette hypothèse est déjà potentiellement critiquable dans le cas de l’expérience agricole. En effet, on pourrait imaginer que les rendements potentiels de la parcelle \(i\) dépendent en partie de l’intervention choisie sur les parcelles voisines. Cela semblerait par exemple possible si au lieu d’étudier le choix d’une variété, on considérait l’utilisation d’un engrais qui aurait la possibilité de se diffuser également à proximité.
Avertissement
Il faut bien distinguer ici deux questions différentes. La première, et celle à laquelle s’intéresse le présent paragraphe, est de savoir si les valeurs potentielles de la variable d’intérêt dépendent de l’intervention reçue par d’autres individus de la population. Une autre est de savoir si les valeurs de la variable d’intérêt sont indépendantes entre elles au sein de la population étudiée. Par exemple, pour l’expérience agricole, une chose est de se demander si des contaminations sont possibles entre parcelles, une autre est de se demander si les rendements de parcelles voisines sont plus proches qu’entre des parcelles éloignées – par exemple parce que les conditions d’ensoleillement ou de sol y sont semblables.
Les situations dans lesquelles cette hypothèse n’est pas crédible sont fréquentes en sciences sociales. Ainsi, cette hypothèse doit exclure en principe les situations dans lesquelles on étudierait l’effet d’une intervention – par exemple une préparation particulière – sur la réussite à un concours avec un nombre de places limité et déterminé à l’avance. En effet, si l’intervention permet de faire passer un certain individu \(i\) de refusé à admis, alors pour garder le nombre d’admis constant entre tous les mondes contrefactuels, il existe un autre individu \(j\) qui passe d’admis à refusé du fait de la préparation reçue par \(i\). En d’autres termes, les valeurs potentielles de la réussite de \(j\) dépendent de l’intervention dont \(i\) fait l’objet, ce qui est en contradiction avec l’hypothèse considérée ici.
Un autre exemple classique concerne une importante question de santé publique : si la vaccination permet de limiter la transmission d’une pathologie, alors, lorsque l’on souhaite étudier l’effet de la vaccination sur la probabilité de développer cette pathologie, l’hypothèse n’est pas crédible. En effet, parce que la vaccination réduit le risque de transmission, le fait qu’ego développe ou non la pathologie dépend non seulement de son propre statut vaccinal, mais aussi de celui des personnes avec lesquels il est en contact physique.
Si cette hypothèse simplificatrice joue un rôle important dans tout ce qui va suivre, cela ne signifie pas pour autant que les situations dans lesquelles celle-ci n’est pas défendable sont par nature exclue du champ de l’inférence causale. D’une part, il est parfois possible en changeant l’échelle de l’étude de se ramener à un cas dans lequel celle-ci est plus facile à défendre. Par exemple, si la politique vaccinale est décidée à un niveau régional, et que les relations entre personnes de régions différentes sont suffisamment rares, on peut imaginer faire dépendre l’incidence d’une pathologie dans une région de sa politique vaccinale en négligeant la politique vaccinale des autres régions. Faire intervenir de cette façon plusieurs échelles différentes peut même être la source d’enseignements très précieux lorsque cela permet de quantifier ces effets d’interaction et d’éviction (Crépon et al. (2013)). D’autre part, il existe une riche littérature d’économétrie des réseaux qui vise précisément à définir et estimer ces effets d’interaction (Manski (2000)). Cette littérature pose de sérieuses difficultés techniques (Manski (1993)) ; la lectrice ou le lecteur intéressé se référera à Bramoullé, Djebbari et Fortin (2009) pour un exemple de ces travaux.