5.8 Comment évaluer la pertinence de ces approches ?

Tout ce qui précède vaut sous les hypothèses de support commun – que l’on peut mettre à l’épreuve lorsque l’on estime le score de propension – et d’indépendance conditionnelle. Celle-ci peut être défendue à partir des approches graphiques discutées dans le chaptre @ref(#controle-covariables-pourquoi), mais il s’agit là d’un argument essentiellement théorique et qui ne se réfère pas aux données. Le problème que l’on rencontre alors est que cette hypothèse est à la fois cruciale pour l’identification des effets causaux moyens de l’intervention, et en toute rigueur impossible à tester empiriquement. La raison pour cela est que cette hypothèse porte sur les valeurs potentielles de la variable d’intérêt, qui sont inobservées par nature. On se retrouve donc dans une situation potentiellement très problématique où la crédibilité de cette hypothèse n’est pas assurée et menace de jeter à bas tout l’édifice que l’on a construit dessus.

5.8.1 Mettre à l’épreuve la crédibilité de l’hypothèse d’indépendance conditionnelle

Il n’est pas possible de tester l’hypothèse d’indépendance conditionnelle dans toute sa généralité : celle-ci porte sur les valeurs potentielles de la variable d’intérêt, qui sont inobservées par nature. Il est en revanche possible de vérifier que le conditionnement est vraisemblablement pertinent, en mettant en place ce que l’on appelle parfois des placebos, par analogie avec les essais cliniques. Ces façon de mettre à l’épreuve la crédibilité de l’hypothèse d’indépendance consistent peu ou prou à considérer un ensemble de variables que l’on peut observer dans les données, qui n’appartiennent pas à l’ensemble des variables de conditionnement, et pour lesquelles on a de bonnes raisons d’attendre un effet nul de l’intervention. Un cas très typique de ces placebos concerne souvent toutes les variables pour lesquelles on s’attend à ce que l’effet de l’intervention soit nul parce qu’elles sont observées avant que l’intervention à proprement parler n’ait lieu.

L’idée est alors d’appliquer la technique d’estimation retenue, mais en remplaçant la variable d’intérêt par la variable placebo. Si les résultats ainsi obtenus suggèrent que l’intervention a un effet causal sur la variable placebo, alors on doit regarder la stratégie empirique que l’on a mise en place comme non-crédible. En effet, elle attribue à l’intervention des effets dont on sait à l’avance qu’ils sont dénués de sens : de ce fait, il est plausible que les effets qu’elle attribue à l’intervention quant à la variable d’intérêt soient également sans rapport avec ses effets réels.

Bien entendu, ces mises à l’épreuve par placebo ne peuvent jamais constituer de vrais tests de l’hypothèse d’indépendance conditionnelle que l’on fait pour l’estimation. Néanmoins, dans la pratique, plus une stratégie empirique passe avec succès de mises à l’épreuve sur des variables placebos, plus on doit la considérer comme crédible pour autant que ces variables placebos ne soient pas très corrélées entre elles.

Un point très important ici est que ces mises à l’épreuve par variables placebos peuvent être réalisées sans jamais faire référence à la variable d’intérêt ! Il suffit d’utiliser des données qui portent sur les variables de conditionnement, l’intervention et les variables placebos. Dans la pratique, on pourra donc essayer de repousser le plus tard possible l’estimation des effets causaux moyens de l’intervention sur la variable d’intérêt, et essayer plutôt de se concentrer en premier lieu sur les éléments que l’on peut examiner sans avoir besoin de l’utiliser :

estimation du score de propension ;
examen de l’hypothèse de support commun ;
examen de la propriété équilibrante du score de propension estimé ;
mise à l’épreuve sur variables placebos.

L’idée est qu’en se fondant le plus possible sur ces éléments pour affiner l’estimation plutôt que sur les résultats relatifs aux effet causaux moyens que l’on cherche à estimer, on prend beaucoup moins le risque de manipuler les données d’une façon qui dépend des résultats escomptés.

5.8.2 Comparer avec une expérience aléatoire contrôlée

La meilleure façon d’évaluer la pertinence de ces approches est évidemment de pouvoir comparer les résultats qu’elles donnent avec la connaissance que l’on peut acquérir de façon plus assurée sur les effets causaux de l’intervention à laquelle on s’intéresse. C’est notamment le cas lorsque celle-ci fait l’objet d’une expérience aléatoire contrôlée : on a alors un terrain de jeu idéal pour savoir si ces techniques renvoient des résultats de bonne qualité ou non.

La travail de LaLonde (1986) est à cet égard particulièrement important. Cet article porte sur l’évaluation du NSW, que l’on peut décrire comme un programme d’emploi aidé, orienté vers les individus exclus du marché du travail et implémenté dans les années 1970 aux États-Unis. L’intérêt de l’étude de ce cas particulier est que ce programme a fait l’objet d’une expérience aléatoire contrôlée, de sorte qu’il est possible d’en connaître les effets causaux moyens. Tout le travail de LaLonde (1986) est alors de se demander si, au lieu de comparer les individus ayant participé au programme avec ceux qui n’y ont pas participé parmi les volontaires parmi lesquels l’expérience aléatoire contrôlée a eu lieu, il est possible de construire à partir de données externes à l’expérience un groupe d’individus n’ayant pas participé au programme suffisamment semblables aux premiers pour être comparables, et appliquer les techniques usuelles de régression sur ce nouveau groupe. Pour ce faire, l’article mobilise des données extraites du Current Population Survey – une enquête étatsunienne peu ou prou comparable à l’enquête Emploi en France – pour constituer un groupe d’individus éligibles mais n’ayant pas participé au programme qu’il s’agit ensuite de comparer avec les participants, pour évaluer la pertinence des techniques d’évaluation disponibles à l’époque.

Les résultats de l’article sont essentiellement négatifs : les résultats obtenus à partir des approches usuelles à l’époque de sa publication sont systématiquement très éloignées de ceux de l’expérience aléatoire. Ces résultats ont alimenté de nombreux travaux ultérieurs, préoccupés par la crédibilité des résultats d’évaluation économétrique des politiques publiques. Parmi eux, Dehejia et Wahba (1999) et Dehejia et Wahba (2002) jouent un rôle particulièrement important : ils montrent essentiellement que les techniques d’appariement sur le score de propension, estimées sur les données non-expérimentales de LaLonde (1986), permettent de répliquer avec une qualité satisfaisante les résultats obtenus à partir des données de l’expérience aléatoire contrôlée.

Les résultats de LaLonde (1986) et Dehejia et Wahba (1999) et Dehejia et Wahba (2002) fournissent au total un repère important quant à la qualité des techniques d’estimation qui consistent essentiellement à conditionner les comparaisons sur certaines variables bien choisies. C’est pourquoi encore aujourd’hui, de nombreux travaux consacrés à ces techniques s’appuient sur ces données pour en évaluer la pertinence.