Chapitre 5 Comment contrôler les facteurs confondants ?

Une fois que l’on dispose d’une liste de caractéristiques observables sur lesquelles on doit conditionner pour identifier les effets causaux d’intérêt se pose la question de la mise en pratique de ce conditionnement lorsque l’on travaille effectivement sur les données. Ce chapitre est intégralement consacré à ce problème.

Il commence par montrer que, si mettre en œuvre le conditionnement, c’est-à-dire effectuer les comparaisons pertinentes à l’intérieur de strates telles que tous les individus qui les composent ont les mêmes caractéristiques observables, est élémentaire dans les cas les plus simples, le problème se complique très rapidement à mesure que le nombre de caractéristiques observables à prendre en compte augmente. De là découle la nécessité d’accepter dans presque tous les contextes empiriques une forme d’extrapolation qui n’est pas évidente a priori lorsque l’on considère l’hypothèse d’indépendance conditionnelle dans toute sa généralité. Il introduit à cet effet la notion de score de propension, qui est un des outils les plus couramment utilisés en pratique, et vise à expliquer non seulement l’utilisation de cet outil dans le cadre des approches de stratification, appariement et repondération, mais encore ses liens avec les techniques de régression linéaire.

Il propose enfin une discussion de l’évaluation de la pertinence de ces approches sur un cas empirique, par comparaison avec des résultats expérimentaux.

Tout ce qui suit aborde donc ce que l’on peut regarder la dernière étape du travail, c’est-à-dire celle où l’on a défini les strates au sein desquels on pouvait approximer la situation que l’on étudie par une expérience naturelle. Pour le dire autrement, on suppose avoir, à l’aide d’une représentation graphique appropriée, déterminée un ensemble de variables \(X\) tel que lorsque l’on se place à l’intérieur de groupes définis par le fait que tous les individus y ont la même valeur \(X_i=x\), le fait de faire l’objet ou non de l’intervention est purement aléatoire.

Cette hypothèse autorise à comparer simplement à l’intérieur de chaque groupe défini par la valeur de \(X\), les individus qui font l’objet de l’intervention et ceux qui ne font pas l’objet de l’intervention étudiée pour en déduire les effets causaux moyens de cette intervention.