Modélisation et inférence causale
2022-2023
Préambule
L’objet de ce texte est de servir de support à (une partie de) l’enseignement de Modélisation et identification causale du parcours Quantifier en sciences sociales du Master Sciences sociales de l’EHESS et de l’ENS-PSL. La structure reprend approximativement celle des séances de cet enseignement, et tous les résultats et exemples exposés au cours des séances sont inclus dans ce texte. La récriproque n’est pas vraie, et la lectrice ou le lecteur intéressé pourra trouver ici des résultats, exemples et développements additionnels par rapport à ceux présentés au cours des différentes séances. En particulier, toutes les preuves un peu plus formalisées qui me paraissent potentiellement utiles à la compréhension de certains points se trouvent en annexe, de même que certains résultats moins cruciaux mais parfois éclairants.
L’objectif poursuivi dans cet enseignement est d’offrir un aperçu satisfaisant des différentes méthodes et approches existantes dans le champ de l’inférence causale en sciences sociales, des soubassements théoriques un peu généraux qui sont les leurs jusqu’à leur mise en application pratique. Il part du principe que la lectrice ou le lecteur dispose d’un socle minimal de connaissances en matière de statistique et de sciences sociales quantitatives, y compris en ce qui concerne l’usage du logiciel R, sans toutefois exiger de connaissances mathématiques formelles très avancées. Quoi qu’il en soit, le chapitre 1 propose un rappel des principaux concepts de probabilités et de statistique sur lesquels repose l’édifice de cet enseignement.
Pour rendre cet enseignement aussi appliqué que possible, ce texte propose de nombreux exemples, en général tirés de la littérature en sciences sociales, et montre toutes les fois où cela s’avère possible comment ces exemples peuvent être codés à l’aide du logiciel R. Si l’habitude de la programmation est en toute rigueur une compétence un peu indépendante de la bonne connaissance des techniques d’inférence causale dans la boîte à outil du quantitativiste en sciences sociales, le fait est que la première est nécessaire pour espérer faire les premiers pas de n’importe quel projet de recherche. De plus, elle demande souvent de se poser des questions qui ne peuvent que s’avérer utiles dans la mise en application des techniques d’estimation.
Les exemples proposés privilégient presque toujours pour la manipulation de données le package data.table
aux outils du tidyverse
comme le package dplyr
. Cela tient notamment à ce que l’efficacité des calculs avec le premier est bien meilleure lorsque l’on a recours à des données massives, ce qui n’est certes pas souvent le cas ici, mais est de plus en plus courant en sciences sociales quantitatives : au prix d’un apprentissage peut-être plus pénible au départ, ce sont donc de gros gains de temps qui peuvent être engrangés sur les projets de la lectrice ou du lecteur dans sa recherche ultérieure. Lorsque cela s’avère nécessaire pour l’estimation, l’objectif a été dans la mesure du possible de privilégier des packages couramment utilisés et régulièrement maintenus.
Ce texte est scindé en deux parties. Schématiquement, la première vise à discuter ou rappeler les outils statistiques usuels des sciences sociales quantitatives, et qui s’avèrent souvent utiles pour les travaux d’inférence causale, tandis que la seconde recense les techniques d’inférence causale quantitative à proprement parler. Pour le dire autrement, la première partie cherche à démonter un peu la mécanique des statistiques descriptives et des régressions linéaires pour tenter de comprendre (i) à quoi correspondent les quantités estimées, et de quelle façon elles se rapportent à des grandeurs observables à l’échelle de toute une population, et (ii) de quelle façon il est possible d’approximer ces quantités définies à l’échelle d’une population lorsque l’on ne dispose que de données collectées sur un échantillon beaucoup plus petit. La seconde partie cherche quant à elle à dépasser le seul niveau des grandeurs observables, et s’interroge sur la possibilité d’utiliser ces outils pour construire des propositions causales, c’est-à-dire des propositions qui portent sur des comparaisons entre des situations contrefactuelles inobservées et inobservables.
Ce texte est, de façon très visible, en construction. Ainsi, une grande partie du contenu n’est pas encore en ligne (ni même, je dois l’avouer, écrit). Il le sera au fur et à mesure de la progression des séances. Ce statut très provisoire de la version présente signifie en particulier que la lectrice ou le lecteur qui repèrerait des erreurs ou des passages très difficilement compréhensibles ou parfaitement abscons est bien entendu invité à me les signaler !