Préambule
I Outils usuels de la statisticienne et du statisticien
Introduction
1
Rappels de probabilités et de statistique
1.1
Préliminaire : questions de notation
1.1.1
Distinguer deux symboles d’égalité
1.1.2
Lire une somme
1.2
Notion de variable aléatoire
1.2.1
Définition
1.2.2
Indépendance
1.3
Variables aléatoires réelles unidimensionnelles
1.3.1
Loi, distribution et quantiles
1.3.2
Espérance
1.3.3
Espérance conditionnelle
1.3.4
Variance et écart-type
1.3.5
Covariance et corrélation
1.3.6
Étude de la moyenne empirique
1.4
Variables aléatoires réelles multidimensionnelles
1.4.1
Espérance
1.4.2
Matrice de variance-covariance
1.4.3
Étude de la moyenne empirique
2
Anatomie des moindres carrés ordinaires
2.1
Principe général des moindres carrés ordinaires
2.2
Problème de colinéarité
2.3
Pourquoi le nom de “moindres carrés ordinaires” ?
2.4
La régression linéaire simple est une moyenne de comparaisons deux à deux
2.5
Pousser plus loin la dissection en itérant les régressions
2.6
Comparaisons avec l’espérance conditionnelle
2.6.1
La régression linéaire par les moindres carrés ordinaires ne dépend que de l’espérance conditionnelle
2.6.2
La régression linéaire par les moindres carrés ordinaires et l’espérance conditionnelle coïncident pour la régression saturée
2.6.3
La régression linéaire par les moindre carrés ordinaires permet d’agréger les contrastes conditionnels
2.7
Agréger les coefficients entre plusieurs groupes
2.8
Décomposition de la variance
2.8.1
Coefficient de détermination
2.8.2
Une interprétation fréquente du coefficient de détermination
2.8.3
Problèmes liés à l’interprétation usuelle du coefficient de détermination
2.9
Estimation et inférence
2.9.1
Représentation matricielle
2.9.2
Estimateur des moindres carrés ordinaires
2.9.3
Précision de l’estimateur des moindres carrés ordinaires
2.9.4
Homoscédasticité et hétéroscédasticité
2.9.5
Données en
clusters
II Introduction à l’inférence causale
Introduction
3
Un concept quantitatif de causalité en sciences sociales ?
3.1
Qu’est-ce qu’une proposition causale ?
3.1.1
Une proposition causale est une comparaison
3.1.2
Une proposition causale compare des situations dont au moins une est hypothétique
3.1.3
Distinguer une proposition causale de l’argument qui le sous-tend
3.2
Un cadre formel : les résultats potentiels d’une intervention
3.2.1
Cas de l’intervention simple
3.2.2
Cas général
3.2.3
Notions d’effet causal individuel
3.2.4
Problème fondamental de l’inférence causale
3.2.5
Effets causaux moyens
3.2.6
Notion de biais de sélection
3.2.7
Le rôle central de l’expérience aléatoire contrôlée et de l’expérience naturelle
3.2.8
Une hypothèse implicite : la stabilité des unités individuelles
3.2.9
Une autre hypothèse implicite : l’absence d’interaction
3.3
Effets d’une cause ou causes d’un effet ?
4
Pourquoi contrôler les facteurs confondants ?
4.1
Pour commencer : les admissions à Berkeley sont-elles biaisées selon le genre ?
4.2
Sous quelles hypothèses contrôler les facteurs confondants permet-il d’identifier des effets causaux ?
4.2.1
Un cas idéal : l’expérience aléatoire stratifiée
4.2.2
Quantifier le biais de sélection dans la comparaison naïve
4.2.3
Deux hypothèses cruciales
4.2.4
Quantités identifiées
4.3
Appuyer graphiquement l’hypothèse d’indépendance conditionnelle
4.3.1
Représentation graphique de la causalité
4.3.2
Conditionner sur une variable observable
4.3.3
Y a-t-il de mauvaises variables de conditionnement ?
4.3.4
Stratégie
backdoor
4.3.5
Quel usage des approches graphiques ?
4.3.6
Une question proche : médiation et décomposition des inégalités
5
Comment contrôler les facteurs confondants ?
5.1
Une estimation apparemment simple
5.2
Fléau de la dimension et extrapolation
5.2.1
Le nombre de strates à considérer croît de façon exponentielle avec le nombre de variables de conditionnement (fléau de la dimension)
5.2.2
Les variables de conditionnement continues génèrent une infinité de groupes
5.2.3
Une nécessité : accepter d’extrapoler
5.3
Notion de score de propension
5.4
Utilisation de score de propension : en théorie
5.4.1
Stratification
5.4.2
Appariement
5.4.3
Repondération
5.5
Estimation du score de propension
5.5.1
Problèmes de l’estimation naïve
5.5.2
En pratique
5.5.3
Peut-on évaluer la qualité de l’estimation ?
5.6
Utilisation du score de propension : en pratique
5.6.1
Stratification
5.6.2
Appariement
5.6.3
Repondération
5.6.4
Ces estimations sont-elles robustes ?
5.7
Quel rôle pour la régression linéaire ?
5.7.1
Usage habituel de la régression linéaire
5.7.2
Pourquoi utiliser une régression linéaire ?
5.8
Comment évaluer la pertinence de ces approches ?
5.8.1
Mettre à l’épreuve la crédibilité de l’hypothèse d’indépendance conditionnelle
5.8.2
Comparer avec une expérience aléatoire contrôlée
6
Utiliser une variable instrumentale
6.1
Aux origines de la méthode des variables instrumentales
6.2
Pour commencer : l’exemple de la conscription pendant la guerre du Viêtnam
6.3
Généralisation
6.3.1
Définition des résultats potentiels
6.3.2
Hypothèses
6.3.3
Toujours ou jamais traités,
compliers
et
defiers
6.3.4
Notion d’effet causal moyen local
6.4
Peut-on trouver des instruments crédibles ?
6.4.1
Loteries
6.4.2
Assignation à un décideur
6.4.3
Discontinuités
6.4.4
Différence-de-différences
6.4.5
Interactions
6.5
Problèmes pratiques de l’estimation
6.5.1
Instruments faibles
6.5.2
Peut-on tester les hypothèses ?
Annexes
A
Preuves
A.1
Inversibilité de la matrice de variance-covariance et indépendance linéaire des composantes
A.2
Existence et unicité des coefficients de la régression linéaire par les moindres carrés ordinaires
A.2.1
Cas unidimensionnel
A.2.2
Cas général
A.2.3
Un formalisme très légèrement différent
A.3
Nécessité de la condition de rang
A.4
Les moindres carrés ordinaires comme problème de minimisation
A.4.1
Cas unidimensionnel
A.4.2
Cas général
A.5
Agréger des comparaisons deux à deux
A.6
Théorème de Frisch-Waugh-Lovell
A.7
L’espérance conditionnelle minimise la distance quadratique dans l’ensemble des fonctions quelconques des variables indépendantes
A.8
Espérance conditionnelle et régression saturée
A.9
Agrégation des contrastes conditionnels par les moindres carrés ordinaires
A.10
Agrégation des coefficients par les moindres carrés ordinaires
A.11
Comportement asymptotique de l’estimateur des moindres carrés ordinaires
A.12
Comportement asymptotique de l’estimateur des moindres carrés ordinaires en relâchant l’hypothèse d’indépendance
A.13
Identification sous l’hypothèse d’indépendance conditionnelle
A.14
Propriété équilibrante du score de propension
A.15
Identification des effets causaux moyens à l’aide des poids définis à partir du score de propension
A.16
Interprétation causale des régressions linéaires
A.17
Interprétation causale de la décomposition de Oaxaca-Blinder
A.17.1
Démonstration
A.17.2
Cette technique est-elle utilisable en pratique ?
B
Détails additionnels
B.1
La régression linéaire par les moindres carrés ordinaires et l’espérance conditionnelle minimisent le même critère dans des ensembles différents
B.2
Régression linéaire par les moindres carrés ordinaires et espérance conditionnelle dans le cas des variables discrètes ordonnées
B.3
Variance de l’estimateur des moindres carrés ordinaires
B.3.1
Cas homoscédastique
B.3.2
Cas hétéroscédastique
B.3.3
En relâchant l’hypothèse d’indépendance
B.4
Appariement sur le score de propension avec une étape de régression pour réduire les biais de mauvais équilibrage
B.5
Approche à la Oaxaca-Blinder pour estimer les effets causaux moyens d’une intervention
Bibliographie
Modélisation et inférence causale
B
Détails additionnels