Chapitre 2 Anatomie des moindres carrés ordinaires

Ce chapitre propose une étude un peu fouillée de la régression linéaire par la méthode des moindres carrés ordinaires indépendamment de son éventuel contenu causal. L’idée générale n’est donc pas de discuter de la valeur de cette approche dans le contexte de l’inférence causale, mais de clarifier autant que possible ce à quoi cette méthode renvoie en tant que telle. Ainsi, ce chapitre ne discute pas le concept d’effet – implicitement causal – dans le contexte de la régression linéaire : il n’y est question que de coefficients.

La lectrice ou le lecteur trouvera donc ici une tentative de dissection de la régression linéaire fondée sur les moindres carrés ordinaires, c’est-à-dire :

  1. un exposé du problème dont la méthode des moindres carrés ordinaires est la solution ;
  2. un développement qui vise à mettre en lumière les liens entre les quantités renvoyées par cette approche, et d’autres quantités plus simples qui peuvent être estimées de façon relativement directe à partir de données.

Le point de vue défendu dans ce chapitre est simple : la régression linéaire par la méthode des moindres carrés ordinaires n’a pas d’autre contenu que d’être une façon astucieuse de présenter des comparaisons de moyenne entre groupes, ou, ce qui revient au même, des calculs de covariance. Il tente de convaincre la lectrice ou le lecteur de ce fait par tous les moyens possibles, en s’abstrayant de l’usage éventuel de la méthode dans le cadre de l’inférence causale, mais en explicitant autant que possible les quantités que cette méthode renvoie comme résultat, que ce soit par un embryon de formalisation mathématique, ou par l’usage de l’outil informatique.

Une conséquence cruciale et immédiate de la thèse défendue par ce chapitre est qu’un argument appuyé par une régression linéaire ne peut jamais être plus convaincant que la comparaison, explicite ou implicite, de la moyenne de la variable dépendante entre les groupes définis par les variables indépendantes qu’il fait intervenir. Les conséquences de ce fait en ce qui concerne l’usage de la régression linéaire dans le contexte de l’inférence causale seront développées ultérieurement.

Compte-tenu du niveau de généralité du traitement, ce chapitre ne peut pas éviter de passer par une formalisation mathématique minimale. Ici encore, il tente de contrebalancer ce formalisme :

  1. en détaillant les principaux résultats en langue naturelle ;
  2. en proposant autant que possible des exemples tirés de la pratique des sciences sociales quantitatives ;
  3. en illustrant ces résultats par leur implémentation informatique sur des données réelles.

Par ailleurs, la lectrice ou le lecteur se verra régulièrement renvoyé au chapitre 1 pour clarifier les concepts probabilistes ou statistiques sur lesquels ce chapitre s’appuie. En dépit des efforts entrepris, certains passages de ce chapitre peuvent rester un peu abstraits. La lectrice ou le lecteur confronté à un passage aride est invité à se souvenir qu’il n’a pas d’autre objectif que celui visé par l’ensemble de ce chapitre : à savoir de montrer que sous sa technicité apparente, la régression linéaire fondée sur la méthode des moindres carrés ordinaires n’est rien d’autre qu’une façon de présenter une comparaison de moyennes.

La technicité et l’intérêt pratique des différentes sections de ce chapitre ne sont pas constants. Ainsi, le début de la section 2.9 est relativement technique du point de vue du formalisme mathématique mis en place, et est surtout déstiné à la lectrice ou le lecteur soucieux de bien comprendre la mécanique de l’estimation, et qui souhaite se préparer à explorer la littérature de façon plus approfondie. La lectrice ou le lecteur pressé ou simplement désireux de se familiariser avec, ou de redécouvrir la méthode des moindres carrés ordinaires fera plutôt le choix de sauter ces passages. Au total, les sections qui paraissent le mieux éclairer la pratique empirique seraient les sections 2.1, 2.2, 2.6 et 2.7, ainsi que les sous-sections 2.9.4 et 2.9.5.