Introduction
Cette partie vise à détailler les principaux outils à disposition de la statisticienne ou du statisticien, indépendamment de leur interprétation causale. En d’autres termes, en reprenant l’opposition entre corrélation et causalité, elle fait le choix de se consacrer exclusivement à la première en laissant l’étude de la seconde à la suite de ce support.
Les mesures de corrélation peuvent presque toujours se ramener à des comparaisons de moyennes. Un premier chapitre est donc consacré au rappel, ou à l’introduction du cadre probabiliste usuel de la statisticienne et du statisticien, avec une insistance toute particulière sur (i) la contre-partie probabiliste du concept de moyenne, à savoir l’espérance et (ii) sur les liens entre les deux concepts.
Un second chapitre est dédié à une façon très courante de quantifier les corrélations, à savoir la régression linéaire par la méthode des moindres carrés ordinaires. En comparaison à d’autres ouvrages, cette méthode est ici abordée en-dehors de toute considération liée à son interprétation causale. Il n’y est donc jamais question d’effets implicitement causaux. Il s’agit plutôt de comprendre à quelles quantités plus simples et observables dans les données renvoient les coefficients d’une régression linéaire. La thèse défendue tout au long de ce chapitre est que les régressions linéaires se ramènent presque toutes à des comparaisons de moyennes. Les conséquences de ce fait quant à l’interprétation causale des régressions tirées ne seront tirées au clair que dans la seconde partie de ce support.
Autant que possible, ces deux chapitres sont enrichis d’exemples d’implémentation ou de simulation informatique des outils discutés, à partir du logiciel R. Ces exemples suivent un double objectif. D’une part, ils visent à soutenir l’argumentation et à permettre de rendre plus visuels ou concrets certains arguments. D’autre part, ils doivent permettre à la lectrice ou au lecteur de se familiariser avec l’usage pratique de ces outils qui nécessite presque toujours le passage par l’outil informatique.