A.5 Agréger des comparaisons deux à deux
À retenir
Dans le cas où l’on considère la régression d’une variable dépendante sur une unique variable indépendante, pour le calcul de la pente de la droite de régression, il revient au même d’appliquer la méthode des moindres carrés ordinaires, ou de (i) calculer la pente de la droite passant par les points représentants tous les couples possibles dans la population d’intérêt et (ii) calculer la moyenne de ces pentes avec des poids qui donnent plus d’importance aux valeurs les plus fréquentes dans la population d’intérêt et aux couples dont les valeurs de la variable indépendante diffèrent le plus.
Reconstituer tous les couples possibles revient à considérer (i) un couple de variables aléatoires \((X,Y)\) et (ii) un couple de variables aléatoire \((X',Y')\) de même loi que le précédent mais indépendant de lui. On représente ainsi le fait de (i) tirer de façon équiprobable un élément de la population d’intérêt puis (ii) tirer indépendamment du premier et de façon équiprobable un second élément de cette population population.
La pente entre deux points correspond à la variable aléatoire \(\frac{Y-Y'}{X-X'}\). Cette variable n’est bien définie que lorsque \(X-X'\) est différent de 0. Cela étant, on veut pondérer cette variable aléatoire par le carré de l’écart entre les valeurs de la variable indépendante. En d’autres termes, la quantité d’intérêt est :
\[\frac{\mathbb{E}\left[(X-X')^2\frac{Y-Y'}{X-X'}\right]}{\mathbb{E}\left[(X-X')^2\right]}=\frac{\mathbb{E}\left[(X-X')(Y-Y')\right]}{\mathbb{E}\left[(X-X')^2\right]}\] qui est bien définie dés lors que la variable aléatoire \(X\) n’est pas constante.
Il reste à considérer le terme \(\mathbb{E}\left[(X-X')(Y-Y')\right]\). Il vient : \[\begin{align} &\mathbb{E}\left[(X-X')(Y-Y')\right] \nonumber\\ &=\mathbb{E}\left[XY+X'Y'-XY'-X'Y\right] \nonumber\\ &=\mathbb{E}\left[XY\right]+\mathbb{E}\left[X'Y'\right]-\mathbb{E}\left[XY'\right]-\mathbb{E}\left[X'Y\right] \nonumber \\ &=2\mathbb{E}[XY]-2\mathbb{E}[X]\mathbb{E}[Y] \nonumber \\ &=2 \mathcal{C}(X,Y) \nonumber \\ \end{align}\] où la première égalité est le développement du produit, la seconde découle de la linéarité de l’espérance, et la troisième de l’indépendance de \((X,Y)\) et \((X',Y')\) et du fait que ces deux couples ont la même distribution.
Un calcul similaire permet de montrer que \(\mathbb{E}\left[(X-X')^2\right]=2 \mathcal{V}(X)\). En définitive :
\[\frac{\mathbb{E}\left[(X-X')^2\frac{Y-Y'}{X-X'}\right]}{\mathbb{E}\left[(X-X')^2\right]} = \frac{\mathcal{C}(X,Y)}{\mathcal{V}(X)}\]