A.7 L’espérance conditionnelle minimise la distance quadratique dans l’ensemble des fonctions quelconques des variables indépendantes
À retenir
La régression linéaire par les moindres carrés ordinaires décompose une variable aléatoire \(Y\) en une fonction affine d’une autre variable aléatoire \(X\) et un terme de moyenne nulle et de variance minimale. L’espérance conditionnelle décompose une variable aléatoire \(Y\) en une fonction quelconque d’une autre variable aléatoire \(X\) et un terme de moyenne nulle et de variance minimale.
La proposition portant sur la régression linéaire par les moindre carrés ordinaires n’est autre que le résultat de la section 2.3. Il faut donc considérer la proposition portant sur l’espérance conditionnelle.
On a : \[\begin{align} \mathbb{E}[\{Y-\phi(X)\}^2]&=\mathbb{E}\left[\left(\{Y - \mathbb{E}[Y\mid X]\}+\{\mathbb{E}[Y\mid X] - \phi(X)\}\right)^2\right] \nonumber\\ &= \mathbb{E}\left[\{Y-\mathbb{E}[Y \mid X]\}^2\right] + 2 \mathbb{E}\left[\{Y - \mathbb{E}[Y \mid X]\}\{\mathbb{E}[Y \mid X] - \phi(X)\}\right] \nonumber\\ &\mbox{ } + \mathbb{E}\left[\{\mathbb{E}[Y \mid X] - \phi(X)\}^2\right] \nonumber \end{align}\] Le premier terme ne dépend pas du choix de \(\phi\). On peut montrer que le second terme est nul. En effet, en utilisant la loi des espérances itérées et les propriétés élémentaires de l’espérance conditionnelle : \[\begin{align} \mathbb{E}\left[\{Y - \mathbb{E}[Y \mid X]\}\{\mathbb{E}[Y \mid X] - \phi(X)\}\right] &= \mathbb{E}\left[\mathbb{E}\left[\{Y - \mathbb{E}[Y \mid X]\}\{\mathbb{E}[Y \mid X] - \phi(X)\}\mid X\right]\right] \nonumber\\ &= \mathbb{E}\left[\mathbb{E}\left[Y - \mathbb{E}[Y \mid X] \mid X\right]\{\mathbb{E}[Y | X] - \phi(X)\}\right] \nonumber \\ &= \mathbb{E}\left[\{\mathbb{E}[Y \mid X] - \mathbb{E}[Y \mid X]\} \{\mathbb{E}[Y | X] - \phi(X)\}\right] \nonumber \\ &= 0 \nonumber \end{align}\] où la première égalité découle de la loi des espérances itérées, la seconde du fait que \(\mathbb{E}[Y \mid X] - \phi(X)\) peut s’écrire comme une fonction de \(X\) et la troisième découle de la linéarité de l’espérance, et du fait que \(\mathbb{E}[\mathbb{E}[Y \mid X] \mid X] = \mathbb{E}[Y \mid X]\). Ainsi seul le troisième terme \(\mathbb{E}\left[\{\mathbb{E}[Y \mid X] - \phi(X)\}^2\right]\) importe. Ce terme est toujours positif ou nul, et il est nul dés lors que les variables aléatoires \(\phi(X)\) et \(\mathbb{E}[Y \mid X]\) coïncident.