A.4 Les moindres carrés ordinaires comme problème de minimisation
À retenir
Le problème initial consistant à décomposer une variable aléatoire \(Y\) en la somme d’une fonction affine d’une autre variable aléatoire \(X\) et d’un terme d’espérance nulle et non-corrélé avec \(X\) est équivalent au problème consistant à décomposer \(Y\) en la somme d’une fonction affine de \(X\) et un terme d’espérance nulle et de variance minimale, ou encore de façon équivalente un terme dont l’espérance du carré soit aussi faible que possible.
A.4.1 Cas unidimensionnel
On commence par considérer le cas où \(X\) est une variable aléatoire réelle unidimensionnelle. On suppose qu’on a trouvé \(\alpha\) et \(\beta\), deux réels qui minimisent la quantité \(\mathbb{E}[Y-\alpha- X\beta]\). On considère la façon dont cette quantité se déforme lorsque l’on ajoute à ces solutions les termes \(a\) et \(b\) : \[\begin{align} &\mathbb{E}\left[\left\{Y- (\alpha + a) - X (\beta + b)\right\}^2\right] \nonumber \\ =& \mathbb{E}\left[\left\{(Y- \alpha - X \beta) - (a + X b)\right\}^2\right] \nonumber \\ =& \mathbb{E}\left[\left\{Y-\alpha-X\beta\right\}^2\right] +\mathbb{E}\left[\left\{a-Xb\right\}^2\right] \nonumber \\ & \quad-2 \mathbb{E}[\left\{Y-\alpha-X\beta\right\}\left\{a-Xb\right\}] \nonumber\\ \end{align}\] Le premier terme est le minimum de la quantité que l’on cherche à minimiser. Le deuxième terme est toujours positif, quel que soit le choix de \(a\) et \(b\) que l’on considère. Il faut donc simplement considérer le troisième terme. On peut en effet le décomposer : \[ \mathbb{E}[\left\{Y-\alpha-X\beta\right\}\left\{a-Xb\right\}] = \mathbb{E}\left[Y - \alpha - X\beta\right]a + \mathbb{E}\left[\left\{Y - \alpha - X \beta\right\}X\right]b\] Comme \(\alpha\) et \(\beta\) sont choisis pour être solution du problème de minimisation que l’on considère, on sait quel que soit le choix de \(a\) et \(b\) considéré \(\mathbb{E}\left[\left\{Y- (\alpha + a) - X (\beta + b)\right\}^2\right] - \mathbb{E}\left[\left\{Y- \alpha - X\beta\right\}^2\right] \geq 0\) et on sait que cette quantité est nulle lorsque \(a=0\) et \(b=0\) par construction. Le calcul précédent permet d’établir que cette quantité est la somme de (i) des termes d’ordre 2 \(a^2\), \(b^2\) et \(ab\) que l’on obtient en développant le terme \(\mathbb{E}\left[\left\{a-Xb\right\}^2\right]\) et (ii) un terme linéaire en \(a\) et \(b\).
Lorsque l’on considère de très petites valeurs de \(a\) et \(b\), le comportement de cette quantité est dicté par les termes linéaires, par rapport auxquels les termes d’ordre 2 sont négligeables. On sait que cette quantité n’est jamais strictement négative : la seule solution pour que cela soit vrai est que les termes linéaires soient nuls. Cela implique donc : \[\left\{\begin{array}{l} Y = \alpha + X \beta + \epsilon \\ \mathbb{E}[\epsilon] = 0 \\ \mathcal{C}(X,\epsilon)=0 \end{array}\right.\]
Réciproquement, on suppose que \(\alpha\) et \(\beta\) vérifient ; \[\left\{\begin{array}{l} Y = \alpha + X \beta + \epsilon \\ \mathbb{E}[\epsilon] = 0 \\ \mathcal{C}(X,\epsilon)=0 \end{array}\right.\] On peut considérer toujours considérer, pour des réels \(a\) et \(b\) quelconques, la quantité \(\mathbb{E}\left[\left\{Y- (\alpha + a) - X (\beta + b)\right\}^2\right]\). En reprenant le calcul précédent, on voit que : \[\begin{align} &\mathbb{E}\left[\left\{Y- (\alpha + a) - X (\beta + b)\right\}^2\right] \nonumber \\ =& \mathbb{E}\left[\left\{Y-\alpha-X\beta\right\}^2\right] +\mathbb{E}\left[\left\{a-Xb\right\}^2\right] \nonumber \\ \end{align}\] Comme le second terme est toujours positif, quel que soit le choix de \(a\) et \(b\), il est clair que \(\mathbb{E}\left[\left\{Y- (\alpha + a) - X (\beta + b)\right\}^2\right] \geq \mathbb{E}\left[\left\{Y-\alpha - X \beta\right\}^2\right]\). Ainsi, \(\alpha\) et \(\beta\) minimisent la quantité \(\mathbb{E}\left[\left\{Y-\alpha-X\beta\right\}^2\right]\).
A.4.2 Cas général
On peut considérer à présent le cas où \(X\) est une variable aléatoire réelle de dimension \(d\), en se plaçant dans le cadre du formalisme où la variable constante égale à 1 est une des composantes de \(X\). On suppose que l’on dispose d’un vecteur \(\beta\) de dimension \(d\) qui minimise la quantité \(\mathbb{E}\left[\left\{Y-X'\beta\right\}^2\right]\). On considère ensuite comment cette quantité se déforme lorsque l’on dévie de cet minimiseur : \[\begin{align} & \mathbb{E}\left[\left\{Y-X'(\beta+b)\right\}^2\right] \nonumber\\ =& \mathbb{E}\left[\left\{Y-X'(\beta+b)\right\}'\left\{Y-X'(\beta+b)\right\}\right] \nonumber\\ =& \mathbb{E}\left[\left\{(Y-X'\beta)-X'b\right\}'\left\{(Y-X'\beta)-Xb)\right\}\right] \nonumber\\ =& \mathbb{E}\left[\left\{Y-X'\beta\right\}'\left\{Y-X'\beta\right\}\right] + b'\mathbb{E}\left[XX'\right]b \nonumber\\ & \quad - \mathbb{E}\left[\left\{Y-X'\beta\right\}'X\right]b - b'\mathbb{E}\left[X'\left\{Y-X'\beta\right\}\right] \nonumber\\ \end{align}\] Le premier terme n’est autre que le minimum de la quantité que l’on cherche à minimiser. En revenant au calcul du produit matriciel, on peut montrer que le second terme est une somme de terme d’ordre 2 \(\sum_{k=1}^d\sum_{l=1}^d \mathbb{E}[X_kX_l]b_kb_l\). Par conséquent, lorsque l’on considère de petites valeurs de \(b\), ce sont les troisième et quatrième termes qui vont dicter le comportement de \(\mathbb{E}\left[\left\{Y- X' (\beta + b)\right\}^2\right] - \mathbb{E}\left[\left\{Y- X'\beta\right\}^2\right]\) au voisinage de \(b=0\). Compte-tenu de la définition de \(\beta\) comme minimiseur de \(\mathbb{E}\left[\left\{Y-X'\beta\right\}^2\right]\), on sait que cette quantité n’est jamais strictement négative, et qu’elle s’annule lorsque \(b=0\). La seule possibilité pour cela est que la partie linéaire soit nulle, ce qui revient à dire que \(\mathbb{E}\left[X\left\{Y-X'\beta\right\}\right]=0\).
Réciproquement, on peut supposer que \(\beta\) vérifie : \[\left\{\begin{array}{l} Y = X' \beta + \epsilon \\ \mathbb{E}[X\epsilon]=0 \end{array}\right.\] et considérer la même quantité que précédemment. Dans ce cas, en considérant la somme précédente, on peut montrer que le deuxième terme est toujours positif : il s’écrit \(\mathbb{E}[(X'b)'(X'b)]\), c’est donc l’espérance du produit de la transposée d’une variable aléatoire par elle-même, qui est égale à la somme des espérances des carrés de ses composantes (voir 1.4.2). Par construction les troisièmes et quatrièmes termes sont nuls. Ainsi cette quantité est toujours supérieure ou égale à \(\mathbb{E}\left[\left\{Y-X'\beta\right\}^2\right]\) et \(\beta\) est donc bien solution du problème de minimisation que l’on considère.