B.1 La régression linéaire par les moindres carrés ordinaires et l’espérance conditionnelle minimisent le même critère dans des ensembles différents
On a vu que le problème des moindres carrés ordinaires consiste à déterminer la meilleure approximation de \(Y\) dans l’ensemble des variables aléatoires qui peuvent s’écrire comme une fonction affine des variables indépendantes \(X\). Le choix de se restreindre à cet ensemble de variables aléatoires peut notamment se défendre du point de vue de sa simplicité : chaque élément de cet ensemble peut être encodé par un vecteur de taille \(d+1\), il n’est donc pas nécessaire de stocker la valeur de ces variables aléatoires pour toutes les valeurs possibles de \(X\). Dans le cas contraire, si chaque composante de \(X\) prend 2 valeurs, alors \(X\) pourrait prendre au moins \(2^d\) valeurs différentes et il faudrait donc enregistrer au moins \(2^d\) valeurs possibles de l’approximation recherchée de \(Y\). Par exemple, pour \(d=10\) il faudrait stocker au moins \(2^d=1024\) valeurs pour l’approximation de \(Y\).
Cela étant, les progrès de l’informatique ont rendu beaucoup moins coûteux le stockage de l’information, et il est dés lors tout à fait légitime de chercher une approximation de la variable dépendante dans un ensemble plus vaste que celui des seules combinaisons linéaires des variables indépendantes. On peut ainsi considérer cette fois-ci que l’on recherche la meilleure approximation de \(Y\) dans l’ensemble des variables aléatoires qui s’écrivent comme une fonction quelconque, et pas nécessairement linéaire, des variables indépendantes \(X\). En d’autres termes, on recherche une fonction \(\phi\) à valeurs réelles et définie sur \(\mathbb{R}^d\) telle que la quantité \(\mathbb{E}[\{Y - \phi(X)\}^2]\) soit aussi petite que possible.
À retenir
La régression linéaire par les moindres carrés ordinaires décompose une variable aléatoire \(Y\) en une fonction affine d’une autre variable aléatoire \(X\) et un terme de moyenne nulle et de variance minimale. L’espérance conditionnelle décompose une variable aléatoire \(Y\) en une fonction quelconque d’une autre variable aléatoire \(X\) et un terme de moyenne nulle et de variance minimale.
Formellement, cette proposition affirme que le choix de \(\phi\) qui minimise la quantité \(\mathbb{E}[\{Y - \phi(X)\}^2]\) vérifie \(\phi(x)=\mathbb{E}[Y \mid X=x]\) dés lors que \(\mathbb{P}(X=x) >0\). La preuve de cette affirmation est développée en Annexe A.7.
En ce sens, l’espérance conditionnelle et la régression linéaire fondée sur les moindres carrés ordinaires sont des analogues, en ceci qu’elles minimisent le même critère de distance entre \(Y\) et son approximation, la première dans l’ensemble des variables aléatoires qui s’écrivent comme des fonctions de \(X\), la seconde dans l’ensemble des variables aléatoires qui s’écrivent comme des fonctions affines (ou linéaires quand on compte la constante dans les variables indépendantes) de \(X\).
Remarque
L’égalité de ces variables aléatoires n’impose les valeurs prises par la fonction \(\phi\) que dans le domaine où la variable \(X\) varie. En effet, si on dispose d’un certain \(x\) tel que \(\mathbb{P}(X=x)=0\), alors on peut choisir n’importe quel valeur pour \(\phi\) sans changer la quantité que l’on cherche à minimiser. En ce sens, il y a une différence importante entre l’espérance conditionnelle et la régression linéaire : la première ne peut être utilisée que pour approximer \(Y\) sur le domaine où \(X\) varie effectivement, tandis que la seconde permet, potentiellement, de prolonger l’approximation de \(Y\) en dehors de ce domaine.