A.2 Existence et unicité des coefficients de la régression linéaire par les moindres carrés ordinaires

A.2.1 Cas unidimensionnel

On considère dans un premier temps le cas unidimensionnel. Dans ce cas, l’hypothèse selon laquelle la matrice de variance-covariance de \(X\) est inversible revient à dire que la variance de \(X\) n’est pas nulle, c’est-à-dire que \(X\) n’est pas constante.

Pour prouver l’unicité, on suppose dans un premier temps que l’on dispose de deux réels \(\alpha\) et \(\beta\), et d’une variable aléatoire \(\epsilon\) tels que : \[\left\{\begin{array}{l} Y = \alpha + X \beta + \epsilon \\ \mathbb{E}[\epsilon] = 0 \\ \mathcal{C}(X,\epsilon)=0 \end{array}\right.\] Par définition de \(\epsilon\), on a donc \(\mathcal{C}(X, Y - \alpha - X\beta)=0\). La bilinéarité de la covariance entraîne donc \(\mathcal{V}(X) \beta = \mathcal{C}(X,Y)\). Comme \(\mathcal{V}(X)\) est supposée non-nulle par hypothèse, le réel \(\beta\) est donc déterminé de façon unique : \(\beta = \frac{\mathcal{C}(X, Y)}{\mathcal{V}(X)}\). De plus, par linéarité de l’espérance, on a \(\mathbb{E}[Y]=\alpha+\mathbb{E}[X]\beta\), donc \(\alpha =\mathbb{E}[Y]-\mathbb{E}[X]\frac{\mathcal{C}(X,Y)}{\mathcal{V}(X)}\) est également déterminé de façon unique.

Pour prouver l’existence, on considère réciproquement les réels \(\alpha = \mathbb{E}[Y] - \mathbb{E}[X] \frac{\mathcal{C}(X,Y)}{\mathcal{V}(X)}\) et \(\beta = \frac{\mathcal{C}(X, Y)}{\mathcal{V}(X)}\), et la variable aléatoire \(\epsilon = Y - \alpha - X \beta\), qui sont bien définis dés lors que \(\mathcal{V}(X)\) n’est pas nulle, c’est-à-dire dés lors que \(X\) n’est pas constante. Alors par définition \(Y = \alpha + X \beta+ \epsilon\), et on peut montrer en revenant aux propriétés élémentaires de l’espérance et de la covariance que \(\mathbb{E}[\epsilon] = 0\) et \(\mathcal{C}(X,\epsilon)=0\).

A.2.2 Cas général

Le cas multidimensionnel peut être regardé comme une simple généralisation du cas multidimensionnel. On considère pour cela une variable aléatoire multidimensionnelle de dimension \(d\), notée \(X\), une autre variable aléatoire réelle définie sur le même espace de départ \(Y\). On suppose la matrice de variance-covariance de \(X\) inversible, c’est-à-dire que les composantes de \(X\) et la variable aléatoire constante égale à 1 sont linéairement indépendantes.

Pour étudier dans un premier temps l’unicité de l’écriture, on considère un réel \(\alpha\), un vecteur \(\beta=\left(\beta_1 \dots \beta_d\right)'\) de dimension \(d\) et une variable aléatoire réelle \(\epsilon\) définie sur le même espace de départ que \(X\) et \(Y\) tels que : \[\left\{\begin{array}{l} Y = \alpha + X' \beta + \epsilon \\ \mathbb{E}[\epsilon] = 0 \\ \mbox{Pour tout }i\mbox{ dans }\{1, \dots, d\},\;\mathcal{C}(X_i,\epsilon)=0 \end{array}\right.\] Pour n’importe quel \(i\) choisi dans \(\{1, \dots, d\}\), on a donc \(\mathcal{C}(X_i,Y-\alpha - X' \beta)=0\). Par bilinéarité de la covariance, on en déduit : \(\mathcal{C}(X_i, Y) = \sum_{j=1}^d \mathcal{C}(X_i, X_j) \beta_j\). Le terme de droite de cette égalité est la \(i\)-ème composante du produit matriciel de la matrice de variance-covariance de \(X\) par la matrice colonne de taille \(d \times 1\) qui s’identifie au vecteur \(\beta\). Ainsi: \[\left(\begin{array}{c} \mathcal{C}(X_1, Y) \\ \vdots \\ \mathcal{C}(X_d, Y) \end{array}\right) = \mathcal{V}(X) \beta\] En multipliant à gauche chaque membre de l’égalité par l’inverse de la matrice de variance-covariance de \(X\), qui existe par hypothèse, on en déduit finalement que \(\beta\) est défini de façon unique, et : \[\beta = \mathcal{V}(X)^{-1}\left(\begin{array}{c} \mathcal{C}(X_1, Y) \\ \vdots \\ \mathcal{C}(X_d, Y) \end{array}\right) \] On peut ensuite en déduire l’unicité du réel \(\alpha\) puisque \(\alpha = \mathbb{E}[Y] - \mathbb{E}[X]' \beta\) par linéarité de l’espérance, et finalement l’unicité de \(\epsilon = Y - \alpha - X' \beta\).

Réciproquement, on peut montrer que les valeurs obtenues pour \(\alpha\), \(\beta\) et \(\epsilon\) sont bien définies, ce qui est assuré par l’inversibilité de la matrice de variance-covariance de \(X\), et qu’elles satisfont les exigences posées sur la décomposition.

A.2.3 Un formalisme très légèrement différent

Certains auteurs font le choix de traiter de la même façon le terme constant et les autres termes du problème et préfèrent considérer l’espérance du produit \(\mathbb{E}[X \epsilon]\) plutôt que les covariances. Le problème considéré est alors de trouver un vecteur \(\beta\) de \(\mathbb{R}^d\) et une variable aléatoire \(\epsilon\) tels que : \[\left\{\begin{array}{l} Y = X' \beta + \epsilon \\ \mathbb{E}[X\epsilon]=0 \end{array}\right.\] La variable aléatoire \(X\epsilon\) est le produit matriciel d’une variable aléatoire à valeurs dans l’espace des matrices colonnes de taille \(d \times 1\) par une variable aléatoire réelle. Elle prend donc ses valeurs dans l’espace des matrices colonnes de taille \(d \times 1\). La contrainte \(\mathbb{E}[X\epsilon]=0\) signifie donc que les composantes de l’espérance de cette variable aléatoire sont toutes nulles. En d’autres termes, pour tout \(i\) dans \(\{1, \dots, d\}\), on a \(\mathbb{E}[X_i \epsilon]=0\). Comme \(X_1=1\), cela implique \(\mathbb{E}[\epsilon]=0\), et cette contrainte est donc équivalente à la double contrainte \(\mathbb{E}[\epsilon]=0\) et \(\mathcal{C}(X_i, \epsilon)=0\). En d’autres termes, si la notation est différente, on considère bien en réalité le même problème que précédemment.

La démarche suit largement celle exposée aux paragraphes précédents. Pour étudier l’unicité, on considère un vecteur \(\beta\) de \(\mathbb{R}^d\) et une variable aléatoire \(\epsilon\) vérifiant les hypothèses du problème. En utilisant simplement la linéarité de l’espérance, on peut montrer que \(\mathbb{E}[X\epsilon] = \mathbb{E}[XY] - \mathbb{E}[X'X]\beta\). Ainsi, les contraintes impliquent que \(\mathbb{E}[X'X]\beta =\mathbb{E}[XY]\). Si \(\mathbb{E}[X'X]\) est inversible, alors cette équation sur \(\beta\) a une unique solution \(\beta=\mathbb{E}[X'X]^{-1}\mathbb{E}[XY]\). Cette condition d’inversibilité équivaut à supposer que toutes les composantes de \(X\) sont linéairement indépendantes. Comme la variable aléatoire constante égale à 1 est à présent incluse dans \(X\), cela revient bien à supposer comme précédemment que les composantes non-constantes de \(X\) et la variable aléatoire constante égale à 1 sont linéairement indépendantes.

De même que précédemment, on peut vérifier réciproquement que sous l’hypothèse d’inversibilité de la matrice \(\mathbb{E}[X'X]\), le vecteur \(\beta = \mathbb{E}[X'X]^{-1} \mathbb{E}[XY]\) et la variable aléatoire \(\epsilon = Y - X' \beta\) sont des solutions du problème.