1.4 Variables aléatoires réelles multidimensionnelles
Définition
Si \(d\) est un entier naturel strictement positif, une variable aléatoire multidimensionnelle de dimension \(d\) est une variable aléatoire qui prend ses valeurs dans l’espace réel à \(d\) dimensions, noté \(\mathbb{R}^d\).
En d’autres termes, les valeurs de la variable aléatoire \(X\) de dimension \(d\) sont des vecteurs de dimension \(d\) de la forme \((x_1 \dots x_d)'\)1.
Si \(X_1\) à \(X_d\) sont \(d\) variables aléatoires réelles unidimensionnelles, alors la variable aléatoire définie par \(X(\omega)=(X_1(\omega) \dots X_d(\omega))'\) est une variable aléatoire multidimensionnelle de dimension \(d\). Réciproquement, si \(X\) est une variable aléatoire de dimension \(d\), alors il existe \(d\) variables aléatoires réelles unidimensionnelles qui correspondent à chaque composante de \(X\).
Cette approche s’étend aux variables aléatoires à valeurs dans des espaces de matrices. Ainsi, une variable aléatoire matricielle de taille \(k \times l\), où \(k\) et \(l\) sont deux entiers naturels strictement positifs, peut tout simplement s’interpréter comme une matrice à \(k\) lignes et \(l\) colonnes dont chaque coefficient est une variable aléatoire réelle unidimensionnelle.
1.4.1 Espérance
Le concept d’espérance s’étend très facilement aux variables multidimensionnelles.
Définition
L’espérance d’une variable multidimensionnelles est le vecteur dont la \(i\)-ème composante est égale à l’espérance de la variable aléatoire réelle définie par la \(i\)-ème composante de cette variable aléatoire multidimensionnelle.
Formellement, cette définition s’écrit : \(\mathbb{E}\left[(X_1 \dots X_d)'\right] := \left(\mathbb{E}[X_1] \dots \mathbb{E}[X_d]\right)'\). Dans le cas où \(X\) est à valeurs dans un espace de matrices, l’espérance de \(X\) est de la même façon la matrice dont les coefficients sont égaux à l’espérance de la variable aléatoire réelle définie par le coefficient correspondant de \(X\).
À retenir
Toutes les propriétés de l’espérance dans le cas unidimensionnel s’appliquent au cas multidimensionnel, et c’est également le cas pour l’espérance conditionnelle.
1.4.2 Matrice de variance-covariance
Si \(X\) est une variable aléatoire de dimension \(d\), alors \(XX'\), interprétée comme un produit matriciel, est une variable aléatoire à valeurs dans l’espace des matrices carrées de taille \(d \times d\). Pour tout \(\omega\) pris dans l’univers des résultats possibles de l’expérience aléatoire, le coefficient de la matrice \((XX')(\omega)\) à la \(i\)-ème ligne et à la \(j\)-ème colonne, pour \((i,\,j)\) pris dans \(\{1,\dots,d\}^2\), est égal au produit de la \(i\)-ème composante de \(X(\omega)\) par la \(j\)-ème composante de \(X(\omega)\).
Il importe de noter que l’ordre dans ce produit matriciel est important, alors qu’il ne l’est pas dans le cas unidimensionnel. Ainsi, \(XX'\) prend ses valeurs dans l’espace des matrices carrées de taille \(d \times d\). En revanche, \(X'X\) est également une variable aléatoire, mais elle prend ses valeurs dans l’espace des matrices carrées de taille \(1 \times 1\), qui s’identifie à la droite réelle \(\mathbb{R}\). Plus précisément, en notant \(X_i\) la \(i\)-ème composante de \(X\) pour \(i\) pris dans \(\{1,d\}\), pour tout \(\omega\) pris dans l’univers des résultats possible de l’expérience aléatoire \((X'X)(\omega) = \sum_{i=1}^d X_i(\omega)^2\).
Ces considérations permettent de définir la d’une variable aléatoire de dimension \(d\) en étendant la définition donnée dans le cas unidimensionnel.
Définition
La matrice de variance-covariance d’une variable aléatoire est égale à l’espérance du produit matriciel de la différence entre cette variable aléatoire et son espérance par la transposée de cette différence.
Formellement, cette définition s’écrit : \(\mathcal{V}(X) := \mathbb{E}\left[\left(X-\mathbb{E}[X]\right)\left(X-\mathbb{E}[X]\right)'\right]\). La discussion du paragraphe précédent implique que \(\left(X-\mathbb{E}[X]\right)\left(X-\mathbb{E}[X]\right)'\) est une variable aléatoire à valeurs dans l’espace des matrices carrées de taille \(d \times d\). Ainsi, \(\mathcal{V}(X)\) est une matrice carrée de taille \(d \times d\). On retrouve la définition du cas unidimensionnel en identifiant l’espace des matrices carrées de taille \(1 \times 1\) à la droite réelle \(\mathbb{R}\).
En vertu des propriétés de l’espérance, cette définition implique que pour un couple \((i,\,j)\) pris dans \(\{1,\dots,d\}^2\), le coefficient de \(\mathcal{V}(X)\) qui apparaît à la \(i\)-ème ligne et à la \(j\)-ème colonne est égal à l’espérance du produit de la variable aléatoire \(X_i - \mathbb{E}[X_i]\) par la variable aléatoire \(X_j - \mathbb{E}[X_j]\).
À retenir
Le coefficient de la \(i\)-ème ligne \(j\)-ème colonne de le matrice de variance-covariance de \(X\) est égal à la covariance de la \(i\)-ème composante de \(X\) et de la \(j\)-ème composante de \(X\).
En définitive, la matrice de variance-covariance de \(X\) est donc une matrice symétrique dont les éléments diagonaux sont égaux à la variance de chaque composante de \(X\), et les éléments non-diagonaux égaux aux covariances de ces composantes : \[\mathcal{V}(X) = \left( \begin{array}{ccccc} \mathcal{V}(X_1) & \mathcal{C}(X_1, X_2) & \cdots & \mathcal{C}(X_1, X_{d-1}) & \mathcal{C}(X_1, X_d) \\ \mathcal{C}(X_2, X_1) & \mathcal{V}(X_2) & \cdots & \mathcal{C}(X_2, X_{d-1}) & \mathcal{C}(X_2, X_d) \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ \mathcal{C}(X_{d-1}, X_1) & \mathcal{C}(X_{d-1}, X_2) & \cdots & \mathcal{V}(X_{d-1}) & \mathcal{C}(X_{d-1}, X_d) \\ \mathcal{C}(X_{d}, X_1) & \mathcal{C}(X_{d}, X_2) & \cdots & \mathcal{C}(X_{d}, X_{d-1}) & \mathcal{V}(X_d) \\ \end{array} \right)\]
À retenir
La matrice de variance-covariance permet de quantifier la dispersion d’une variable aléatoire multidimensionnelle.
Ainsi, cette matrice est nulle si et seulement si la variable aléatoire \(X\) est constante. En effet, si cette matrice est nulle, alors tous ses éléments diagonaux sont nuls. Par conséquent, les propriétés de la variance dans le cas unidimensionnel imposent que chaque variable aléatoire définie par une composante \(X_i\) est constante, et \(X\) est donc constante elle aussi. Le sens indirect est plus immédiat : si \(X\) est constante, alors \(X = \mathbb{E}[X]\) donc en revenant à la définition, \(\mathcal{V}(X)=0\).
Plus généralement, les termes diagonaux de la matrice de variance-covariance renseignent sur l’écart de la variable aléatoire multidimensionnelle \(X\) à son espérance. Cet écart peut-être mesuré en norme euclidienne dans \(\mathbb{R}^d\) par la variable aléatoire réelle \(\sqrt{\left(X-\mathbb{E}[X]\right)'\left(X-\mathbb{E}[X]\right)} = \sqrt{\sum_{i=1}^d \left\{X_i - \mathbb{E}[X_i]\right\}^2}\).
On peut montrer que pour tout réel strictement positif \(\alpha\), la probabilité que cette variable aléatoire réelle soit supérieure ou égale à \(\alpha\) est plus petite qu’une borne qui dépend positivement de la somme des termes diagonaux de la matrice de variance-covariance : \(\mathbb{P}\left(\sqrt{\left(X-\mathbb{E}[X]\right)'\left(X-\mathbb{E}[X]\right)} \geq \alpha\right) \leq \frac{1}{\alpha^2} \sum_{i=1}^d \mathcal{V}(X_i)\). Il s’agit là d’une généralisation multidimensionnelle de l’inégalité de Bienaymé-Tchebychev.
À retenir
La matrice de variance-covariance permet de quantifier la dépendance entre les différentes composantes d’une variable aléatoire.
Ainsi, la matrice de variance-covariance est inversible2 si et seulement si les composantes de \(X\) et la variable aléatoire constante égale à 1 sont linéairement indépendantes. En d’autres termes, \(\mathcal{V}(X)\) est inversible si et seulement si aucune des composantes de \(X\) ne peut s’écrire comme une combinaison linéaire des autres composantes plus une constante, ou encore si et seulement si la seule combinaison linéaire constante des composantes \(X_i\) est la combinaison triviale dont tous les coefficients sont égaux à 0.
La preuve de cette proposition est développée en Annexe A.1.
Avertissement
Ce concept d’indépendance linéaire est très différent du concept d’indépendance probabiliste évoqué plus haut !
Ce résultat est également valable dans le cas unidimensionnel : dans ce cas, le fait d’être inversible pour la matrice de variance-covariance est équivalent au fait d’être non-nulle pour la variance, puisque tous les réels non-nuls ont un inverse pour la multiplication. En effet, le caractère strictement positif de la variance équivaut à la non-constance de la variable aléatoire, ce qui revient à dire qu’elle ne peut pas s’écrire comme un produit d’un nombre réel par la variable aléatoire constante égale à 1.
1.4.3 Étude de la moyenne empirique
De la même façon que pour le cas unidimensionnel, il est possible de considérer le comportement asymptotique de la moyenne empirique. Ainsi, soit \(n\) un entier empirique, et soient \(X_1\) jusqu’à \(X_n\) des variables aléatoires indépendantes de dimension \(d\) et de même loi. En particulier, toutes ces variables doivent avoir la même espérance, que l’on peut noter \(\mathbb{E}[X]\), et la même matrice de variance-covariance \(\mathcal{V}(X)\) en omettant l’indice. On représente ainsi le tirage de \(n\) individus dans une certaine population, et l’observation des valeurs de la variable aléatoire \(X\) pour ces \(n\) tirages. On peut définir la moyenne empirique sur ces tirages, c’est-à-dire la variable aléatoire \(S_n = \frac{1}{n} \sum_{i=1}^n X_i\).
La linéarité de l’espérance assure que \(\mathbb{E}[S_n] = \mathbb{E}[X]\). De la même façon que pour le cas unidimensionnel, on peut montrer en revenant aux propriétés élémentaires de la covariance que la matrice de variance-covariance de la variable aléatoire \(S_n\) est égale à \(\frac{1}{n} \mathcal{V}(X)\). Ainsi, en vertu de la version multidimensionnelle de l’inégalité de Bienaymé-Tchebychev, la distribution de \(S_n\) est de plus en plus concentrée autour de la valeur \(\mathbb{E}[X]\), et la probabilité de trouver à plus d’une distance strictement positif donnée de cette valeur tend vers 0 quand \(n\) tend vers l’infini.
À retenir
La moyenne empirique s’identifie quand le nombre d’observations devient infiniment grand à l’espérance. On retrouve une version multidimensionnelle de la loi des grands nombres.
De même que pour le cas unidimensionnel, ce résultat peut être encore raffiné : lorsque \(n\) tend vers l’infini, la loi de la variable aléatoire multidimensionnelle \(\sqrt{n} \{S_n - \mathbb{E}[X]\}\) s’identifie à la loi normale multidimensionnelle de dimension \(d\), centrée (c’est-à-dire d’espérance nulle) et de matrice de variance-covariance \(\mathcal{V}(X)\). Ce résultat n’est autre que le théorème central limite dans le cas multidimensionnel. Il est particulièrement utile pour quantifier l’incertitude liée à l’utilisation de la moyenne empirique \(S_n\) comme estimateur de l’espérance \(\mathbb{E}[X]\). En effet, pour \(n\) suffisamment grand, il permet d’approximer la distribution de \(S_n\). Il est en particulier utilisé pour de nombreux résultats ayant trait à la construction d’intervalles de confiance ou de tests statistiques.
On identifie ici implicitement \(\mathbb{R}^d\) à l’espace des matrices colonnes de taille \(d \times 1\), et on note \(x'\) la transposée de \(x\). La transposée d’une matrice de taille \(k \times l\) est la matrice de taille \(l \times k\) dont le coefficient à la \(i\)-ème ligne et à la \(j\)-ème colonne est égal au coefficient de la matrice de départ à la \(j\)-ème ligne et à la \(i\)-ème colonne. Ainsi, si \(x\) est une matrice colonne de taille \(d \times 1\), alors \(x'\) est une matrice ligne de taille \(1 \times d\).↩︎
Une matrice carrée \(A\) de taille \(d \times d\) est dite inversible lorsqu’il existe une matrice carrée \(B\) de taille \(d \times d\) telle que \(AB=BA=I_d\), où \(I_d\) est la matrice identité, c’est-à-dire la matrice carrée de taille \(d \times d\) dont tous les éléments diagonaux sont égaux à 1, et tous les éléments diagonaux sont égaux à 0. Cette matrice est unique, on l’appelle l’inverse de \(A\) et on la note en général \(A^{-1}\). Des résultats élémentaires d’algèbre linéaire montrent que \(A\) est inversible si et seulement si ses colonnes sont linéairement indépendantes, ou de façon équivalente si et seulement si ses lignes sont linéairement indépendantes.↩︎