1.1 Préliminaire : questions de notation

Avant d’aborder les concepts de probabilités et de statistiques examinés dans ce chapitre, cette section vise à détailler quelques choix de notation. L’objectif est également de montrer que certaines notations qui peuvent paraître effrayantes au premier abord n’ont finalement qu’un contenu très simple.

1.1.1 Distinguer deux symboles d’égalité

Ce chapitre, et plus généralement ce support fait le choix deux deux symboles d’égalité différents. L’objectif de cette distinction est de maintenir une distinction claire entre deux usages du symbole usuel d’égalité.

Le premier symbole \(:=\) désigne l’égalité comme assignation et comme définition. Par exemple, \(x:=3\) signifie que l’on crée ou que l’on introduit un nouvel objet, noté \(x\), auquel on assigne la valeur \(3\). C’est donc une opération de définition.

Le second symbole \(=\) désigne l’égalité comme résultat. Par exemple, \(x=3\) signifie que l’on disposait déjà d’un objet noté \(x\) avec une certaine définition, et qu’au prix d’un raisonnement ou d’un calcul on montre que cet objet est égal au nombre 3.

Au vu de ce qui précède, le premier symbole se trouvera donc dans des propositions qui visent à définir ou introduire des objets ou des concepts, tandis que le second symbole se trouvera dans des propositions qui explicitent ou concluent un raisonnement.

1.1.2 Lire une somme

L’opération d’addition est bien définie sur certaines quantités ou variables, mais pas sur d’autres. Ainsi, additionner les revenus perçus par tous les membres d’un ménage est une opération pourvue de sens : le résultat de cette opération est le revenu total du ménage. Au contraire, l’opération qui consiste à additionner les catégories socioprofessionnelles des membres de ce ménage n’est pas pourvue de sens. En particulier, si on définissait cette opération comme la somme des nombres correspondant à chacune des modalités de la nomenclature à son premier niveau, alors la somme de deux ouvriers (modalité 6) est égale à 12 qui ne renvoie pas à une modalité de cette nomenclature.

Lorsque l’on considère une grandeur sur laquelle l’addition est bien définie, il n’y a aucune restriction sur le nombre de termes que l’on additionne. Ainsi, si \(n\) est un entier naturel strictement supérieur à 2, et si \(x_1\), \(x_2\), \(\dots\), \(x_n\) sont \(n\) valeurs d’une telle grandeur, alors on n’est tout autant en droit de considérer \(x_1 + x_2\) que la somme \(x_1 + x_2 + \dots + x_n\). La seconde expression est bien définie parce qu’il n’y a pas besoin de préciser l’ordre dans lequel l’opération d’addition doit être effectuée : si \(n=3\) alors \((x_1 + x_2) + x_3 = x_1 +(x_2 + x_3)\).

Pour rendre l’écriture plus compacte et plus lisible, et également plus précise, on dispose du signe somme \(\sum\). En restant dans le cas précédent, la définition et la lecture de ce signe sont simples : \[\sum_{i=1}^n x_i := x_1 + x_2 + \dots + x_n\] En d’autres termes, \(\sum_{i=1}^n x_i\) désigne simplement la somme des \(n\) valeurs \(x_1\), \(x_2\), \(\dots\), \(x_n\).

Par exemple, si \(n\) désigne le nombre d’individus résidant en France en 2022, que l’on attribue à chaque individu de façon unique un nombre entier entre \(1\) et \(n\), et que \(x_i\) désigne le salaire perçu par l’individu portant le numéro \(i\) en 2022, alors \(\sum_{i=1}^n x_i\) n’est autre que la somme de tous les salaires perçus en 2022 par tous les individus résidant en France, c’est-à-dire la contribution des salaires au Produit Intérieur Brut.

Il faut noter que dans la notation qui précède, \(i\) est ce que l’on appelle une variable muette. En d’autres termes, \(i\) ne désigne rien de particulier en dehors de la somme, tandis que les valeurs \(x_1\) à \(x_n\) sont supposés bien définis au préalable. Par conséquent, on peut remplacer \(i\) par n’importe quel autre symbole tant que cela n’introduit pas de confusion, et que l’on reste cohérent tout au long de l’expression : la proposition \(\sum_{i=1}^n x_i = \sum_{j=1}^n x_j\) est toujours vraie. En revanche, dans le cas général, et si les valeurs \(y_1\) à \(y_n\) ont été préalablement définies, on a : \(\sum_{i=1}^n x_i \neq \sum_{i=1}^n y_i\).

Le cas précédent suppose que l’on a trouvé une façon de numéroter de \(1\) à \(n\) les différentes valeurs que l’on cherche à additionner. En réalité, le résultat ne dépend pas de cette numérotation. Cela vient du fait que \(x_1 + x_2 = x_2 + x_1\), et que donc, par exemple, \(x_1 + x_2 + \dots + x_n = x_2 + x_1 + \dots + x_n\). Ainsi, il ne change rien d’avoir attribué le nombre \(1\) plutôt que \(2\) à la première valeur, et \(2\) plutôt que \(1\) à la deuxième. Plus généralement, pourvu que l’on attribue bien de façon univoque à chaque valeur un nombre entier entre \(1\) et \(n\), et inversement que deux valeurs ne se voient jamais attribuer le même nombre, choisir la façon dont cette numérotation est faite n’a pas d’importance.

Ces considérations justifient la définition suivante. Si l’on dispose d’un ensemble fini \(\mathcal{I}\) et que pour chaque élément \(i\) de cet ensemble on dispose d’une valeur \(x_i\) d’une certaine grandeur pour laquelle l’addition est bien définie, alors : \[\sum_{i \in \mathcal{I}} x_i := \sum_{j=1}^n x_{\sigma(j)}\]\(n\) est le nombre d’éléments de \(\mathcal{I}\) et \(\sigma\) est une façon d’attribuer de façon unique à chaque entier \(j\) de \(1\) à \(n\) un unique élément \(i\), et réciproquement. Le choix de cete règle de numérotation n’a aucune importance pourvu qu’elle associe bien à chaque élément \(i\) un entier naturel \(j\) entre \(1\) et \(n\), et réciproquement qu’elle permette aussi d’associer à chaque entier naturel \(j\) compris entre \(1\) et \(n\) un élément \(i\).

Par exemple, en revenant sur l’exemple précédent, si \(\mathcal{I}\) désigne l’ensemble des individus résidant en France en 2022 et \(x_i\) le salaire perçu en 2022 par l’individu \(i\), alors \(\sum_{i \in \mathcal{I}} x_i\) n’est autre que la somme de tous les salaires perçus en 2022 par les individus résidant en France, c’est-à-dire la contribution des salaires au PIB.