Nous ne considérons ici que des v.a. à valeurs réelles.
Si vous ne l'avez déjà fait, nous vous invitons à revoir le chapitre de statistique consacré aux paramètres de position.
Il pourra être utile, en particulier, de connaître les formules donnant la moyenne pour un caractère, soit à partir des modalités soit à partir d'un découpage en classes.
L'espérance mathématique est la notion des probabilités qui correspond à la notion de moyenne en statistique descriptive. Formellement elle peut être définie comme une intégrale au sens de la théorie de Lebesgue.
Nous préférerons ici une approche progressive, en examinant successivement les cas finis, discrets et continus.

Cas des univers finis

"l'espérance mathématique" de la variable aléatoire X prenant les valeurs distinctes x1,x2, ..., xp, s'exprime par:
E ( X ) = i = 1 p x p P ( X = x p )
Une formule équivalente est :
E ( X ) = i = 1 n x i p i
où Ω={ω1, ω2, ... ,ωn}
pi=P({ωi})
xi=X(ωi).

Exemple de calcul

Reprenons l'exemple du lancer des deux dés et de la variable somme des deux faces.
Voici un tableau récapitulatif
de toutes les situations possibles
Voici la loi de X :
d2\d1
1
2
3
4
5
6
1
2
3
4
5
6
7
2
3
4
5
6
7
8
3
4
5
6
7
8
9
4
5
6
7
8
9
10
5
6
7
8
9
10
11
6
7
8
9
10
11
12
P(X=2)
1/36
P(X=3) 2/36
P(X=4) 3/36
P(X=5) 4/36
P(X=6) 5/36
P(X=7) 6/36
P(X=8) 5/36
P(X=9) 4/36
P(X=10) 3/36
P(X=11) 2/36
P(X=12) 1/36
E ( X ) = 2 × 1 36 + 3 × 2 36 + 4 × 3 36 + 5 × 4 36 + 6 × 5 36 + 7 × 6 36 + 8 × 5 36 + 9 × 4 36 + 10 × 3 36 + 11 × 2 36 + 12 × 1 36 = 7

Cas des univers discrets dénombrables

Prenons par exemple un espace probabilisé où l'univers est l'ensemble et où chaque entier n est affecté d'une probabilité pn ≥ 0 de façon que la série de terme général pn soit convergente.
Soit maintenant une v.a. X : n → X(n) définie sur un tel espace probabilisé.
On dit que la variable X possède une "espérance mathématique" E(X) si la série de terme général X(n)pn est convergente, et on pose :
E ( X ) = n = 0 X ( n ) p n = n = 0 X ( n ) P ( X = n )

Exemple de calcul

Reprenons l'exemple de la distribution géométrique.
Pour tout n ≥ 1 posons X(n)=kn où k est un nombre vérifiant -p < k < p.
E ( X ) = n = 0 q p n k n + 1 = kpq p k
A la différence du cas fini l'espérance d'une telle variable aléatoire peut ne pas être définie. Ce sera le cas si nous choisissons, par exemple, un réel k > p dans l'exemple précédent.

Cas des probabilités à densité

Nous pouvons nous inspirer du calcul de la moyenne d'un caractère donné par des classes. La contribution à l'espérance de l'évènement x < X ≤ X+dx sera x(F(x+dx)-F(x)) où F est la fonction de répartition de X; sSi F a pour densité f cela donne xf(x)dx. En faisant tendre dx vers 0 et par sommation nous obtiendrons :
E ( X ) = + xf ( x ) dx
Qui est une intégrale impropre que nous prendrons comme définition de l'espérance d'une v.a. absolument continue.
Si X est une v.a. absolument continue de densité f, et si l'intégrale
E ( X ) = + xf ( x ) dx
est convergente nous la noterons E(X) et nous l'appellerons "l'espérance mathématique" de X.

Exemple de calcul

Reprenons l'exemple de la page précédente.
La densité est représentée par la fonction :

E(X) est donc l'intégrale de -∞ à +∞ de la fonction suivante :

laquelle vaut
0 1 2 x 2 dx = 2 3

Quelques propriétés de l'espérance mathématique

Les propriétés suivantes se vérifient immédiatement.
Si X est la fonction caractéristique d'un évènement A alors l'espérance de X est P(A).
Si X est une v.a. constante k, son espérance existe et est égale à k.
Si X est d'espérance E(X), alors pour toute constante λ , la v.a. λX a pour espérance λE(X).
Si X et Y sont deux variables aléatoires sur le même espace probabilisé alors :
E(X+Y)=E(X)+E(Y)
En combinant les deux dernières propriétés on obtient :
Sur l'ensemble de toutes les v.a. sur Ω possédant une espérance, l'application X → E(X) est une forme linéaire.

Variables centrées

Une v.a. est dite "centrée" si elle possède une espérance mathématique et si cette espérance est nulle.
Il est facile de voir que
Si X est une variable possédant l'espérance E(X) alors la variable X-E(X) est centrée.
Cela se vérifie en utilisant la seconde et la dernière des propriétés du paragraphe précédent.