On s'intéresse maintenant à plusieurs caractères distincts sur les individus d'une même population.

Séries doubles

Commençons avec le cas de deux caractères numériques X et Y.
Les individus sont assimilés à des numéros 1,2, ... ,n.
Pour chaque individu i 1 ≤i≤ n on a donc une valeur xi=X(i) et une valeur yi=Y(i), déterminant un point du plan de coordonnées (xi,yi).
L'ensemble de ces points forme un 'nuage'.
Un point particulier joue un rôle important, c'est le point moyen.
Le 'point moyen' du nuage est le point donc les coordonnées sont la moyenne des xi et la moyenne des yi.
Il résulte immédiatement de la définition que :
Le point moyen est l'isobarycentre des points du nuage.
Voici une représentation graphique d'une série double avec point moyen.

NB : La notion de 'nuage' comme ensemble de points dans un espace produit existe également pour des caractères non quantitatifs, mais dans ce cas la notion de 'point-moyen' n'a aucun sens.

Distributions conditionnelles

Lorsque nous affirmons qu'un caractère est 'indépendant du sexe' nous voulons dire que pour chaque modalité de ce caractère la fréquence totale (rapportée à la population) est égale à la fréquence de cette modalité restreinte à la population mâle et encore égale à la fréquence de cette modalité restreinte à la population femelle.
Nous allons maintenant donner un sens précis à tout cela.
Nous considérons une population P d'effectif n et sur cette population 2 caractères X et Y (non nécessairement quantitatifs).
Pour le caractère X nous supposons qu'il y a p modalités distinctes x1, x2, ... ,xp.
Pour le caractère Y nous supposons qu'il y a q modalités distinctes y1, y2, ... ,yq.
Pour chaque couple (xi,yj) nous désignons par nij le nombre d'individus dont le caractère X vaut xi et le caractère Y vaut yj.
Autrement dit, en language ensembliste : nij=Card(X-1(xi)∩Y-1(yj)).
Les données peuvent donc être représentées par une matrice rectangulaire (ci-après en jaune) à coefficients entiers à p lignes et q colonnes.
X\Y
y1
y2
...
yq
Sommes
des lignes
x1
n11
n12
...
n1q
n1+
x2
n21
n22
...
n2q
n2+
...
...
...
...
...
...
xp
np1
np2

npq
np+
Sommes
des colonnes
n+1
n+2
...
n+q
n
Nous avons ici adopté les notations suivantes :
n i + = j = 1 q n ij
n + j = i = 1 p n ij
De sorte que ni+ est l'effectif de la modalité xi, et n+j est l'effectif de la modalité yj.
Nous avons donc :
i , j n ij = i = 1 p n i + = j = 1 q n + j = n
La suite ((x1,n1+),(x2,n2+), ... ,(xp,np+)) constitue donc la distribution en effectifs du caractère X indépendamment de Y, de même que la suite ((y1,n+1),(y2,n+2), ... ,(yq,n+q)) constitue la distribution de Y indépendamment de X.
Ces deux distributions sont qualifiées de 'marginales' (dans la marge).
Les distributions marginales en fréquences s'obtiennent en divisant les effectifs par n, l'effectif total.

Distribution conditionnelle de Y pour X=xi

On considère seulement la partie de la population totale dont la modalité pour X est xi, soit en langage ensembliste X-1(xi).
Alors la restriction de Y à cette partie est un caractère dont la distribution en effectifs est donnée par la ligne i de la matrice ci-dessus.
Par ailleurs, la distribution en fréquences s'obtient en divisant chaque coefficient par ni+.

Distribution conditionnelle de X pour Y=yj

On considère seulement la partie de la population totale dont la modalité pour Y est yj, soit en langage ensembliste Y-1(yj).
Alors la restriction de X à cette partie est un caractère dont la distribution en effectifs est donnée par la colonne j de la matrice ci-dessus.
Par ailleurs, la distribution en fréquences s'obtient en divisant chaque coefficient par n+j.

Indépendance statistique

Reprenant les définitions et les notations ci-dessus on dit que 'X est indépendant de Y' si chaque distribution conditionnelle de X pour Y=yj en fréquences est égale à la distribution marginale de X en fréquences.
Cela revient donc à dire qu'on a les égalités :
n ij n i + = n + j n
Soit encore :
n ij = n i + × n + j n
ou bien :
n ij n = n i + n × n + j n
Cette dernière égalité peut s'exprimer ainsi en termes de fréquences :
f((X=xi)et(Y=yj))=f(X=xi)×f(Y=yj)
Il en resulte immédiatemment que cette relation d'indépendance est symétrique en (X,Y).
En outre,
Si X et Y sont deux caractères numériques indépendants : XY ¯ = X ¯ . Y ¯
En effet :
XY ¯ = 1 n i = 1 p j = 1 q n ij x i y j = 1 n i = 1 p x i j = 1 q n i + n + j n y j = 1 n i = 1 p x i n i + 1 n j = 1 q n + j y j = 1 n i = 1 p x i n i + Y ¯ = X ¯ . Y ¯
La réciproque est fausse!
Voir plus bas un contre exemple.

covariance

Ce paragraphe ne concerne que les caractères numériques.
Nous cherchons un critère (la covariance) pour mesurer la dépendance (ou son contraire) de deux caractères X1 et X2. Si X1 et X2 sont fortement liés, on pourrait penser définir la covariance en développant l'idée suivante : Cette idée ne convient pas, car nous voulons que la covariance reste inchangée quand les distributions de probabilité des caractères sont translatées par des quantités arbitraires. Au lieu de mesurer X1 et X2 à partir de 0, nous allons donc les mesurer à partir de références qui se translatent en même temps que les distributions, par exemple leurs moyennes µ1 et µ2. Notre idée originale devient maintenant : Ainsi, si X1 et X2 sont fortement liés, les quantités (X1 - µ1) et (X2 - µ2 ) seront le plus souvent : Le produit (X1- µ1).(X2 - µ2 ) sera donc alors le plus souvent positif : Le produit (X1 - µ1).(X2 - µ2) est un caractère, et nous voulons un nombre fixe. Mais un caractère dont les modalités sont principalement positives doit vraisemblablement avoir une moyenne positive. Nous considérerons donc la moyenne du produit (X1 - µ1).(X2 - µ2), que nous appellerons covariance de X1 et X2.
Nous définissons donc ainsi la 'covariance' de X et Y : Cov(X,Y)= ( X X ¯ ) ( Y Y ¯ ) ¯
On montre facilement qu'une définition équivalente est : Cov ( X , Y ) = XY ¯ X ¯ . Y ¯
Il résulte de cela et du paragraphe précédent que : X et Y indépendants ⇒ Cov(X,Y)=0
La réciproque est fausse !
Prendre par exemple une population à 3 éléments et le caractère X=(-1,0,1) et prendre Y=X2.
On a X ¯ = X 3 ¯ = 0
X et Y ne sont pas indépendants puisque la matrice des nij est
0 1 1 0 0 1
On a cependant
Cov ( X , Y ) = XY ¯ X ¯ . Y ¯ =0.
Si X, Y, W, and V sont des caractères numériques et a, b, c, d des constantes (c'est à dire des caractères n'ayant qu'une seule modalité) alors les propriétés suivantes sont des conséquences immédiates de la définition :
  1. Cov(X,a)=0
  2. Cov(X,X)=Var(X)
  3. Cov(X,Y)=Cov(Y,X)
  4. Cov(aX,bY)=abCov(X,Y)
  5. Cov(X+a,Y+b)=Cov(X,Y)
  6. Cov(aX+bY,cW+dV)=acCov(X,W)+adCov(X,V)+bcCov(Y,W)+bdCov(Y,V)
C'est à dire que Cov est une forme bilinéaire symétrique.

Café Python

Ce programme calcule une covariance :