Le problème

Nous avons vu à la page précédente, ce que signifie des caractères indépendants.
A l'opposé complet de cette notion se trouvent des caractères liés l'un à l'autre par une dépendance fonctionnelle, du type Y=f(X), c'est à dire si toute modalité yi se déduit d'une modalité yi par une application f : xi → yi.
Dans ce cas la connaissance de la série statistique X détermine entièrement la série Y, et si on représente la courbe y=f(x) les points du nuage viennent se placer sur le graphe de la fonction f.
Dans ce cas toujours la connaissance de la série Y n'apporte aucune information nouvelle par rapport à X.
Un des buts de la statistique est de trouver des relations entre les caractères. Ainsi les sociétés d'assurance, pour établir leurs contrats d'assurance-vie commence par dresser des tables liant l'espérance de vie restante, liée au sexe, à l'âge, aux habitudes de vie, au rapport taille-poids etc...
Quant on cherche une relation entre deux caractères numériques la première chose à faire est de représenter le nuage de points matérialisant ces deux caractères et de voir si les points semblent dessiner une courbe connue.
Ainsi dans l'exemple ci-dessous, et dans le premier cas la répartition des points semble totalement aléatoire, dans le second cas, les points semblent s'aligner sur une droite, et dans le troisième cas les points semblent dessiner une parabole.
Premier cas Second cas Troisième cas
Nous nous intéressons ici spécialement au second cas quand la fonction f est une fonction affine du type y=ax+b.
En fait le cas général n'est pas très différent car dire que Y est lié à X par une fonction du second degré du type ax2+b revient à dire qu'il y a une relation linéaire entre les caractères X et Y=X2.

La méthode des moindres carrés

Nous cherchons à résoudre le problème suivant :
Etant donné un nuage Mi(xi,yi) et une droite D d'équation y=ax+b, nous posons
Σ = i = 1 n ( y i a x i b ) 2
Nous cherchons la droite D qui minimise Σ.
Cest la droite qui passe 'au plus près' des points du nuage suivant les moindres carrés.
Nous l'appelons la 'droite de régression' de Y en X (ou de Y sur X).
Pour cela nous observons que Σ=φ(a,b) est une fonction du second degré en a et b.
A ce stade nous n'avons pas encore étudié les extrema des fonctions de deux variables, cependant, considérons à a fixé la fonction d'une seule variable b → φ(a,b).
On se place dans l'hypothèse où la variance de X est non nulle.
Son minimum correspond à une annulation de la dérivée de cette fonction partielle. Cette dérivée se note traditionnellement φ b .
Elle se calcule facilement comme une dérivée d'une fonction d'une seule variable a étant considéré comme une constante.
φ b ( a , b ) = 0 Y ¯ = a X ¯ + b
Ce qui prouve au passage que la solution passe par le point moyen.
Il reste maintenant à trouver la valeur de a réalisant ce minimum.
Nous remplaçons pour cela b par son expression ci-dessus en fonction de a soit b = Y ¯ a X ¯
pour avoir une fonction d'une seule variable a, dont nous cherchons le minimum.
Nous avons alors
( a , b ( a ) ) da = 2 n i = 1 n ( x i X ¯ ) ( ( y i Y ¯ ) a ( x i X ¯ ) )
de sorte que l'annulation se produit pour
a = Cov ( X , Y ) Var ( X )
Sur l'applet suivante nous avons représenté un nuage de points (couleur bleue).
Nous avons également représenté le point moyen en rouge, ainsi que la droite de régression R de Y en X (couleur rouge).
Vous voyez également une droite variale D d'équation y=ax+b.
Vous pouvez avec les curseurs faire varier la pente a de D ainsi que son ordonnée à l'origine b.
Lorsque vous faites varier a et b vous voyez s'afficher le nombre Σ
Σ = i = 1 n ( y i a x i b ) 2
Observez que le minimum de Σ est bien atteint quand D=R.
Pour cela donner d'abord à a la valeur 1 (pente de la droite R), puis faites varier b jusqu'à ce que les deux droites coïncident.

Le problème n'est pas symétrique en X et Y la pente de la droite de régression de X en Y est Cov ( X , Y ) Var ( Y ) .
Par contre les deux droites passent par le point moyen.
Le terme régression a une origine curieuse. Il remonte à l’étude du physiologiste et anthropologue Sir Francis Galton (voir photo ci-dessous) sur la relation entre la taille des parents et celle des enfants. Galton était un cousin de Charles Darwin. Il observa que les enfants de parents courts de taille, lorsqu’ils étaient rendus à l’âge adulte, avaient tendance à être de petite taille eux aussi, mais pas autant que leurs parents. Ils avaient plutôt une taille les rapprochant de la moyenne de la population. Il en était de même des enfants de parents de grande taille: leurs enfants semblaient régresser vers la moyenne (dans le sens de “retourner vers un état antérieur”), comme semblait le montrer le diagramme de dispersion. Galton appela “rapport de régression filiale” la pente de la relation graphique linéaire entre la taille des parents et celle des enfants.
(d'après Pierre Legendre & Daniel Borcard, Université de Montréal)

Coefficient de regression linéaire

Par application du paragraphe précédent on peut toujours, si la variance de X n'est pas nulle , tracer la droite de régression de Y en X.
Le problème est de savoir si ce tradé a un sens.
Ce tracé a un sens chaque fois que les points du nuage semblent alignés.
Mais ici nous nous fions seulement à une impression visuelle. Le but est maintenant de remplacer cela par une estimation plus rigoureuse.
Les principaux contributeurs de cette théorie sont les messieurs dont les portraits suivent.
Francis Galton (1822-1911/UK) Auguste Bravais (1811-1863)/FR) Karl Pearson (1857-1927/UK)
C'est Pearson qui a mis au point de façon définitive un estimateur appelé 'coefficient de corrélation linéaire', dont voici la définition :
Soient X et Y deux caractères sur une même population, tous deux de variance non nulle.
On appelle 'coefficient de corrélation linéaire de X et Y' (de Bravais-Pearson) le nombre :
r ( X , Y ) = Cov ( X , Y ) σ ( X ) σ ( Y )
Introduisons maintenant les vecteurs U = x 1 X ¯ x 2 X ¯ . . . x n X ¯ et V = y 1 Y ¯ y 2 Y ¯ . . . y n Y ¯
Le coefficient de corrélation linéaire peut s'écrire :
r ( X , Y ) = U V U V
C'est donc d'après l'inégalité de Cauchy-Schwarz un nombre dans l'intervalle [-1,+1] correspondant à un cosinus d'un angle de deux vecteurs dans l'espace ℝn.

Interprétation

Le coefficient r n'exprime qu'une relation de dépendance linéaire. Une variable Y peut être égale au carré de l'autre X avec r(X,Y)=0 (voir contre-exemple page précédente).
Attention, relation fonctionnelle (linéaire ou non) ne signifie pas forcément causalité. Si les ventes de crèmes glacées sont corrélées aux ventes de ventilateurs, il n’y a pas de lien direct entre ces deux évolutions mais avec un troisième phénomène qui est la chaleur…

Café Python