Une théorie mathématique n'est vraiment mature que lorsqu'elle est totalement axiomatisée.
L'axomatisation est un processus englobant destiné à poser un cadre théorique général couvrant la totalité des cas particuliers ayant servi d'exemples pour les débuts du développement de la théorie.
On a très vite trouvé un cadre satisfaisant pour couvrir le cas des univers fini. Ce cadre, très simple, ne fait intervenir l'analyse mathématique que pour les problèmes de limites, mais on reste dans le cas des limites de suites.
Pour couvrir le cas des univers infinis, dénombrables ou continus, dont nous avons déjà vus quelques exemples avec les probabilités géométriques, il fallait attendre que d'autres théories, en particulier la théorie de la mesure, soient elles-mêmes axiomatisées.
Le calcul des probabilités moderne repose en effet en grande partie sur le calcul intégral moderne et la théorie de Riemann, quels que soient ses mérites n'était pas adaptée.
Il a fallu attendre les travaux de Borel et de Lebesgue pour disposer du cadre théorique satisfaisant. Ce fut ensuite le travail de Kolmogorov que de formaliser la théorie et de lui donner des fondements sûrs.

Galerie des portaits

Emile Borel
(1871/1956-FR)
Henri-Léon Lebesgue
(1875/1941-FR)
Andrei Nikolaevitch Kolmogorov
(1903/1987-URSS)

Notion de tribu

Soit E un ensemble quelconque (dans notre cas ce sera l'univers des résultats d'une épreuve aléatoire).
Une famille F de parties de E est appelée une 'tribu' (ou encore une 'σ-algèbre' ou plus rarement une 'algèbre de Borel') si elle vérifie les propriétés suivantes :
  1. E ∈ F
  2. Si A,B ∈ F alors A, B, A∩B, A∪B, appartiennent également à F
  3. Si A1,A2, ... , An, ... forment une suite infinie d'éléments de F alors
  4. i A i F et i A i F
Autrement dit, les tribus sont les familles de parties stables par réunion et intersection finies ou dénombrables ainsi que par passage au complémentaire.
Nous avons déjà rencontré des familles de parties possédant des propriétés voisines, par exemple la famille des ouverts d'un espace métrique, cependant la stabilité n'était dans ce cas assurée que pour les intersections finies.
Notons tout de suite que :
Pour tout ensemble E, l'ensemble (E) de toutes les parties de E est une tribu.

Tribu engendrée

Soit une famille de parties de Ω. Il existe une 'plus petite' tribu contenant tous les éléments de , on l'appelle la tribu 'engendrée' par .
En effet il existe des tribus contenant , par exemple comme nous l'avons remarqué (Ω). L'intersection de toutes ces tribus est évidemment encore une tribu qui possède la propriété voulue.

Tribu des boréliens

Soit Ω un produit d'intervalles de ℝ. On appelle 'tribu des boréliens' la tribu engendrée par les ouverts de Ω.
Un 'pavé' de ℝn est un produit de n intervalles finis [a1,1,a1,2]×[a2,1,a2,2]× ... × [an,1,an,2].
La 'mesure' d'un tel pavé est le produit (a2,1-a1,1)×(a2,2-a2,1)× ... ×(an,2-an,1).
NB : Dans le cas n=1 on retrouve donc la longueur d'un segment, dans le cas n=2, la surface d'un rectangle, dans le cas n=3 le volume d'un parallélépipède. Etant donné que chaque ouvert de ℝn est réunion d'un ensemble dénombrable de pavés on peut tout aussi bien définir la tribu des boréliens comme la tribu engendrée par les pavés.

Espaces probabilisés

Une 'probabilité' sur une tribu d'un ensemble E est une fonction P: possédant les propriétés suivantes :
  1. P est à valeurs positives ou nulles
  2. P(E)=1
  3. Si A1, ... ,An sont n éléments de la tribu 2 à deux incompatibles (P(Ai∩Aj)=0 ∀ i,j i≠j ) alors
    P(A1∪A2∪ ... ∪An)=P(A1)+P(A2)+ ... +P(An).
    C'est le principe d'additivité finie.
  4. Si (Ai) 1≤i≤n est une famille dénombrable de la tribu, formée d'évènements deux à deux incompatibles, alors P ( 1 i n A i ) = i = 1 n P ( A i )
    (additivité 'complète')
Le lecteur intéressé pourra voir avec cet exercice que l'axiome d'additivité totale est encore équivalent à un autre axiome appelé 'axiome de continuité'.
Bien entendu les axiomes 3 et 4 peuvent être regroupés en un seul avec la mention familles finies ou dénombrables (au plus dénombrables). Nous gardons cette formulation pour le lecteur intéressé seulement par les cas finis.
Il résulte immédiatemment de ces principes que :
Un 'espace probabilisé' consiste en la donnée d'un ensemble Ω appelé 'univers' muni d'une tribu appelée tribu des 'évènements' et d'une probabilité P définie sur E.
Un tel espace se note formellement (Ω,,P).
En pratique Ω correspond à l'ensemble des résultats d'une épreuve aléatoire.

Quelques exemples

Univers finis

Dans le cas d'un ensemble fini quelconque Ω comportant n élements ω1, ω2, ... ,ωn, il est très facile de le transformer en un espace probabilisé.
Il suffit pour cela de prendre pour tribu l'ensemble (Ω) de toutes les parties de Ω.
Une probabilité sera associée à toute suite de n nombres réels positifs (p1, p2, ... ,pn) vérifiant i = 1 n p i = 1 .
La probabilité d'un évènement A sera définie comme
p ( A ) = i ω i A p i
Dans le cas particulier où pi=1/n ∀ i on retrouve le cas de l'équiprobabilité (probabilité uniforme).

Univers dénombrables

Dans le cas où l'espace est infini dénombrable Ω={ω1, ω2, ... ,ωn, ....}, on procède comme précédemment mais en prenant une série convergente à termes positifs de somme égale à 1, au lieu d'une suite finie.
Cette fois encore nous prenons pour tribu l'ensemble (Ω) de toutes les parties de Ω.
Soit maintenant la série convergente de terme général positif pi et vérifiant :
i = 1 p i = 1
On pose cette fois encore :
p ( A ) = i ω i A p i
Sauf que cette fois le membre de droite n'est plus nécessairement une somme finie mais peut être une série extraite de la série de terme général pi.
Le fait qu'on a bien une probabilité résulte des propriétés des séries convergentes à termes positifs (associativité de la somme, convergence commutative, etc.).
Voir par exemple cet exercice, et encore cet autre.

Cas infini continu

Ce cas est le plus délicat. Nous ne considérerons que des ensembles qui sont soit des intervalles de longueur 1, soit des carrés de surface 1, soit des cubes de volume 1, etc...
Nous admettrons que certains sous-ensembles, que l'on sait plus ou moins caractériser, sont qualifiés de 'mesurables'.
Appartiennent à cette catégorie entre, les points (singletons), les ensembles dénombrables, les intervalles ou plus généralement les pavés (intervalles, rectangles, parallélépipèdes), les réunions et les intersections dénombrables de tels ensembles.
Nous définissons la mesure d'un segment comme sa longueur, celle d'un rectangle comme sa surface, celle d'un parallélépipède comme son volume.
Nous admettrons que les figures géométriques simples du plan et de l'espace, polygones, polytopes, cercles, sphères, etc... appartiennent bien à la catégorie des ensembles mesurables et que leurs mesures sont celles données par les formules usuelles.
En fait nous traiterons des problèmes où les évènements correspondent à des figures géométriques simples, connues et dont on connait la mesure. Le fait qu'on puisse considérer des évènements plus complexes et dont la mesure est moins aisée sera complètement transparent, et aucune difficulté ne sera soulevée à ce niveau dans ce cours.
Pour des exemples voir ou revoir certains exercices de la page précédente: Comme nous l'avons vu précédemment les points seront nécessairement de mesure nulle. L'axiome d'additivité totale exige en outre que tous les ensembles dénombrables soient également de mesure nulle.
De tels ensembles non vides et de probabilité nulle, qualifiés en théorie de la mesure de 'négligeables' sont appelés traditionellement en probabilité 'presque impossibles'.
NB: Il existe des ensembles presque impossibles et cependant non dénombrables (faire une recherche 'ensemble triadique de Cantor K').
Nous admettrons en outre le résultat suivant qui appartient à la théorie de l'intégrale de Lebesgue :
Pour tout produit Ω d'intervalles compacts il existe une probabilité P et une seule sur les boréliens de Ω telle que pour tout pavé Q
P(Q)=mesure(Q)/mesure(Ω). La mesure étant à prendre au sens précédent.

La formule du Cribe de Poincaré

Quand des évènements sont deux à deux mutuellemente exclusifs, la probabilité de leur disjonction est la somme de leurs probabilités (axiome d'additivité), mais qu'en est-il quand ils ne sont pas exclusifs ?

Cas de deux évènements.

Si A et B sont deux évènements quelconques on a P(A∪B)=P(A)+P(B)-P(A∩B)
En effet, on a A∪B=(A-B)∪(A∩B)∪(B-A) et (A-B), (A∩B) et (B-A) est un système d'évènements deux à deux exclusifs.
On a donc P(A∪B)=P(A-B)+P(B-A)+P(A∩B).
Mais P(A-B)+P(A∩B) =P(A) car A-B et A∩B sont incompatibles. De la même façon, P(B-A)+P(A∩B)=P(B), d'où notre formule.

Cas de trois évènements


Image wikipédia
On applique deux fois la formule précédente :
P(A∪B∪C)
=P(A∪(B∪C))
=P(A)+P(B∪C)-P(A∩(B∪C))
=P(A)+P(B)+P(C)-P(B∩C)-P((A∩B)∪(A∩C))
=P(A)+P(B)+P(C)-P(P∩C)-(P(A∩B)+P(A∩C)-P(A∩B;∩C))
=P(A)+P(B)+P(C)-P(A∩B)-P(A∩C)-P(B∩C)+P(A∩B∩C) D'où notre résultat
Si A,B et c sont trois évènements quelconques :
P(A∪B∪C)= P(A)+P(B)+P(C)-P(A∩B)-P(A∩C)-P(B∩C)+P(A∩B∩C)

Cas général

Ces résultats se généralisent à une famille de n évènements par la formule dite du crible attribuée à Poincaré mais due à Abraham de Moivre
P ( 1 i n A i ) = k = 1 n ( 1 ) k 1 1 i 1 < i 2 < . . . < i k n P ( A i 1 A i 2 . . . A i k )
Cette formule se démontre par récurrence de la même façon que le cas n=3 s'obtient à partir du cas n=2.
Ecrivons encore une formule analogue mois formelle, mais peut-être un peu plus lisible :
P(A1∪A2∪...∪An)= P(A1)+P(A2)+ ... + P(An) -Σ P(Ai∩Aj) +Σ P(Ai∩Aj∩Ak) - .... +(1)n-1P(A1∩A2∩ ... ∩An)
Pour une application voir cet exercice.