La statistique moderne repose entièrement sur la théorie des ensembles. Cependant cette science s'est développée antérieurement avec son vocabulaire propre. On a conservé les termes en usage de façon traditionnelle.
En statistique on étudie un ensemble qu'on appelle 'population'.
Les éléments de cet ensemble s'appelle les 'individus'.
Ainsi on peut étudier par exemple : Il n'y a aucune restriction quand à la nature des objets qu'on étudie.
Les ensembles étudiés sont toujours finis, mais ils peuvent comporter un (très) grand nombre d'éléments. Aussi très souvent on étudiera effectivement une partie de la population.
Une partie de la population s'appelle un 'échantillon'.
Le cardinal d'une partie (son nombre d'éléments) s'appelle son 'effectif' ou sa 'taille'.
En général on étudie une population sous certains aspects.
Par exemple si on étudie une population d'arbres on pourra répertorier:
  1. l'espèce
  2. l'âge
  3. la taille
Si on étudie la population des élèves d'une même classe on pourra d'intéresser à :
  1. la moyenne de mathématiques du premier trimestre
  2. la moyenne de français du premier trimestre
  3. la moyenne de maths du second trimestre
Mathématiquement, tout ceci correspond à des applications : En statistique on utilise le mot 'caractère' plutôt qu'application.
Un 'caractère' est donc tout simplement une application ayant pour ensemble de départ l'ensemble des individus, c'est à dire la population, et un ensemble d'arrivée quelconque.
Le vocabulaire concernant l'ensemble d'arrivée est également un peu spécial :
Tout élément de l'ensemble d'arrivée (image d'un individu) s'appelle une 'modalité'.
"L'effectif d'une modalité" est le nombre d'individus dont le caractère est égal à cette modalité.
Ainsi si on étudie les notes de mathématiques d'une population d'élèves d'une même classe, l'effectif de la modalité 12 est tout simplement le nombre d'élèves de cette classe ayant obtenu la note 12.
La 'fréquence' d'une modalité est le quotient de son effectif par l'effectif total de la population. Une telle fréquence peut éventuellement s'exprimer par un pourcentage.
Si dans une classe de 30 élèves, 4 d'entre eux ont obtenu la note 12, alors la fréquence de la note 12 est 4/30 soit 13.33%.
La suite des modalités d'un caractère et de leurs effectifs (ou de leurs fréquences) s'appelle la 'distribution' de ce caractère.
Un caractère est dit 'numérique' ou 'quantitatif' si son ensemble d'arrivée est un ensemble de nombres (le plus souvent ℝ ou une partie de ℝ). Dans le cas contraire on parle de caractère 'qualitatif'.
La suite des valeurs d'un même caractère pour une population donnée s'appelle une 'série statistique'.
Il s'agit donc d'une suite de nombres dans le cas d'un caractère numérique.
Notre propos est de définir certains traitements sur les séries statistiques et d'interpréter les résultats.

Café Python

Voici un programme qui génère une série statistique et qui calcule l'effectif de chaque modalité rencontrée :