Maîtriser le vocabulaire statistique : population, individu, caractère, effectif, fréquence
Construire et exploiter des tableaux de fréquences (données discrètes et groupées en classes)
Calculer les indicateurs de position : moyenne, médiane, mode, quartiles \(Q_1\) et \(Q_3\)
Calculer les indicateurs de dispersion : étendue, variance, écart-type, coefficient de variation
Construire et interpréter une boîte à moustaches (boxplot)
Étudier une série statistique à deux variables : nuage de points, covariance, coefficient de corrélation \(r\), droite de régression
Réaliser un ajustement linéaire d'une série chronologique et effectuer des prévisions
Situation professionnelle
Contrôle qualité et suivi énergétique
Situation 1 — Contrôle qualité (B1, B2, C1) : Un ingénieur qualité dans une usine d'usinage de pièces métalliques prélève quotidiennement un échantillon de 50 pièces et mesure leur diamètre au centième de millimètre. Il doit vérifier que la production respecte les tolérances, détecter toute dérive et produire un rapport statistique mensuel.
Situation 2 — Énergie et bâtiment (B3, D1, D2) : Un responsable technique suit chaque mois la consommation électrique (en kWh) de plusieurs bâtiments tertiaires. Il analyse la dispersion des consommations, identifie les bâtiments énergivores et modélise l'évolution de la consommation en fonction du temps pour anticiper les besoins futurs.
Problème central : Comment résumer, analyser et communiquer efficacement une série de mesures ? Les outils de la statistique descriptive répondent à cette question.
1. Vocabulaire statistique
Définition — Population et individu
La population est l'ensemble des éléments étudiés. Chaque élément est un individu. Exemple : La population est l'ensemble des 840 pièces usinées en janvier. Chaque pièce est un individu.
Définition — Caractère et série statistique
Le caractère (ou variable statistique) est la grandeur observée sur chaque individu.
— Un caractère qualitatif prend des valeurs non numériques (couleur, référence, état).
— Un caractère quantitatif discret prend des valeurs numériques isolées (nombre de défauts, rang).
— Un caractère quantitatif continu peut prendre toute valeur dans un intervalle (diamètre, température).
La série statistique est la liste des valeurs observées.
Définition — Effectif et fréquence
L'effectif \(n_i\) d'une valeur \(x_i\) est le nombre d'individus qui prennent cette valeur.
L'effectif total est \(N = \displaystyle\sum_{i} n_i\).
La fréquence relative de \(x_i\) est \(f_i = \dfrac{n_i}{N}\).
La fréquence en pourcentage est \(f_i \times 100\).
La fréquence cumulée croissante (FCC) est la somme des fréquences jusqu'à la valeur \(x_i\).
2. Statistique à une variable — Tableaux et représentations
2.1 Série discrète — Tableau de fréquences
Exemple — Nombre de défauts par lot
Un technicien qualité relève le nombre de défauts observés sur 60 lots de production :
Nombre de défauts \(x_i\)
0
1
2
3
4
Total
Effectif \(n_i\)
18
22
12
6
2
60
Fréquence \(f_i\)
0,30
0,37
0,20
0,10
0,03
1,00
FCC
0,30
0,67
0,87
0,97
1,00
—
Le diagramme en bâtons représente les effectifs (ou fréquences) en fonction des valeurs.
2.2 Série continue — Tableau de classes
Définition — Classes et amplitude
Lorsque le caractère est continu (ou que les valeurs sont très nombreuses), on regroupe les données en classes \([a_i\,;\,a_{i+1}[\).
L'amplitude de la classe est \(a_{i+1} - a_i\).
Le centre de classe est \(c_i = \dfrac{a_i + a_{i+1}}{2}\).
Exemple — Diamètre de pièces usinées (en mm)
Un ingénieur qualité mesure le diamètre de 100 pièces. La cote nominale est 25,00 mm, tolérance ±0,15 mm.
Classe (mm)
Centre \(c_i\)
Effectif \(n_i\)
Fréquence \(f_i\)
FCC
[24,80 ; 24,85[
24,825
3
0,03
0,03
[24,85 ; 24,90[
24,875
7
0,07
0,10
[24,90 ; 24,95[
24,925
15
0,15
0,25
[24,95 ; 25,00[
24,975
28
0,28
0,53
[25,00 ; 25,05[
25,025
24
0,24
0,77
[25,05 ; 25,10[
25,075
14
0,14
0,91
[25,10 ; 25,15[
25,125
6
0,06
0,97
[25,15 ; 25,20[
25,175
3
0,03
1,00
Total
—
100
1,00
—
L'histogramme représente les fréquences (ou densités) en fonction des classes. La surface de chaque barre est proportionnelle à la fréquence.
3. Indicateurs de position
3.1 Moyenne
Propriété — Moyenne pondérée
Pour une série de valeurs \(x_1, x_2, \ldots, x_k\) d'effectifs \(n_1, n_2, \ldots, n_k\) :
\[\bar{x} = \frac{\displaystyle\sum_{i=1}^{k} n_i \, x_i}{N}\]
où \(N = \displaystyle\sum_{i=1}^{k} n_i\) est l'effectif total.
Pour des données groupées en classes, on remplace \(x_i\) par le centre de classe \(c_i\).
Mini-exercice : Un atelier relève le nombre de pièces rebutées par jour sur 5 jours : 4, 7, 5, 6, 8. Calculer la moyenne \(\bar{x}\) du nombre de rebuts par jour.
\[\bar{x} = \frac{4+7+5+6+8}{5} = \frac{30}{5} = 6\]
En moyenne, l'atelier rebute 6 pièces par jour.
Exemple — Calcul de la moyenne (classes de diamètres)
Définition — Médiane \(Me\)
La médiane est la valeur qui partage la série en deux groupes d'effectifs égaux : 50 % des valeurs sont inférieures ou égales à \(Me\) et 50 % sont supérieures ou égales à \(Me\).
— Sur données triées : si \(N\) est pair, \(Me\) est la moyenne des deux valeurs centrales ; si \(N\) est impair, \(Me\) est la valeur centrale.
— Sur tableau de fréquences cumulées : \(Me\) est la valeur pour laquelle FCC atteint 0,50.
Méthode — Médiane par interpolation linéaire (classes)
On cherche la classe qui contient la médiane (FCC passe de moins de 0,50 à plus de 0,50).
Si la classe médiane est \([a\,;\,b[\) et que la FCC avant cette classe est \(F_{\text{avant}}\), l'effectif de la classe est \(n_c\) :
\[Me = a + \frac{0{,}50 - F_{\text{avant}}}{f_c} \times (b - a)\]
où \(f_c = n_c / N\) est la fréquence de la classe médiane.
Exemple — Médiane des diamètres
La FCC passe de 0,25 à 0,53 dans la classe [24,95 ; 25,00[. C'est la classe médiane.
Définition — Mode
Le mode est la valeur (ou la classe) qui présente le plus grand effectif.
— Pour une série discrète : la valeur la plus fréquente.
— Pour une série groupée : la classe modale est la classe d'effectif maximal ; le mode est son centre.
Exemple
Pour les défauts par lot : le mode est 1 (effectif 22, le plus élevé).
Pour les diamètres : la classe modale est [24,95 ; 25,00[ (effectif 28), donc le mode ≈ 24,975 mm.
3.4 Quartiles Q1 et Q3
Définition — Quartiles
Les quartiles partagent la série ordonnée en quatre groupes d'effectifs égaux (25 % chacun) :
— \(Q_1\) (premier quartile) : 25 % des valeurs lui sont inférieures ou égales.
— \(Q_2 = Me\) (deuxième quartile) : la médiane.
— \(Q_3\) (troisième quartile) : 75 % des valeurs lui sont inférieures ou égales.
Méthode — Quartiles par interpolation linéaire (classes)
Même méthode que pour la médiane, en remplaçant 0,50 par 0,25 (pour \(Q_1\)) ou 0,75 (pour \(Q_3\)) :
\[Q_1 = a + \frac{0{,}25 - F_{\text{avant}}}{f_c} \times (b-a) \qquad Q_3 = a + \frac{0{,}75 - F_{\text{avant}}}{f_c} \times (b-a)\]
Mini-exercice : Les durées de vie (en milliers d'heures) de 9 ampoules LED, triées, sont : 32, 35, 38, 40, 42, 44, 47, 50, 55. Déterminer la médiane \(Me\), puis \(Q_1\) et \(Q_3\) (par lecture directe sur la série triée).
\(N = 9\) (impair). La médiane est la valeur centrale, de rang \(\frac{9+1}{2} = 5\) : \(Me = 42\).
\(Q_1\) : 25 % de 9 = 2,25, on prend la valeur de rang 3 → \(Q_1 = 38\).
\(Q_3\) : 75 % de 9 = 6,75, on prend la valeur de rang 7 → \(Q_3 = 47\).
Intervalle interquartile : \(\text{IIQ} = Q_3 - Q_1 = 47 - 38 = 9\) (milliers d'heures).
Exemple — Quartiles des diamètres
Q1 : La FCC passe de 0,10 à 0,25 dans [24,90 ; 24,95[.
Définition — Étendue et IIQ
L'étendue est la différence entre la valeur maximale et la valeur minimale :
\[e = x_{\max} - x_{\min}\]
L'intervalle interquartile (IIQ) mesure la dispersion du « cœur » de la distribution (50 % des données centrales) :
\[\text{IIQ} = Q_3 - Q_1\]
Ces indicateurs sont robustes face aux valeurs extrêmes (outliers).
4.2 Variance et écart-type
Propriété — Variance et écart-type
La variance mesure la dispersion quadratique moyenne des valeurs autour de la moyenne :
\[V = \sigma^2 = \frac{\displaystyle\sum_{i=1}^{k} n_i (x_i - \bar{x})^2}{N}\]
Formule équivalente (calcul simplifié) :
\[V = \overline{x^2} - \bar{x}^2 = \frac{\displaystyle\sum_{i=1}^{k} n_i \, x_i^2}{N} - \bar{x}^2\]
L'écart-type est \(\sigma = \sqrt{V}\). Il s'exprime dans la même unité que les données.
Attention
La variance est en unité au carré (mm², kWh²…), ce qui la rend difficile à interpréter directement. On lui préfère l'écart-type \(\sigma\) qui s'exprime dans la même unité que les données.
Mini-exercice : Cinq mesures de tension (en V) relevées sur une ligne sont : 228, 230, 231, 229, 232. Calculer la moyenne \(\bar{x}\), la variance \(V\) puis l'écart-type \(\sigma\) à l'aide de la formule \(V = \overline{x^2} - \bar{x}^2\).
\[\bar{x} = \frac{228+230+231+229+232}{5} = \frac{1150}{5} = 230 \text{ V}\]
\[\overline{x^2} = \frac{228^2+230^2+231^2+229^2+232^2}{5} = \frac{51984+52900+53361+52441+53824}{5} = \frac{264510}{5} = 52902\]
\[V = 52902 - 230^2 = 52902 - 52900 = 2 \text{ V}^2\]
\[\sigma = \sqrt{2} \approx 1{,}41 \text{ V}\]
La tension est très peu dispersée autour de 230 V.
4.3 Coefficient de variation
Définition — Coefficient de variation (CV)
Le coefficient de variation est un indicateur de dispersion relative, sans unité :
\[CV = \frac{\sigma}{\bar{x}} \times 100 \quad (\%)\]
Il permet de comparer la dispersion de deux séries ayant des unités ou des moyennes différentes.
Règle pratique : \(CV < 15\%\) : faible dispersion ; \(15\% \leq CV \leq 30\%\) : dispersion modérée ; \(CV > 30\%\) : forte dispersion.
Exemple — Comparaison de deux postes de production
Poste A : \(\bar{x}_A = 50{,}2\) mm, \(\sigma_A = 0{,}8\) mm → \(CV_A = \frac{0{,}8}{50{,}2} \times 100 \approx 1{,}6\%\)
Poste B : \(\bar{x}_B = 12{,}5\) mm, \(\sigma_B = 0{,}4\) mm → \(CV_B = \frac{0{,}4}{12{,}5} \times 100 = 3{,}2\%\)
Bien que \(\sigma_A > \sigma_B\), le poste A est relativement moins dispersé que le poste B.
Bilan — Indicateurs de dispersion
Indicateur
Formule
Interprétation
Étendue
\(e = x_{\max} - x_{\min}\)
Amplitude totale
IIQ
\(Q_3 - Q_1\)
Dispersion des 50 % centraux
Variance
\(V = \overline{x^2} - \bar{x}^2\)
Dispersion quadratique
Écart-type
\(\sigma = \sqrt{V}\)
Dispersion dans l'unité des données
Coef. de variation
\(CV = \frac{\sigma}{\bar{x}} \times 100\)
Dispersion relative (%)
5. Boîte à moustaches (Boxplot)
Définition — Boîte à moustaches
La boîte à moustaches (ou boxplot) est une représentation graphique synthétisant cinq indicateurs statistiques :
Le minimum \(x_{\min}\)
Le premier quartile \(Q_1\)
La médiane \(Me\)
Le troisième quartile \(Q_3\)
Le maximum \(x_{\max}\)
La boîte (rectangle) s'étend de \(Q_1\) à \(Q_3\). Les moustaches s'étendent jusqu'aux valeurs extrêmes (dans la limite de 1,5 × IIQ). Les points au-delà des moustaches sont des valeurs aberrantes (outliers).
Dessiner un rectangle de \(Q_1\) à \(Q_3\), avec un trait vertical à \(Me\).
Tracer les moustaches depuis \(Q_1\) jusqu'à la plus petite valeur \(\geq Q_1 - 1{,}5 \times \text{IIQ}\), et depuis \(Q_3\) jusqu'à la plus grande valeur \(\leq Q_3 + 1{,}5 \times \text{IIQ}\).
Représenter les éventuels outliers par des points isolés.
Exemple — Consommations énergétiques mensuelles (kWh)
Un technicien relève les consommations de 12 bâtiments (valeurs triées) :
La valeur 3 200 kWh dépasse 2 542,5 kWh : c'est un outlier. Ce bâtiment est anormalement énergivore.
Interprétation : La majorité des bâtiments consomment entre 1 480 et 1 905 kWh par mois. Le bâtiment à 3 200 kWh devra faire l'objet d'un audit énergétique.
À retenir — Comparaison avec la boîte à moustaches
La boîte à moustaches est particulièrement utile pour comparer plusieurs groupes (plusieurs machines, plusieurs bâtiments, plusieurs périodes). Elle visualise instantanément les différences de position, de dispersion et la présence d'outliers.
6. Statistique à deux variables
6.1 Nuage de points et point moyen
Définition — Série à deux variables
Une série statistique à deux variables est un ensemble de \(n\) couples \((x_i\,;\,y_i)\), où \(x_i\) et \(y_i\) sont deux caractères quantitatifs mesurés sur le même individu \(i\). Exemples : (température extérieure, consommation de chauffage) ; (section du câble, résistance électrique) ; (année, chiffre d'affaires).
Propriété — Point moyen
Le point moyen \(G(\bar{x}\,;\,\bar{y})\) a pour coordonnées les moyennes des deux séries :
\[\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \qquad \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i\]
Toute droite de régression passe par le point moyen \(G\).
Exemple — Consommation d'énergie et surface de vitrage
Un bureau d'études thermique analyse 8 bâtiments de taille comparable. Pour chacun, on note la surface de vitrage \(x\) (en m²) et la déperdition thermique annuelle \(y\) (en MWh) :
6.2 Covariance et coefficient de corrélation linéaire
Définition — Covariance
La covariance mesure la tendance des deux variables à varier simultanément dans le même sens ou en sens opposé :
\[\text{Cov}(x,y) = \frac{1}{n} \sum_{i=1}^{n} x_i y_i - \bar{x}\,\bar{y} = \overline{xy} - \bar{x}\,\bar{y}\]
— \(\text{Cov}(x,y) > 0\) : les deux variables tendent à croître ensemble.
— \(\text{Cov}(x,y) < 0\) : quand l'une croît, l'autre décroît.
— \(\text{Cov}(x,y) = 0\) : pas de relation linéaire apparente.
Définition — Coefficient de corrélation linéaire \(r\)
Le coefficient de corrélation linéaire de Pearson est :
\[r = \frac{\text{Cov}(x,y)}{\sigma_x \cdot \sigma_y}\]
où \(\sigma_x\) et \(\sigma_y\) sont les écarts-types de chaque série. Propriété : \(-1 \leq r \leq 1\).
— \(r\) proche de 1 : forte corrélation linéaire positive.
— \(r\) proche de −1 : forte corrélation linéaire négative.
— \(|r|\) proche de 0 : pas de corrélation linéaire.
En pratique : \(|r| \geq 0{,}9\) est considéré comme une bonne corrélation linéaire.
Exemple — Calcul de la covariance et de r (vitrage/déperdition)
Le coefficient \(r \approx 0{,}998\) est très proche de 1 : il y a une très forte corrélation linéaire positive entre la surface de vitrage et les déperditions thermiques.
Mini-exercice : Pour 5 chantiers, on relève la température extérieure \(x\) (°C) et la consommation de chauffage \(y\) (kWh) : \((2\,;\,90)\), \((4\,;\,80)\), \((6\,;\,70)\), \((8\,;\,60)\), \((10\,;\,50)\). Calculer \(\bar{x}\), \(\bar{y}\), la covariance \(\text{Cov}(x,y)\), puis la pente \(a\) de la droite de régression de \(y\) en \(x\).
6.3 Droite de régression par la méthode des moindres carrés
Propriété — Droite de régression de y en x
La droite de régression de \(y\) en \(x\), obtenue par la méthode des moindres carrés, minimise la somme des carrés des écarts entre les valeurs observées et les valeurs prédites.
Son équation est \(y = ax + b\) avec :
\[a = \frac{\text{Cov}(x,y)}{\sigma_x^2} = \frac{\text{Cov}(x,y)}{\overline{x^2} - \bar{x}^2}\]
\[b = \bar{y} - a\,\bar{x}\]
Cette droite passe obligatoirement par le point moyen \(G(\bar{x}\,;\,\bar{y})\).
Attention
La droite de régression de \(y\) en \(x\) est différente de la droite de régression de \(x\) en \(y\). On utilise :
— \(y = ax + b\) pour prédire \(y\) à partir de \(x\) (connaissant \(x\)).
— \(x = a'y + b'\) pour prédire \(x\) à partir de \(y\), avec \(a' = \dfrac{\text{Cov}(x,y)}{\sigma_y^2}\).
À retenir — Condition d'utilisation de la régression
On n'utilise le modèle de régression linéaire que si \(|r| \geq 0{,}9\) (corrélation forte). Sinon, le modèle linéaire est inapproprié et peut conduire à des prévisions très erronées.
7. Série chronologique — Ajustement linéaire
Définition — Série chronologique
Une série chronologique est une série statistique à deux variables dans laquelle la variable \(x\) représente le temps (mois, trimestre, année, rang…) et \(y\) la grandeur observée à chaque instant.
On distingue :
— La tendance (trend) : évolution à long terme.
— Les variations saisonnières : oscillations périodiques.
— Les variations résiduelles : perturbations aléatoires.
Méthode — Ajustement linéaire d'une série chronologique
On code le temps : on attribue le rang 1 à la première observation, 2 à la deuxième, etc. Puis on applique la méthode des moindres carrés pour trouver \(y = at + b\) (tendance linéaire).
Exemple — Chiffre d'affaires d'une entreprise de menuiserie (k€)
Un dirigeant d'entreprise spécialisée dans l'agencement intérieur relève le chiffre d'affaires annuel sur 7 ans :
Attention — Extrapolation
Toute prévision hors de la plage des données observées (extrapolation) doit être interprétée avec prudence. Le modèle linéaire suppose que la tendance observée se poursuit, ce qui peut ne pas être vérifié à long terme (retournement de conjoncture, saturation du marché, etc.).