Une série se résume par sa position (moyenne, médiane, mode, quartiles) et sa dispersion (étendue, IIQ, écart-type, CV).
La moyenne est sensible aux valeurs extrêmes ; la médiane et l'IIQ sont robustes.
La boîte à moustaches synthétise 5 indicateurs et repère les valeurs aberrantes.
À deux variables : le coefficient \(r\) mesure la corrélation linéaire ; on ne fait une régression que si \(|r|\ge 0{,}9\).
Définitions clés
Définition
Effectif / fréquence : \(n_i\) = nombre d'individus prenant \(x_i\) ; fréquence \(f_i=\dfrac{n_i}{N}\) ; la FCC cumule les fréquences.
Définition
Quartiles : \(Q_1\) (25 % des valeurs en dessous), \(Q_2=Me\) (médiane, 50 %), \(Q_3\) (75 %).
Définition
Centre de classe : \(c_i=\dfrac{a_i+a_{i+1}}{2}\) — utilisé à la place de \(x_i\) pour les données groupées.
Définition
Coefficient de corrélation \(r\) : mesure l'intensité du lien linéaire entre deux variables, \(-1\le r\le 1\).
Formules — une variable
Position et dispersion
\[\bar x=\frac{\sum n_i x_i}{N} \qquad V=\overline{x^2}-\bar x^2=\frac{\sum n_i x_i^2}{N}-\bar x^2\]
\[\sigma=\sqrt{V} \qquad CV=\frac{\sigma}{\bar x}\times 100\,(\%) \qquad \text{IIQ}=Q_3-Q_1\]
Médiane / quartile par interpolation (classes)
\[Q=a+\frac{p-F_{\text{avant}}}{f_c}\times(b-a)\]
avec \(p=0{,}25\) (\(Q_1\)), \(0{,}50\) (\(Me\)) ou \(0{,}75\) (\(Q_3\)), \([a;b[\) la classe et \(f_c\) sa fréquence.
Boîte à moustaches
Boîte : de \(Q_1\) à \(Q_3\), trait à \(Me\). Moustaches jusqu'à \(Q_{1}-1{,}5\,\text{IIQ}\) et \(Q_3+1{,}5\,\text{IIQ}\) ; au-delà = valeurs aberrantes.
Formules — deux variables
Corrélation et régression de \(y\) en \(x\)
\[\text{Cov}(x,y)=\overline{xy}-\bar x\,\bar y \qquad r=\frac{\text{Cov}(x,y)}{\sigma_x\,\sigma_y}\]
\[y=ax+b \quad\text{avec}\quad a=\frac{\text{Cov}(x,y)}{\sigma_x^2},\quad b=\bar y-a\bar x\]
La droite passe par le point moyen \(G(\bar x\,;\,\bar y)\).
Position — quoi utiliser ?
Propriété
Moyenne \(\bar x\) : tient compte de toutes les valeurs, sensible aux extrêmes.
Médiane \(Me\) : valeur centrale, robuste aux outliers.
Mode : valeur (ou classe) la plus fréquente.
CV : sans unité, permet de comparer la dispersion de deux séries d'unités différentes.
Méthode — Ajustement linéaire
MéthodeDroite de régression et prévision
Calculer \(\bar x\), \(\bar y\), \(\overline{xy}\), \(\overline{x^2}\) (tableau de calcul).
En déduire \(\text{Cov}(x,y)=\overline{xy}-\bar x\bar y\) et \(\sigma_x^2=\overline{x^2}-\bar x^2\).
Calculer la pente \(a=\dfrac{\text{Cov}(x,y)}{\sigma_x^2}\) puis \(b=\bar y-a\bar x\).
Vérifier \(|r|\ge 0{,}9\), puis utiliser \(y=ax+b\) pour prévoir (avec prudence hors plage).
Erreurs fréquentes
Attention
❌ Donner la variance comme indicateur final.
✅ La variance est en unité au carré ; on conclut avec l'écart-type \(\sigma\), dans l'unité des données.
❌ Confondre les deux droites de régression.
✅ \(y=ax+b\) prédit \(y\) à partir de \(x\) ; pour l'inverse, \(a'=\dfrac{\text{Cov}(x,y)}{\sigma_y^2}\).
❌ Conclure « corrélation = causalité ».
✅ Un \(r\) élevé indique un lien linéaire, pas un lien de cause à effet.
❌ Extrapoler loin de la plage observée.
✅ Le modèle linéaire n'est fiable que dans l'intervalle des données ; toute prévision lointaine est risquée.