1ère Bac Pro | Statistique et probabilités | Mathématiques
Dernière mise à jour : 28 avril 2026
Objectifs du chapitre
Représenter un nuage de points associé à une série statistique à deux variables
Déterminer un ajustement affine à l'aide de la calculatrice ou d'un tableur
Utiliser le coefficient de détermination \(R^2\) pour évaluer la qualité d'un ajustement
Réaliser des interpolations et extrapolations
Comprendre que corrélation n'implique pas causalité
Situation professionnelle — Fabricant de mobilier
Un fabricant de meubles souhaite comprendre le lien entre le nombre de meubles produits par semaine et le coût total de production. En étudiant ses données sur plusieurs mois, il peut construire un modèle mathématique pour anticiper ses coûts et optimiser sa production. C'est le problème que les statistiques à deux variables permettent de résoudre.
1. Rappels de Seconde
Prérequis
Effectif : nombre d'individus dans une classe ou possédant une valeur donnée.
Fréquence : rapport de l'effectif d'une valeur sur l'effectif total : \(f = \dfrac{n_i}{N}\).
Étendue : différence entre la plus grande et la plus petite valeur.
2. Série statistique à deux variables
Définition — Série statistique à deux variables :
On étudie simultanément deux caractères quantitatifs \(x\) et \(y\) sur une même population. On obtient une série de couples \((x_i\,;\,y_i)\) pour \(i = 1, 2, \ldots, n\).
Exemple : On mesure la température extérieure \(x\) (en °C) et la consommation de chauffage \(y\) (en kWh) d'un bâtiment chaque mois.
Un technicien chauffagiste relève chaque mois la température moyenne extérieure et la consommation
énergétique d'un immeuble équipé d'une chaudière collective. Il souhaite établir un lien
entre ces deux grandeurs pour anticiper les besoins en combustible.
Mois
Oct.
Nov.
Déc.
Jan.
Fév.
Mars
Température \(x\) (°C)
12
8
4
2
3
7
Conso. \(y\) (MWh)
15
22
31
35
33
24
Application
Un fabricant de meubles relève la surface de bois utilisée \(x\) (en m²) et le coût de revient \(y\) (en €) pour 5 commandes : (2 ; 180), (4 ; 340), (6 ; 510), (8 ; 680), (10 ; 850).
Calculer les moyennes \(\bar{x}\) et \(\bar{y}\) de cette série.
\(\bar{x} = \dfrac{2+4+6+8+10}{5} = \dfrac{30}{5} = 6\) m²
Définition — Nuage de points :
Le nuage de points associé à la série \((x_i\,;\,y_i)\) est l'ensemble des points \(M_i(x_i\,;\,y_i)\) placés dans un repère orthogonal.
L'axe horizontal porte la variable \(x\) (variable explicative) et l'axe vertical porte la variable \(y\) (variable à expliquer).
Méthode — Tracer un nuage de points :
1
Choisir des échelles adaptées pour chaque axe (pas forcément les mêmes).
2
Placer chaque couple \((x_i\,;\,y_i)\) comme un point dans le repère.
3
Observer la forme générale du nuage : alignement, courbe, dispersion.
Exemple — Nuage de points du chauffage
On observe que les points semblent globalement alignés : quand la température diminue, la consommation augmente. On dit qu'il y a une corrélation linéaire négative.
Application
Un menuisier mesure la longueur \(x\) (en cm) et le prix de vente \(y\) (en €) de 4 modèles de planches : (50 ; 12), (100 ; 22), (150 ; 35), (200 ; 48).
Tracer les axes d'un repère avec des échelles adaptées, puis placer les 4 points du nuage.
Que remarque-t-on sur la forme générale du nuage ?
L'axe horizontal porte \(x\) (de 0 à 200 cm) et l'axe vertical porte \(y\) (de 0 à 55 €). On place les 4 points.
Les points semblent globalement alignés : quand la longueur augmente, le prix augmente. Il y a une corrélation linéaire positive.
4. Point moyen
Définition — Point moyen :
Le point moyen \(G\) du nuage a pour coordonnées :
\[G\left(\bar{x}\,;\,\bar{y}\right) \quad \text{avec} \quad \bar{x} = \frac{1}{n}\sum x_i \quad \text{et} \quad \bar{y} = \frac{1}{n}\sum y_i\]
Définition — Ajustement affine :
Réaliser un ajustement affine d'un nuage de points, c'est chercher la droite \(y = ax + b\) qui « passe au mieux » entre les points du nuage. Cette droite s'appelle la droite de régression de \(y\) en \(x\).
Définition — Méthode des moindres carrés :
La méthode des moindres carrés détermine la droite \(y = ax + b\) qui minimise la somme des carrés des écarts entre les valeurs observées \(y_i\) et les valeurs calculées \(\hat{y}_i = ax_i + b\) :
\[S = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - ax_i - b)^2 \quad \text{est minimale.}\]
Méthode — Obtenir la droite de régression avec la calculatrice :
1
Entrer les données dans les listes (L1 pour \(x\), L2 pour \(y\)).
2
Choisir le mode « régression linéaire » (LinReg ou RegLin).
3
Lire les coefficients \(a\) et \(b\) affichés, ainsi que \(r\) ou \(r^2\).
4
Écrire l'équation : \(y = ax + b\) et tracer la droite sur le graphique.
Exemple — Droite de régression du chauffage
En utilisant la calculatrice sur les données du chauffage, on obtient :
\[y = -2{,}04x + 38{,}9\]
Vérification : la droite passe-t-elle par le point moyen \(G(6\,;\,26{,}7)\) ?
Interprétation : quand la température augmente de 1°C, la consommation diminue d'environ 2 MWh.
Application
Un technicien d'agencement utilise sa calculatrice sur les données : \((1\,;\,8)\), \((2\,;\,15)\), \((3\,;\,23)\), \((4\,;\,30)\), \((5\,;\,38)\). La calculatrice affiche \(y = 7{,}5x + 0{,}3\).
Vérifier que la droite passe par le point moyen \(G\). Interpréter le coefficient directeur.
La droite passe bien par \(G(3\,;\,22{,}8)\). Interprétation : chaque unité supplémentaire de \(x\) entraîne une augmentation d'environ 7,5 unités de \(y\).
6. Coefficient de détermination \(R^2\)
Définition — Coefficient de détermination :
Le coefficient de détermination \(R^2\) (ou \(r^2\)) est un nombre compris entre 0 et 1 qui mesure la qualité de l'ajustement affine :
Si \(R^2\) est proche de 1 : l'ajustement est bon, les points sont proches de la droite.
Si \(R^2\) est proche de 0 : l'ajustement est mauvais, les points sont très dispersés autour de la droite.
Propriété — Interprétation de \(R^2\) :
\(R^2\) représente la proportion de la variation de \(y\) qui est expliquée par la relation linéaire avec \(x\).
Par exemple, si \(R^2 = 0{,}95\), cela signifie que 95 % de la variation de \(y\) est expliquée par le modèle linéaire.
Bon ajustement
\(R^2 \geqslant 0{,}90\)
Ajustement moyen
\(0{,}70 \leqslant R^2 < 0{,}90\)
Mauvais ajustement
\(R^2 < 0{,}70\)
Exemple — Qualité de l'ajustement du chauffage
La calculatrice donne \(r \approx -0{,}99\), donc \(R^2 \approx 0{,}98\).
Comme \(R^2\) est très proche de 1, l'ajustement affine est excellent. Le modèle linéaire décrit très bien la relation entre la température et la consommation.
Attention — Erreurs fréquentes :
\(R^2\) proche de 1 ne signifie pas que la relation est exactement linéaire, mais que le modèle linéaire est une bonne approximation.
Ne pas confondre \(r\) (coefficient de corrélation, peut être négatif) et \(R^2\) (toujours positif).
2. Comme \(0{,}70 \leqslant R^2 < 0{,}90\), l'ajustement est d'assez bonne qualité, mais pas excellent. Il faudrait être prudent pour les prévisions.
7. Interpolation et extrapolation
Définition — Interpolation :
L'interpolation consiste à estimer une valeur de \(y\) pour une valeur de \(x\) située à l'intérieur de la plage de données observées.
Définition — Extrapolation :
L'extrapolation consiste à estimer une valeur de \(y\) pour une valeur de \(x\) située à l'extérieur de la plage de données observées.
Attention — Fiabilité :
L'interpolation est généralement fiable si l'ajustement est bon (\(R^2\) élevé).
L'extrapolation est risquée : rien ne garantit que le modèle reste valable en dehors des données observées.
Exemple — Interpolation et extrapolation
Avec la droite \(y = -2{,}04x + 38{,}9\) :
Interpolation : estimer la consommation pour \(x = 5\)°C (valeur dans la plage [2 ; 12]) :
Résultat absurde (consommation négative !). L'extrapolation n'est pas fiable ici : en été, le chauffage est simplement éteint.
8. Corrélation et causalité
Définition — Corrélation :
Deux variables sont corrélées lorsqu'elles évoluent ensemble de manière régulière (dans le même sens ou en sens contraire). La corrélation se mesure par le coefficient de corrélation \(r\).
Attention fondamentale : Corrélation ne signifie pas causalité !
Une corrélation entre deux variables signifie qu'elles évoluent ensemble.
Cela ne prouve pas que l'une est la cause de l'autre.
Il peut exister un facteur caché (variable confondante) qui explique les deux.
Exemples de corrélations trompeuses
Exemple 1 : On observe une corrélation entre les ventes de glaces et les noyades en été. Les glaces causent-elles les noyades ? Non ! C'est la chaleur (facteur caché) qui augmente les deux phénomènes.
Exemple 2 : On observe une corrélation entre le nombre de pompiers envoyés et les dégâts d'un incendie. Plus de pompiers causent-ils plus de dégâts ? Non ! C'est la taille de l'incendie qui est le facteur commun.
Exemple 3 : Il existe une corrélation entre la consommation de chocolat par pays et le nombre de prix Nobel. Le chocolat rend-il plus intelligent ? Non ! C'est le niveau de développement économique qui favorise les deux.
9. Application complète
Situation professionnelle — Menuisier agenceur
Un menuisier agenceur relève le nombre de meubles produits par mois et le coût total de production (en euros) :
Attention : cette extrapolation est risquée. Pour de grandes quantités, des économies d'échelle ou des coûts supplémentaires peuvent modifier la relation.
À retenir
Un nuage de points représente graphiquement une série à deux variables.
Le point moyen \(G(\bar{x}\,;\,\bar{y})\) est le « centre de gravité » du nuage.
La droite de régression \(y = ax + b\) (moindres carrés) passe par \(G\).
Le coefficient de détermination \(R^2\) mesure la qualité de l'ajustement : proche de 1 = bon.
Interpolation (dans la plage) est fiable ; extrapolation (hors plage) est risquée.
Corrélation ne signifie pas causalité : un lien statistique ne prouve pas un lien de cause à effet.
10. Erreurs fréquentes
❌
Confondre \(r\) et \(R^2\)
Le coefficient de corrélation \(r\) peut être négatif (corrélation négative), alors que \(R^2 = r^2\) est toujours positif et compris entre 0 et 1. Conseil : toujours lire attentivement ce qu'affiche la calculatrice et bien distinguer \(r\) et \(r^2\).
❌
Extrapoler sans précaution
Utiliser la droite de régression pour des valeurs très éloignées des données observées peut donner des résultats absurdes (consommation négative, par exemple). Conseil : signaler toujours que l'extrapolation est risquée et vérifier que le résultat est physiquement cohérent.
❌
Confondre corrélation et causalité
Un \(R^2\) proche de 1 indique que le modèle linéaire est bon, mais ne prouve pas que \(x\) est la cause de \(y\). Conseil : toujours rechercher une explication logique avant de conclure à une relation de cause à effet.
❌
Oublier de vérifier que la droite passe par G
La droite de régression passe toujours par le point moyen \(G(\bar{x}\,;\,\bar{y})\). C'est une propriété fondamentale qui permet de vérifier ses calculs. Conseil : calculer \(a\bar{x} + b\) et comparer à \(\bar{y}\) pour valider la droite obtenue.
❌
Inverser les variables \(x\) et \(y\)
La droite de régression de \(y\) en \(x\) sert à estimer \(y\) à partir de \(x\), pas l'inverse. Inverser les rôles donne une droite différente. Conseil : identifier clairement quelle variable est « explicative » (\(x\)) et laquelle est « à expliquer » (\(y\)).