Chapitre 1 – Statistique à deux variables

1ère Bac Pro | Statistique et probabilités | Mathématiques

Dernière mise à jour : 28 avril 2026

Objectifs du chapitre

Représenter un nuage de points associé à une série statistique à deux variables
Déterminer un ajustement affine à l'aide de la calculatrice ou d'un tableur
Utiliser le coefficient de détermination \(R^2\) pour évaluer la qualité d'un ajustement
Réaliser des interpolations et extrapolations
Comprendre que corrélation n'implique pas causalité

Situation professionnelle — Fabricant de mobilier

Un fabricant de meubles souhaite comprendre le lien entre le nombre de meubles produits par semaine et le coût total de production. En étudiant ses données sur plusieurs mois, il peut construire un modèle mathématique pour anticiper ses coûts et optimiser sa production. C'est le problème que les statistiques à deux variables permettent de résoudre.

1. Rappels de Seconde

Prérequis

Effectif : nombre d'individus dans une classe ou possédant une valeur donnée.
Fréquence : rapport de l'effectif d'une valeur sur l'effectif total : \(f = \dfrac{n_i}{N}\).
Moyenne : \(\bar{x} = \dfrac{1}{N}\sum_{i=1}^{p} n_i x_i\).
Étendue : différence entre la plus grande et la plus petite valeur.

2. Série statistique à deux variables

Définition — Série statistique à deux variables :
On étudie simultanément deux caractères quantitatifs \(x\) et \(y\) sur une même population. On obtient une série de couples \((x_i\,;\,y_i)\) pour \(i = 1, 2, \ldots, n\).

Exemple : On mesure la température extérieure \(x\) (en °C) et la consommation de chauffage \(y\) (en kWh) d'un bâtiment chaque mois.

Situation professionnelle — Installateur thermique

Un technicien chauffagiste relève chaque mois la température moyenne extérieure et la consommation énergétique d'un immeuble équipé d'une chaudière collective. Il souhaite établir un lien entre ces deux grandeurs pour anticiper les besoins en combustible.

Mois	Oct.	Nov.	Déc.	Jan.	Fév.	Mars
Température \(x\) (°C)	12	8	4	2	3	7
Conso. \(y\) (MWh)	15	22	31	35	33	24

Application

Un fabricant de meubles relève la surface de bois utilisée \(x\) (en m²) et le coût de revient \(y\) (en €) pour 5 commandes : (2 ; 180), (4 ; 340), (6 ; 510), (8 ; 680), (10 ; 850).

Calculer les moyennes \(\bar{x}\) et \(\bar{y}\) de cette série.

3. Nuage de points

Définition — Nuage de points :
Le nuage de points associé à la série \((x_i\,;\,y_i)\) est l'ensemble des points \(M_i(x_i\,;\,y_i)\) placés dans un repère orthogonal.
L'axe horizontal porte la variable \(x\) (variable explicative) et l'axe vertical porte la variable \(y\) (variable à expliquer).

Méthode — Tracer un nuage de points :

Choisir des échelles adaptées pour chaque axe (pas forcément les mêmes).

Placer chaque couple \((x_i\,;\,y_i)\) comme un point dans le repère.

Observer la forme générale du nuage : alignement, courbe, dispersion.

Exemple — Nuage de points du chauffage

On observe que les points semblent globalement alignés : quand la température diminue, la consommation augmente. On dit qu'il y a une corrélation linéaire négative.

Application

Un menuisier mesure la longueur \(x\) (en cm) et le prix de vente \(y\) (en €) de 4 modèles de planches : (50 ; 12), (100 ; 22), (150 ; 35), (200 ; 48).

Tracer les axes d'un repère avec des échelles adaptées, puis placer les 4 points du nuage.

Que remarque-t-on sur la forme générale du nuage ?

4. Point moyen

Définition — Point moyen :
Le point moyen \(G\) du nuage a pour coordonnées : \[G\left(\bar{x}\,;\,\bar{y}\right) \quad \text{avec} \quad \bar{x} = \frac{1}{n}\sum x_i \quad \text{et} \quad \bar{y} = \frac{1}{n}\sum y_i\]

Exemple — Calcul du point moyen

Avec les données du chauffage :

\[\bar{x} = \frac{12 + 8 + 4 + 2 + 3 + 7}{6} = \frac{36}{6} = 6\] \[\bar{y} = \frac{15 + 22 + 31 + 35 + 33 + 24}{6} = \frac{160}{6} \approx 26{,}7\]

Le point moyen est \(G(6\,;\,26{,}7)\).

Propriété :
La droite d'ajustement (droite de régression) passe toujours par le point moyen \(G(\bar{x}\,;\,\bar{y})\).

Application

Un artisan menuisier relève les données suivantes sur 6 commandes :

\(x\) (nombre de portes)	2	4	5	7	8	10
\(y\) (heures de travail)	5	9	12	16	18	23

Calculer le point moyen \(G(\bar{x}\,;\,\bar{y})\).

5. Ajustement affine — Droite de régression

Définition — Ajustement affine :
Réaliser un ajustement affine d'un nuage de points, c'est chercher la droite \(y = ax + b\) qui « passe au mieux » entre les points du nuage. Cette droite s'appelle la droite de régression de \(y\) en \(x\).

Définition — Méthode des moindres carrés :
La méthode des moindres carrés détermine la droite \(y = ax + b\) qui minimise la somme des carrés des écarts entre les valeurs observées \(y_i\) et les valeurs calculées \(\hat{y}_i = ax_i + b\) : \[S = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - ax_i - b)^2 \quad \text{est minimale.}\]

Méthode — Obtenir la droite de régression avec la calculatrice :

Entrer les données dans les listes (L1 pour \(x\), L2 pour \(y\)).

Choisir le mode « régression linéaire » (LinReg ou RegLin).

Lire les coefficients \(a\) et \(b\) affichés, ainsi que \(r\) ou \(r^2\).

Écrire l'équation : \(y = ax + b\) et tracer la droite sur le graphique.

Exemple — Droite de régression du chauffage

En utilisant la calculatrice sur les données du chauffage, on obtient :

\[y = -2{,}04x + 38{,}9\]

Vérification : la droite passe-t-elle par le point moyen \(G(6\,;\,26{,}7)\) ?

\[-2{,}04 \times 6 + 38{,}9 = -12{,}24 + 38{,}9 = 26{,}66 \approx 26{,}7 \quad \checkmark\]

Interprétation : quand la température augmente de 1°C, la consommation diminue d'environ 2 MWh.

Application

Un technicien d'agencement utilise sa calculatrice sur les données : \((1\,;\,8)\), \((2\,;\,15)\), \((3\,;\,23)\), \((4\,;\,30)\), \((5\,;\,38)\). La calculatrice affiche \(y = 7{,}5x + 0{,}3\).

Vérifier que la droite passe par le point moyen \(G\). Interpréter le coefficient directeur.

6. Coefficient de détermination \(R^2\)

Définition — Coefficient de détermination :
Le coefficient de détermination \(R^2\) (ou \(r^2\)) est un nombre compris entre 0 et 1 qui mesure la qualité de l'ajustement affine :

Si \(R^2\) est proche de 1 : l'ajustement est bon, les points sont proches de la droite.
Si \(R^2\) est proche de 0 : l'ajustement est mauvais, les points sont très dispersés autour de la droite.

Propriété — Interprétation de \(R^2\) :
\(R^2\) représente la proportion de la variation de \(y\) qui est expliquée par la relation linéaire avec \(x\).

Par exemple, si \(R^2 = 0{,}95\), cela signifie que 95 % de la variation de \(y\) est expliquée par le modèle linéaire.

Bon ajustement

\(R^2 \geqslant 0{,}90\)

Ajustement moyen

\(0{,}70 \leqslant R^2 < 0{,}90\)

Mauvais ajustement

\(R^2 < 0{,}70\)

Exemple — Qualité de l'ajustement du chauffage

La calculatrice donne \(r \approx -0{,}99\), donc \(R^2 \approx 0{,}98\).

Comme \(R^2\) est très proche de 1, l'ajustement affine est excellent. Le modèle linéaire décrit très bien la relation entre la température et la consommation.

Attention — Erreurs fréquentes :

\(R^2\) proche de 1 ne signifie pas que la relation est exactement linéaire, mais que le modèle linéaire est une bonne approximation.
Ne pas confondre \(r\) (coefficient de corrélation, peut être négatif) et \(R^2\) (toujours positif).
\(r < 0\) signifie une corrélation négative (quand \(x\) augmente, \(y\) diminue).

Application

La calculatrice donne \(r \approx 0{,}85\) pour une série de données sur le temps de séchage d'un vernis en fonction de la température.

1. Calculer \(R^2\). 2. L'ajustement affine est-il de bonne qualité ?

7. Interpolation et extrapolation

Définition — Interpolation :
L'interpolation consiste à estimer une valeur de \(y\) pour une valeur de \(x\) située à l'intérieur de la plage de données observées.

Définition — Extrapolation :
L'extrapolation consiste à estimer une valeur de \(y\) pour une valeur de \(x\) située à l'extérieur de la plage de données observées.

Attention — Fiabilité :

L'interpolation est généralement fiable si l'ajustement est bon (\(R^2\) élevé).
L'extrapolation est risquée : rien ne garantit que le modèle reste valable en dehors des données observées.

Exemple — Interpolation et extrapolation

Avec la droite \(y = -2{,}04x + 38{,}9\) :

Interpolation : estimer la consommation pour \(x = 5\)°C (valeur dans la plage [2 ; 12]) :

\[y = -2{,}04 \times 5 + 38{,}9 = -10{,}2 + 38{,}9 = 28{,}7 \text{ MWh}\]

Cette estimation est fiable car 5°C est dans la plage des données.

Extrapolation : estimer la consommation pour \(x = 20\)°C :

\[y = -2{,}04 \times 20 + 38{,}9 = -40{,}8 + 38{,}9 = -1{,}9 \text{ MWh}\]

Résultat absurde (consommation négative !). L'extrapolation n'est pas fiable ici : en été, le chauffage est simplement éteint.

8. Corrélation et causalité

Définition — Corrélation :
Deux variables sont corrélées lorsqu'elles évoluent ensemble de manière régulière (dans le même sens ou en sens contraire). La corrélation se mesure par le coefficient de corrélation \(r\).

Attention fondamentale : Corrélation ne signifie pas causalité !

Une corrélation entre deux variables signifie qu'elles évoluent ensemble.
Cela ne prouve pas que l'une est la cause de l'autre.
Il peut exister un facteur caché (variable confondante) qui explique les deux.

Exemples de corrélations trompeuses

Exemple 1 : On observe une corrélation entre les ventes de glaces et les noyades en été. Les glaces causent-elles les noyades ? Non ! C'est la chaleur (facteur caché) qui augmente les deux phénomènes.

Exemple 2 : On observe une corrélation entre le nombre de pompiers envoyés et les dégâts d'un incendie. Plus de pompiers causent-ils plus de dégâts ? Non ! C'est la taille de l'incendie qui est le facteur commun.

Exemple 3 : Il existe une corrélation entre la consommation de chocolat par pays et le nombre de prix Nobel. Le chocolat rend-il plus intelligent ? Non ! C'est le niveau de développement économique qui favorise les deux.

9. Application complète

Situation professionnelle — Menuisier agenceur

Un menuisier agenceur relève le nombre de meubles produits par mois et le coût total de production (en euros) :

Meubles produits \(x\)	10	15	20	25	30	35	40
Coût total \(y\) (€)	2 800	3 950	5 200	6 300	7 600	8 700	10 100

Résolution complète

1. Point moyen :

\[\bar{x} = \frac{10+15+20+25+30+35+40}{7} = \frac{175}{7} = 25\] \[\bar{y} = \frac{2800+3950+5200+6300+7600+8700+10100}{7} = \frac{44650}{7} \approx 6378{,}6\]

Point moyen : \(G(25\,;\,6378{,}6)\).

2. Droite de régression (calculatrice) :

\[y = 241{,}4x + 342{,}9\]

3. Qualité : \(R^2 \approx 0{,}999\) — ajustement excellent.

4. Interpolation : coût pour 22 meubles ?

\[y = 241{,}4 \times 22 + 342{,}9 = 5\,310{,}8 + 342{,}9 = 5\,653{,}7 \text{ €}\]

5. Extrapolation : coût pour 100 meubles ?

\[y = 241{,}4 \times 100 + 342{,}9 = 24\,482{,}9 \text{ €}\]

Attention : cette extrapolation est risquée. Pour de grandes quantités, des économies d'échelle ou des coûts supplémentaires peuvent modifier la relation.

À retenir

Un nuage de points représente graphiquement une série à deux variables.
Le point moyen \(G(\bar{x}\,;\,\bar{y})\) est le « centre de gravité » du nuage.
La droite de régression \(y = ax + b\) (moindres carrés) passe par \(G\).
Le coefficient de détermination \(R^2\) mesure la qualité de l'ajustement : proche de 1 = bon.
Interpolation (dans la plage) est fiable ; extrapolation (hors plage) est risquée.
Corrélation ne signifie pas causalité : un lien statistique ne prouve pas un lien de cause à effet.

10. Erreurs fréquentes

❌

Confondre \(r\) et \(R^2\)
Le coefficient de corrélation \(r\) peut être négatif (corrélation négative), alors que \(R^2 = r^2\) est toujours positif et compris entre 0 et 1.
Conseil : toujours lire attentivement ce qu'affiche la calculatrice et bien distinguer \(r\) et \(r^2\).

❌

Extrapoler sans précaution
Utiliser la droite de régression pour des valeurs très éloignées des données observées peut donner des résultats absurdes (consommation négative, par exemple).
Conseil : signaler toujours que l'extrapolation est risquée et vérifier que le résultat est physiquement cohérent.

❌

Confondre corrélation et causalité
Un \(R^2\) proche de 1 indique que le modèle linéaire est bon, mais ne prouve pas que \(x\) est la cause de \(y\).
Conseil : toujours rechercher une explication logique avant de conclure à une relation de cause à effet.

❌

Oublier de vérifier que la droite passe par G
La droite de régression passe toujours par le point moyen \(G(\bar{x}\,;\,\bar{y})\). C'est une propriété fondamentale qui permet de vérifier ses calculs.
Conseil : calculer \(a\bar{x} + b\) et comparer à \(\bar{y}\) pour valider la droite obtenue.

❌

Inverser les variables \(x\) et \(y\)
La droite de régression de \(y\) en \(x\) sert à estimer \(y\) à partir de \(x\), pas l'inverse. Inverser les rôles donne une droite différente.
Conseil : identifier clairement quelle variable est « explicative » (\(x\)) et laquelle est « à expliquer » (\(y\)).

Simulation interactive

Statistiques à deux variables