Chapitre 1 – Statistiques à deux variables | Terminale Bac Pro | Mathématiques | ⏱ 50 min
Dernière mise à jour : 4 mai 2026, 11:30
Inès, lectrice avertie, lit dans un magazine populaire : « Étonnant : 95 % de corrélation entre la consommation de chocolat par habitant et le nombre de prix Nobel par pays ! Manger du chocolat rend-il plus intelligent ? » Inès soupçonne un piège statistique. Étudions.
| Variables corrélées | r ≈ | Cause réelle |
|---|---|---|
| Ventes de glaces ↔ noyades | +0,90 | Saison estivale (variable cachée : chaleur) |
| Cigognes ↔ naissances (Allemagne, par région) | +0,85 | Régions rurales (espace, jeunes familles) |
| Pirates de la mer ↔ température mondiale | −0,90 | Coïncidence historique (industrialisation) |
| Chocolat ↔ Nobel (par pays) | +0,79 | PIB par habitant (richesse → éducation + chocolat) |
| Pointure de chaussure ↔ niveau de lecture (chez l'enfant) | +0,80 | Âge (plus âgé → grande pointure ET meilleur lecteur) |
📚 Cette activité approfondit les notions du cours §3 (interprétation du coefficient de corrélation) en développant l'esprit critique scientifique.
Définir avec tes propres mots :
Une corrélation peut exister sans causalité. Ce piège est très fréquent dans les médias et la communication d'entreprise.
Pour chacun des exemples du tableau, identifier la variable cachée ou la raison qui explique la corrélation observée sans qu'il y ait causalité directe.
Citer 3 questions à se poser face à une affirmation « X cause Y » lue dans la presse.
Pour les variables suivantes, dire si la corrélation observée correspond à une causalité réelle ou non, et expliquer pourquoi.
a. Causalité réelle : pédaler plus vite fait directement avancer le vélo plus vite (mécanisme physique).
b. Pas de causalité directe : variable cachée = ampleur de l'incendie (gros incendie → plus de pompiers ET plus de dégâts). Naïvement, on pourrait croire « plus de pompiers cause plus de dégâts » → faux !
c. Pas de causalité directe : variable cachée = taille de la ville (grande ville → plus d'écoles ET plus de cafés).
Toujours suspecter une variable cachée quand le mécanisme n'est pas évident.
Pourquoi la randomisation dans une étude clinique permet-elle de démontrer une causalité ?
La randomisation consiste à diviser les participants en 2 groupes au hasard :
Comme le tirage est aléatoire, les variables cachées (âge, santé initiale, mode de vie...) sont équilibrées entre les 2 groupes. La seule différence systématique est le médicament vs placebo.
Donc si le groupe traité va mieux, c'est nécessairement dû au médicament → causalité prouvée.
Sans randomisation (étude observationnelle), on a seulement de la corrélation. C'est pourquoi l'étude clinique randomisée double aveugle est l'étalon-or de la médecine.
Une étude affirme : « les gens qui prennent leur petit-déjeuner ont 25 % moins de risques de maladie cardiaque ». L'auteur conclut : « petit-déjeuner = bonne santé ». Est-ce une causalité prouvée ?
Non, ce n'est qu'une corrélation observée. Variables cachées possibles :
Pour prouver la causalité, il faudrait une étude randomisée : un groupe sans déjeuner, un groupe avec, comparer leur santé sur 10 ans. Coûteux et difficile.
Dans son métier, un menuisier observe que les chantiers où il pleut au moment de la pose ont 30 % de finitions médiocres. Conclusion possible : pluie cause défauts ?
Oui, une causalité directe est plausible dans ce cas :
Le mécanisme physique est connu et documenté. Donc la corrélation observée correspond bien à une causalité.
Avant de conclure, vérifier qu'on n'a pas oublié de variables cachées (saison, type de chantier, équipe, etc.).
Pratique : ne pas poser sous la pluie, prévoir une bâche, ou reporter le chantier.
Rédiger en 5 lignes une réponse pédagogique à un ami qui dit « le chocolat rend intelligent ! ».
« Tu cites une étude statistique. C'est vrai que les pays qui consomment beaucoup de chocolat ont aussi plus de prix Nobel par habitant. Mais ça ne signifie pas que le chocolat rend intelligent !
Une variable cachée explique tout : le PIB. Les pays riches consomment plus de chocolat (luxe abordable) ET ont plus de moyens pour la recherche scientifique → plus de Nobels. La cause commune est la richesse économique, pas le chocolat lui-même.
C'est ce qu'on appelle une variable de confusion. Règle d'or : corrélation ≠ causalité. Pour prouver qu'un aliment rend intelligent, il faudrait une étude randomisée sur des décennies. »
Sur le site « Spurious Correlations » (Tyler Vigen), des corrélations farfelues sont collectées. Exemple : « consommation de fromage par habitant ↔ nombre de personnes mortes étranglées par leur drap de lit » (r = +0,95). Comment interpréter ce résultat ?
r = 0,95 entre 2 variables totalement étrangères (fromage et étranglements par drap) : simple coïncidence statistique.
Quand on cherche dans des centaines de séries temporelles indépendantes, on trouve forcément des corrélations fortes par pure chance. C'est le piège du « p-hacking » : multiplier les comparaisons jusqu'à en trouver une qui semble significative.
Règle scientifique : seules les hypothèses formulées AVANT l'étude peuvent être testées. Tout test rétrospectif est suspect.
Le site de Tyler Vigen est une démonstration humoristique mais profonde : la statistique ne remplace pas la pensée.