La probabilité que \(X\) s'écarte de plus de \(\delta\) de son espérance est majorée par \(\frac{V}{\delta^2}\). Plus la variance est petite ou plus \(\delta\) est grand, plus cette probabilité est faible.
Avec \(\delta = k\sigma\) : \(P(|X-\mu|\geqslant k\sigma)\leqslant\frac{1}{k^2}\).
Exemple
Soit \(X\) avec \(\mu = 100\), \(\sigma = 5\). Alors :
\(P(|X-100|\geqslant 10)\leqslant\frac{25}{100}=0{,}25\) (au plus 25 % des valeurs à plus de 10 de la moyenne)
(La valeur exacte est environ 0,057, bien inférieure : l'inégalité est peu précise mais universelle.)
II. Inégalité de concentration
Théorème — Inégalité de concentration
Soit \(M_n = \frac{X_1+\cdots+X_n}{n}\) la moyenne d'un échantillon de taille \(n\) d'une v.a. d'espérance \(\mu\) et de variance \(V\). Pour tout \(\delta > 0\) :
C'est l'inégalité de Bienaymé-Tchebychev appliquée à \(M_n\) (qui a pour variance \(\frac{V}{n}\)). La majoration tend vers 0 quand \(n\to+\infty\) : la moyenne de l'échantillon se concentre autour de \(\mu\).
Exercice 3
On mesure la masse de pièces (\(\mu=10\) g, \(\sigma=0{,}5\) g). Quelle taille d'échantillon garantit que \(P(|M_n-10|\geqslant 0{,}1)\leqslant 0{,}05\) ?
\(\frac{V}{n\delta^2}\leqslant 0{,}05\), soit \(\frac{0{,}25}{n\times 0{,}01}\leqslant 0{,}05\), \(\frac{25}{n}\leqslant 0{,}05\), \(n\geqslant 500\).
III. Loi des grands nombres
Théorème — Loi (faible) des grands nombres
Soit \((X_n)\) une suite de variables aléatoires indépendantes de même loi, d'espérance \(\mu\) et de variance \(V\). Pour tout \(\delta > 0\) :
La moyenne \(M_n\) converge (en probabilité) vers l'espérance \(\mu\).
Signification concrète
Quand on répète un grand nombre de fois une expérience, la moyenne observée se rapproche de l'espérance théorique. C'est le fondement des sondages, des estimations statistiques et des simulations de Monte-Carlo.
Exemple — Fréquence et probabilité
On lance un dé \(n\) fois. La fréquence de « 6 » est \(F_n = \frac{X}{n}\) où \(X\sim\mathcal{B}(n,\frac{1}{6})\). Par la loi des grands nombres, \(F_n\) converge vers \(p=\frac{1}{6}\) quand \(n\to+\infty\).
Exercice 4
On lance une pièce équilibrée \(n\) fois. Soit \(F_n\) la fréquence de Pile.
Exprimer \(E(F_n)\) et \(V(F_n)\).
En utilisant l'inégalité de concentration, déterminer \(n\) pour que \(P(|F_n-0{,}5|\geqslant 0{,}01)\leqslant 0{,}01\).
\(F_n=\frac{X}{n}\) avec \(X\sim\mathcal{B}(n,0{,}5)\). \(E(F_n)=0{,}5\). \(V(F_n)=\frac{0{,}25}{n}\).
Un institut de sondage interroge \(n = 2500\) personnes sur leur intention de vote. La proportion observée de personnes favorables à un projet est \(\hat{p} = 0{,}42\).
Rappeler l'inégalité de concentration appliquée à la fréquence \(F_n\) d'un échantillon de taille \(n\) pour une proportion \(p\) inconnue.
En utilisant le fait que \(p(1-p)\leqslant\frac{1}{4}\), donner un intervalle de confiance pour la vraie proportion \(p\) au risque \(\alpha = 0{,}05\).
Le projet est-il soutenu par une majorité de la population ?
On veut \(\frac{1}{4n\delta^2}\leqslant 0{,}05\), soit \(\delta^2\geqslant\frac{1}{4\times 2500\times 0{,}05}=\frac{1}{500}=0{,}002\), donc \(\delta\geqslant\sqrt{0{,}002}\approx 0{,}0447\).
L'intervalle de confiance au risque 5 % est \([\hat{p}-\delta\,;\ \hat{p}+\delta] = [0{,}42-0{,}045\,;\ 0{,}42+0{,}045] \approx [0{,}375\,;\ 0{,}465]\).
L'intervalle \([0{,}375\,;\ 0{,}465]\) ne contient pas 0,5. Au risque 5 %, on ne peut pas affirmer que le projet est soutenu par une majorité : la proportion pourrait être inférieure à 50 %.
IV. Application à la taille d'échantillon
Propriété — Taille d'échantillon pour une fréquence
Pour estimer une proportion \(p\) inconnue avec une précision \(\delta\) et un risque \(\alpha\), il faut :
\[n \geqslant \frac{1}{4\alpha\delta^2}\]
(en utilisant le fait que \(p(1-p)\leqslant\frac{1}{4}\)).
Exercice 6
On veut estimer la proportion d'électeurs favorables à un candidat avec une précision de 2 % et un risque de 5 %. Quelle taille d'échantillon faut-il ?
On estime \(\pi\) par la méthode de Monte-Carlo : on tire \(n\) points au hasard dans le carré \([0;1]^2\) et on compte ceux dans le quart de disque (\(x^2+y^2\leqslant 1\)). La fréquence \(F_n\) estime \(\frac{\pi}{4}\).
Justifier que \(F_n\) converge vers \(\frac{\pi}{4}\) par la loi des grands nombres.
En utilisant l'inégalité de concentration, combien de points faut-il pour que \(P\left(\left|F_n-\frac{\pi}{4}\right|\geqslant 0{,}001\right)\leqslant 0{,}01\) ?
Chaque point est dans le quart de disque avec probabilité \(p=\frac{\pi}{4}\). Les tirages sont indépendants. Par la loi des grands nombres, \(F_n\to p=\frac{\pi}{4}\).
\(V(F_n)=\frac{p(1-p)}{n}\leqslant\frac{1}{4n}\). \(\frac{1}{4n\times 10^{-6}}\leqslant 0{,}01\), \(\frac{10^6}{4n}\leqslant 0{,}01\), \(n\geqslant\frac{10^6}{0{,}04}=25\,000\,000\).
Il faut au moins 25 millions de points. (L'inégalité de Bienaymé-Tchebychev est pessimiste ; en pratique, quelques millions suffisent.)
Exercice 8
Problème de synthèse — Démonstration et application
Soit \(X\sim\mathcal{B}(n,p)\) et \(F_n=\frac{X}{n}\) la fréquence associée.
Rappeler \(E(F_n)\) et \(V(F_n)\).
En utilisant le fait que pour tout \(p\in[0;1]\), \(p(1-p)\leqslant\frac{1}{4}\), montrer que pour tout \(\varepsilon > 0\) :
\[P\left(|F_n - p|\geqslant\varepsilon\right)\leqslant\frac{1}{4n\varepsilon^2}\]
On souhaite que \(P(|F_n-p|\geqslant 0{,}02)\leqslant 0{,}05\). Déterminer la taille minimale de l'échantillon.
On souhaite maintenant que \(P(|F_n-p|\geqslant 0{,}01)\leqslant 0{,}01\). Déterminer \(n\). Commenter.
\(E(F_n) = p\) et \(V(F_n)=\frac{p(1-p)}{n}\).
Par l'inégalité de Bienaymé-Tchebychev appliquée à \(F_n\) :
\[P(|F_n-p|\geqslant\varepsilon)\leqslant\frac{V(F_n)}{\varepsilon^2}=\frac{p(1-p)}{n\varepsilon^2}\leqslant\frac{1}{4n\varepsilon^2}\]
car \(p(1-p)\leqslant\frac{1}{4}\). ∎
\(\frac{1}{4n\times 0{,}0004}\leqslant 0{,}05\), soit \(\frac{625}{n}\leqslant 0{,}05\), d'où \(n\geqslant\frac{625}{0{,}05}=12\,500\).
\(\frac{1}{4n\times 0{,}0001}\leqslant 0{,}01\), soit \(\frac{2500}{n}\leqslant 0{,}01\), d'où \(n\geqslant 250\,000\).
Diviser la précision par 2 (de 0,02 à 0,01) et le risque par 5 (de 0,05 à 0,01) multiplie la taille de l'échantillon par 20. La précision a un coût quadratique.
Simulation — Loi des grands nombres
Observer la fréquence de « 6 » converger vers \(\frac{1}{6}\) au fil des lancers.