Name: Probabilités & Stats en CPGE ECG
Author: ORBITECH AI Academy

Objectifs du cours :

Comprendre les concepts fondamentaux des probabilités et modéliser des situations aléatoires.
Maîtriser les variables aléatoires discrètes et continues, ainsi que leurs lois usuelles.
Appliquer les théorèmes de convergence (LGN, TCL) et leurs implications pratiques.
Acquérir les bases de l'estimation ponctuelle et par intervalle de confiance.
Savoir construire et interpréter des tests d'hypothèses paramétriques et non paramétriques.
Développer ta rigueur mathématique et ta capacité à rédiger des solutions claires et argumentées.

Prérequis :

Bonne maîtrise des notions de base en analyse (dérivation, intégration, suites, séries).
Connaissance des calculs combinatoires et des probabilités sur un univers fini.
Familiarité avec la notion d'intégrale généralisée et les propriétés des fonctions usuelles.
Rigueur de raisonnement et capacité à manipuler des expressions littérales.

Bienvenue dans ce cours essentiel sur les probabilités et les statistiques, un pilier fondamental de ton programme en CPGE ECG ! Ces notions sont non seulement omniprésentes dans les sujets de concours, mais elles te dotent aussi d'un formidable arsenal pour comprendre le monde économique et social. Nous allons explorer ensemble ces concepts, du plus simple au plus complexe, en insistant sur la compréhension et la rigueur.

Prépare-toi à manipuler des concepts abstraits, mais toujours avec des exemples concrets pour bien ancrer les idées. L'objectif est que tu te sentes à l'aise pour modéliser des situations aléatoires et interpréter des données. C'est une compétence clé pour tes futures études et ta carrière.

Le savais-tu : Les probabilités et les statistiques sont les fondations de nombreuses disciplines, de la finance à la recherche médicale, en passant par l'intelligence artificielle. Elles permettent de prendre des décisions éclairées face à l'incertitude.

I. Rappels et Fondements des Probabilités

Avant de plonger dans des concepts plus avancés, il est crucial de solidifier les bases. Nous allons revoir ensemble l'univers des possibles, les événements et les différentes manières de calculer une probabilité. La rigueur dans la définition de l'espace probabilisé est la première étape vers la réussite.

Une bonne compréhension des bases te permettra d'aborder sereinement les notions plus complexes de variables aléatoires et de convergences. Ne sous-estime jamais l'importance des rappels.

I.1. Espace probabilisé

Un espace probabilisé est le cadre mathématique pour modéliser une expérience aléatoire. Il est défini par trois éléments fondamentaux : l'univers, la tribu des événements et la mesure de probabilité.

Définition : Espace probabilisé

Un espace probabilisé est un triplet $(\Omega, \mathcal{A}, P)$ où :

$\Omega$ (Oméga) est l'univers des possibles, l'ensemble de tous les résultats possibles de l'expérience aléatoire.
$\mathcal{A}$ est la tribu des événements (ou $\sigma$-algèbre), un ensemble de parties de $\Omega$ contenant $\Omega$ lui-même, l'ensemble vide, et stable par complémentaire et par union dénombrable. Les éléments de $\mathcal{A}$ sont appelés des événements.
$P$ est une mesure de probabilité, une application de $\mathcal{A}$ dans $[0,1]$ qui attribue une probabilité à chaque événement, telle que $P(\Omega) = 1$ et pour toute suite dénombrable d'événements deux à deux disjoints $(A_i)_{i \in \mathbb{N}}$, $P\left(\bigcup_{i=0}^{+\infty} A_i\right) = \sum_{i=0}^{+\infty} P(A_i)$.

En CPGE ECG, l'univers $\Omega$ est souvent fini ou dénombrable, ce qui simplifie la tribu $\mathcal{A}$ qui peut être l'ensemble de toutes les parties de $\Omega$, noté $\mathcal{P}(\Omega)$. Dans le cas continu, $\Omega$ est un intervalle de $\mathbb{R}$ et $\mathcal{A}$ est la tribu borélienne.

I.2. Propriétés des probabilités

Les probabilités possèdent des propriétés fondamentales qui découlent directement de leur définition. Les maîtriser te sera d'une grande aide pour simplifier les calculs et résoudre des problèmes complexes.

Propriétés fondamentales des probabilités :

$P(\emptyset) = 0$ (la probabilité de l'événement impossible est nulle).
Pour tout événement $A \in \mathcal{A}$, $0 \le P(A) \le 1$.
$P(\bar{A}) = 1 - P(A)$ (probabilité de l'événement contraire).
Si $A \subset B$, alors $P(A) \le P(B)$.
Formule du crible (ou d'inclusion-exclusion) : $P(A \cup B) = P(A) + P(B) - P(A \cap B)$.
Si $(A_i)_{i=1}^n$ est un système complet d'événements, alors $\sum_{i=1}^n P(A_i) = 1$.

Attention aux erreurs classiques :

Ne confonds pas $P(A \cup B)$ avec $P(A) + P(B)$ si les événements ne sont pas disjoints. La formule du crible est cruciale. De même, un système complet d'événements doit être constitué d'événements deux à deux disjoints et dont l'union est égale à $\Omega$.

I.3. Probabilités conditionnelles et indépendance

La probabilité conditionnelle permet de réévaluer la probabilité d'un événement sachant qu'un autre événement s'est déjà produit. C'est un concept fondamental pour modéliser des situations séquentielles ou dépendantes.

Définition : Probabilité conditionnelle

Soient $A$ et $B$ deux événements de $\mathcal{A}$ avec $P(B) > 0$. La probabilité de $A$ sachant $B$ est notée $P(A|B)$ ou $P_B(A)$ et est définie par :

$$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$

De cette définition découle la formule des probabilités composées, très utile pour calculer la probabilité de l'intersection de plusieurs événements. Elle est particulièrement pratique quand tu construis un arbre de probabilités.

Formule des probabilités composées :

Pour deux événements $A$ et $B$ tels que $P(B) > 0$ :

$$ P(A \cap B) = P(A|B) \times P(B) $$

Si $P(A) > 0$, on a aussi $P(A \cap B) = P(B|A) \times P(A)$.

L'indépendance de deux événements signifie que la réalisation de l'un n'influence pas la probabilité de l'autre. C'est une notion clé qui simplifie grandement les calculs.

Définition : Indépendance d'événements

Deux événements $A$ et $B$ sont dits indépendants si $P(A \cap B) = P(A)P(B)$.

À retenir :

Un espace probabilisé $(\Omega, \mathcal{A}, P)$ est le fondement de toute modélisation aléatoire.
Les propriétés de $P$ sont essentielles pour simplifier les calculs.
La probabilité conditionnelle $P(A|B) = P(A \cap B) / P(B)$ te permet de tenir compte d'une information déjà connue.
L'indépendance $P(A \cap B) = P(A)P(B)$ est une hypothèse forte qui simplifie les problèmes.

II. Variables Aléatoires Discrètes et Lois Usuelles

Les variables aléatoires sont le pont entre les événements abstraits et les valeurs numériques concrètes. Elles te permettent de quantifier les résultats d'une expérience aléatoire. Nous commençons par les variables discrètes, qui prennent un nombre fini ou dénombrable de valeurs.

Comprendre la loi de probabilité d'une variable aléatoire discrète, son espérance et sa variance est fondamental. Ces outils te serviront à analyser de nombreuses situations.

II.1. Définition et loi de probabilité

Une variable aléatoire discrète est une fonction qui associe un nombre réel à chaque issue de l'univers $\Omega$. Son ensemble de valeurs est discret.

Définition : Variable aléatoire discrète

Une variable aléatoire $X$ est dite discrète si son ensemble de valeurs $X(\Omega) = \{x_i, i \in I\}$ est fini ou dénombrable.

La loi de probabilité de $X$ est l'ensemble des probabilités $P(X=x_i)$ pour chaque $x_i \in X(\Omega)$. On note $p_i = P(X=x_i)$.

La somme des probabilités de tous les événements élémentaires doit être égale à 1. C'est une propriété cruciale à vérifier pour toute loi de probabilité.

Propriété de la loi de probabilité :

Pour une variable aléatoire discrète $X$ prenant ses valeurs dans $X(\Omega) = \{x_i, i \in I\}$ :

$$ \sum_{i \in I} P(X=x_i) = 1 $$

II.2. Espérance et variance

L'espérance et la variance sont deux caractéristiques numériques très importantes d'une variable aléatoire. Elles te donnent des informations sur la valeur moyenne et la dispersion des résultats.

Définition : Espérance et Variance

L'espérance (ou moyenne) d'une variable aléatoire discrète $X$ est notée $E(X)$ et est définie par :

$$ E(X) = \sum_{i \in I} x_i P(X=x_i) $$

La variance de $X$ est notée $V(X)$ et est définie par :

$$ V(X) = E((X-E(X))^2) = \sum_{i \in I} (x_i - E(X))^2 P(X=x_i) $$

L'écart-type est $\sigma(X) = \sqrt{V(X)}$.

Théorème de Koenig-Huygens :

La variance peut être calculée plus simplement par la formule :

$$ V(X) = E(X^2) - (E(X))^2 $$

où $E(X^2) = \sum_{i \in I} x_i^2 P(X=x_i)$.

II.3. Lois discrètes usuelles

Plusieurs lois de probabilité discrètes sont rencontrées très fréquemment. Les connaître et savoir les reconnaître te fera gagner un temps précieux aux concours.

Lois discrètes usuelles :

Loi de Bernoulli $\mathcal{B}(p)$ : Modélise une expérience avec deux issues (succès/échec). $X \in \{0, 1\}$. $P(X=1)=p$, $P(X=0)=1-p$. $E(X)=p$, $V(X)=p(1-p)$.
Loi Binomiale $\mathcal{B}(n,p)$ : Nombre de succès lors de $n$ répétitions indépendantes d'une épreuve de Bernoulli. $X \in \{0, 1, \dots, n\}$. $P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}$. $E(X)=np$, $V(X)=np(1-p)$.
Loi de Poisson $\mathcal{P}(\lambda)$ : Modélise le nombre d'événements rares sur un intervalle de temps ou d'espace donné. $X \in \mathbb{N}$. $P(X=k) = e^{-\lambda} \frac{\lambda^k}{k!}$. $E(X)=\lambda$, $V(X)=\lambda$.
Loi Géométrique $\mathcal{G}(p)$ : Rang du premier succès dans une suite d'épreuves de Bernoulli indépendantes. $X \in \mathbb{N}^*$. $P(X=k) = (1-p)^{k-1}p$. $E(X)=1/p$, $V(X)=(1-p)/p^2$.

Exemple détaillé : Loi Binomiale

Une usine produit des pièces détachées, et 5% d'entre elles sont défectueuses. On prélève un échantillon de 20 pièces au hasard avec remise. Quelle est la probabilité d'avoir exactement 2 pièces défectueuses ?

Étape 1 : Identifier la loi de probabilité.

Nous avons une série de $n=20$ épreuves de Bernoulli indépendantes (prélèvement avec remise). Chaque pièce est soit défectueuse (succès) soit non défectueuse (échec).

La probabilité de succès est $p=0.05$. La variable aléatoire $X$ qui compte le nombre de pièces défectueuses suit donc une loi Binomiale $\mathcal{B}(n=20, p=0.05)$.

Étape 2 : Appliquer la formule de la loi Binomiale.

La probabilité d'avoir exactement $k$ succès est donnée par $P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}$.

Ici, nous voulons $P(X=2)$.

Étape 3 : Effectuer le calcul.

$P(X=2) = \binom{20}{2} (0.05)^2 (0.95)^{18}$.

Calcul de $\binom{20}{2} = \frac{20 \times 19}{2} = 190$.

$P(X=2) = 190 \times (0.05)^2 \times (0.95)^{18} \approx 190 \times 0.0025 \times 0.3972 \approx 0.1887$.

Conclusion : La probabilité d'avoir exactement 2 pièces défectueuses dans l'échantillon est d'environ 18.87%.

À retenir :

Une variable aléatoire discrète prend un nombre fini ou dénombrable de valeurs.
L'espérance $E(X)$ représente la valeur moyenne, la variance $V(X)$ la dispersion.
Maîtrise les lois usuelles : Bernoulli, Binomiale, Poisson, Géométrique, leurs paramètres et leurs caractéristiques numériques.

III. Variables Aléatoires Continues et Lois Usuelles

Contrairement aux variables discrètes, les variables aléatoires continues peuvent prendre n'importe quelle valeur dans un intervalle réel. Leur modélisation requiert l'utilisation de fonctions de densité de probabilité et de fonctions de répartition.

Ce chapitre est crucial car de nombreux phénomènes naturels, physiques ou économiques sont mieux décrits par des variables continues. La loi Normale en est l'exemple le plus célèbre et le plus utile.

III.1. Définition et fonction de répartition

Pour une variable aléatoire continue, la probabilité de prendre une valeur exacte est nulle. On parle alors de probabilité sur des intervalles.

Définition : Variable aléatoire continue et fonction de répartition

Une variable aléatoire $X$ est dite continue si elle prend ses valeurs dans un intervalle de $\mathbb{R}$.

Sa fonction de répartition $F_X$ est définie pour tout $x \in \mathbb{R}$ par :

$$ F_X(x) = P(X \le x) $$

C'est une fonction croissante, continue à droite, avec $\lim_{x \to -\infty} F_X(x) = 0$ et $\lim_{x \to +\infty} F_X(x) = 1$.

III.2. Densité de probabilité, espérance et variance

La fonction de densité de probabilité est l'équivalent de la loi de probabilité pour les variables discrètes. Elle permet de calculer les probabilités par intégration.

Définition : Fonction de densité de probabilité

Une variable aléatoire $X$ est à densité s'il existe une fonction $f_X: \mathbb{R} \to \mathbb{R}^+$ telle que pour tout $a,b \in \mathbb{R}$ avec $a \le b$ :

$$ P(a \le X \le b) = \int_a^b f_X(t) dt $$

La fonction $f_X$ est appelée fonction de densité de probabilité de $X$. Elle doit vérifier :

$f_X(t) \ge 0$ pour tout $t \in \mathbb{R}$.
$\int_{-\infty}^{+\infty} f_X(t) dt = 1$.

De plus, $F_X(x) = \int_{-\infty}^{x} f_X(t) dt$. Si $f_X$ est continue, alors $F_X'(x) = f_X(x)$.

L'espérance et la variance d'une variable aléatoire continue sont définies de manière similaire à celles des variables discrètes, mais en utilisant des intégrales au lieu de sommes.

Définition : Espérance et Variance (variables continues)

L'espérance d'une variable aléatoire continue $X$ est :

$$ E(X) = \int_{-\infty}^{+\infty} t f_X(t) dt $$

(Sous réserve d'existence de l'intégrale).

La variance de $X$ est :

$$ V(X) = E((X-E(X))^2) = \int_{-\infty}^{+\infty} (t - E(X))^2 f_X(t) dt $$

Le théorème de Koenig-Huygens reste valable : $V(X) = E(X^2) - (E(X))^2$, où $E(X^2) = \int_{-\infty}^{+\infty} t^2 f_X(t) dt$.

III.3. Lois continues usuelles

Trois lois continues sont particulièrement importantes en CPGE ECG : la loi Uniforme, la loi Exponentielle et la célèbre loi Normale.

Lois continues usuelles :

Loi Uniforme $\mathcal{U}([a,b])$ : Tous les points d'un intervalle ont la même "chance" d'être tirés. $f_X(t) = \frac{1}{b-a}$ si $t \in [a,b]$, $0$ sinon. $E(X)=\frac{a+b}{2}$, $V(X)=\frac{(b-a)^2}{12}$.
Loi Exponentielle $\mathcal{E}(\lambda)$ : Modélise des durées de vie sans vieillissement (propriété d'absence de mémoire). $f_X(t) = \lambda e^{-\lambda t}$ si $t \ge 0$, $0$ sinon. $E(X)=1/\lambda$, $V(X)=1/\lambda^2$.
Loi Normale (ou de Gauss) $\mathcal{N}(\mu, \sigma^2)$ : La loi la plus importante en statistiques. Modélise de nombreux phénomènes naturels. $f_X(t) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{t-\mu}{\sigma}\right)^2}$. $E(X)=\mu$, $V(X)=\sigma^2$.
Loi Normale Centrée Réduite $\mathcal{N}(0,1)$ : Cas particulier de la loi Normale avec $\mu=0$ et $\sigma=1$. Toute variable $X \sim \mathcal{N}(\mu, \sigma^2)$ peut être centrée et réduite en $Z = \frac{X-\mu}{\sigma}$, où $Z \sim \mathcal{N}(0,1)$.

Exemple détaillé : Loi Exponentielle

La durée de vie d'un composant électronique, en années, suit une loi Exponentielle de paramètre $\lambda = 0.2$.

Étape 1 : Écrire la fonction de densité.

Pour $X \sim \mathcal{E}(0.2)$, sa fonction de densité est $f_X(t) = 0.2 e^{-0.2t}$ pour $t \ge 0$, et $0$ sinon.

Étape 2 : Calculer la probabilité que le composant dure plus de 5 ans.

Nous cherchons $P(X > 5)$. Pour une loi exponentielle, on peut utiliser la fonction de répartition $F_X(t) = 1 - e^{-\lambda t}$.

$P(X > 5) = 1 - P(X \le 5) = 1 - F_X(5) = 1 - (1 - e^{-0.2 \times 5}) = e^{-1} \approx 0.3679$.

Alternativement, par intégration : $P(X > 5) = \int_5^{+\infty} 0.2 e^{-0.2t} dt = \left[-e^{-0.2t}\right]_5^{+\infty} = 0 - (-e^{-0.2 \times 5}) = e^{-1} \approx 0.3679$.

Étape 3 : Calculer la durée de vie moyenne.

L'espérance d'une loi Exponentielle est $E(X) = 1/\lambda$.

$E(X) = 1/0.2 = 5$ ans.

Conclusion : La probabilité que le composant dure plus de 5 ans est d'environ 36.79%, et sa durée de vie moyenne est de 5 ans.

À retenir :

Une variable aléatoire continue est caractérisée par sa fonction de densité $f_X$ ou sa fonction de répartition $F_X$.
Les probabilités sont calculées par intégration de la densité.
L'espérance et la variance s'obtiennent par des intégrales.
La loi Normale est centrale, et la transformation en loi Normale Centrée Réduite est essentielle pour les calculs.

IV. Convergences et Théorèmes Limites

Les théorèmes de convergence sont au cœur de la statistique inférentielle. Ils expliquent pourquoi les moyennes d'échantillons se comportent de manière prévisible, même lorsque les données individuelles sont aléatoires. C'est ce qui nous permet de faire des inférences sur une population à partir d'un échantillon.

En CPGE ECG, tu dois maîtriser la convergence en probabilité (Loi des Grands Nombres) et la convergence en loi (Théorème Central Limite). Ces deux théorèmes sont fréquemment testés et ont des applications directes.

IV.1. Convergence en probabilité et Loi des Grands Nombres (LGN)

La convergence en probabilité traduit l'idée qu'une suite de variables aléatoires se rapproche d'une valeur limite avec une probabilité de plus en plus grande.

Définition : Convergence en probabilité

Une suite de variables aléatoires $(Y_n)_{n \in \mathbb{N}^*}$ converge en probabilité vers une variable aléatoire $Y$ (ou une constante $c$) si pour tout $\varepsilon > 0$ :

$$ \lim_{n \to +\infty} P(|Y_n - Y| > \varepsilon) = 0 $$

On note $Y_n \xrightarrow{P} Y$.

La Loi des Grands Nombres est une application fondamentale de cette convergence. Elle stipule que la moyenne empirique d'un grand nombre d'observations indépendantes et identiquement distribuées converge vers l'espérance de la variable aléatoire sous-jacente.

Loi Faible des Grands Nombres (L.F.G.N.) :

Soit $(X_n)_{n \in \mathbb{N}^*}$ une suite de variables aléatoires indépendantes et identiquement distribuées (i.i.d.) possédant une espérance $E(X_1) = \mu$ et une variance $V(X_1) = \sigma^2$.

Alors la moyenne empirique $\bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i$ converge en probabilité vers $\mu$ :

$$ \bar{X}_n \xrightarrow{P} \mu $$

En pratique, cela signifie que plus la taille de ton échantillon est grande, plus la moyenne de ton échantillon sera proche de la vraie moyenne de la population. C'est le principe derrière les sondages d'opinion.

IV.2. Convergence en loi et Théorème Central Limite (TCL)

La convergence en loi est une forme de convergence qui concerne la fonction de répartition des variables aléatoires.

Définition : Convergence en loi

Une suite de variables aléatoires $(Y_n)_{n \in \mathbb{N}^*}$ converge en loi vers une variable aléatoire $Y$ si pour tout point de continuité $x$ de la fonction de répartition $F_Y$ de $Y$ :

$$ \lim_{n \to +\infty} F_{Y_n}(x) = F_Y(x) $$

On note $Y_n \xrightarrow{L} Y$.

Le Théorème Central Limite est sans doute le plus important de tous les théorèmes de convergence. Il affirme que la somme (ou la moyenne) d'un grand nombre de variables aléatoires i.i.d., même si elles ne suivent pas une loi Normale, tend à suivre une loi Normale.

Théorème Central Limite (T.C.L.) :

Alors la suite de variables aléatoires centrées et réduites $\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}}$ converge en loi vers une variable aléatoire suivant la loi Normale Centrée Réduite $\mathcal{N}(0,1)$ :

$$ \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \xrightarrow{L} \mathcal{N}(0,1) $$

Pour $n$ grand, on peut donc approcher $\bar{X}_n$ par une loi $\mathcal{N}(\mu, \sigma^2/n)$.

Attention aux erreurs classiques :

Le TCL s'applique à la moyenne centrée et réduite, pas directement à la moyenne elle-même. N'oublie pas le $\sigma/\sqrt{n}$ au dénominateur ! De plus, l'hypothèse d'indépendance et d'identique distribution est cruciale.

Exemple détaillé : Application du TCL

Le temps (en minutes) qu'un client passe dans un supermarché suit une loi d'espérance 30 minutes et d'écart-type 10 minutes. On observe 100 clients, indépendamment les uns des autres.

Étape 1 : Identifier la loi de la moyenne.

Soit $X_i$ le temps passé par le client $i$. On a $E(X_i) = \mu = 30$ et $\sigma(X_i) = 10$. La taille de l'échantillon est $n=100$.

Selon le Théorème Central Limite, comme $n$ est grand ($n=100 \ge 30$), la moyenne des temps passés $\bar{X}_{100}$ peut être approchée par une loi Normale.

Étape 2 : Déterminer les paramètres de la loi Normale approximative.

L'espérance de $\bar{X}_{100}$ est $E(\bar{X}_{100}) = \mu = 30$.

La variance de $\bar{X}_{100}$ est $V(\bar{X}_{100}) = \sigma^2/n = 10^2/100 = 100/100 = 1$.

L'écart-type de $\bar{X}_{100}$ est $\sigma(\bar{X}_{100}) = \sqrt{1} = 1$.

Donc, $\bar{X}_{100} \approx \mathcal{N}(30, 1)$.

Étape 3 : Calculer une probabilité (par exemple, que la moyenne soit entre 29 et 31 minutes).

Nous voulons $P(29 \le \bar{X}_{100} \le 31)$. On centre et réduit :

$Z = \frac{\bar{X}_{100} - 30}{1}$.

$P(29 \le \bar{X}_{100} \le 31) = P\left(\frac{29-30}{1} \le Z \le \frac{31-30}{1}\right) = P(-1 \le Z \le 1)$.

En utilisant la fonction de répartition de la loi Normale Centrée Réduite $\Phi$ :

$P(-1 \le Z \le 1) = \Phi(1) - \Phi(-1) = \Phi(1) - (1 - \Phi(1)) = 2\Phi(1) - 1$.

Avec $\Phi(1) \approx 0.8413$, on obtient $2 \times 0.8413 - 1 = 1.6826 - 1 = 0.6826$.

Conclusion : La probabilité que le temps moyen passé par les 100 clients soit entre 29 et 31 minutes est d'environ 68.26%.

À retenir :

La Loi des Grands Nombres ($ \bar{X}_n \xrightarrow{P} \mu $) garantit que la moyenne empirique converge vers la vraie espérance.
Le Théorème Central Limite ($ \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \xrightarrow{L} \mathcal{N}(0,1) $) est fondamental pour l'inférence statistique.
Le TCL permet d'approcher la loi de la moyenne d'un échantillon par une loi Normale pour $n$ grand, même si les variables sous-jacentes ne sont pas normales.

V. Introduction à l'Estimation Statistique

L'estimation statistique est l'art de déduire des caractéristiques d'une population à partir d'un échantillon. C'est un domaine crucial en économie, en finance ou en marketing, où l'on ne peut pas toujours interroger toute la population.

Nous allons nous concentrer sur l'estimation ponctuelle (donner une valeur unique) et l'estimation par intervalle de confiance (donner un intervalle de valeurs avec un certain niveau de confiance). Ces méthodes s'appuient fortement sur les théorèmes de convergence que tu viens d'étudier.

V.1. Estimation ponctuelle : Estimateurs

Un estimateur est une variable aléatoire construite à partir d'un échantillon pour estimer un paramètre inconnu de la population.

Définition : Estimateur

Soit $\theta$ un paramètre inconnu d'une loi de probabilité. Un estimateur de $\theta$ est une variable aléatoire $\hat{\theta}_n = g(X_1, \dots, X_n)$ calculée à partir d'un échantillon $(X_1, \dots, X_n)$.

Les qualités d'un bon estimateur sont principalement l'absence de biais et la convergence. Un estimateur non biaisé a une espérance égale au paramètre qu'il estime.

Définition : Biais et Convergence d'un estimateur

Un estimateur $\hat{\theta}_n$ est dit sans biais si $E(\hat{\theta}_n) = \theta$ pour tout $n$. Le biais est $B(\hat{\theta}_n) = E(\hat{\theta}_n) - \theta$.
Un estimateur $\hat{\theta}_n$ est dit convergent si $\hat{\theta}_n \xrightarrow{P} \theta$ (converge en probabilité vers $\theta$).

L'estimateur de la moyenne de la population, la moyenne empirique $\bar{X}_n$, est un exemple classique d'estimateur sans biais et convergent (grâce à la LGN).

V.2. Estimation par intervalle de confiance

L'estimation ponctuelle donne une seule valeur, qui a peu de chances d'être exactement la vraie valeur du paramètre. L'intervalle de confiance offre une plage de valeurs, avec une probabilité spécifiée (le niveau de confiance), de contenir le vrai paramètre.

Définition : Intervalle de confiance

Un intervalle de confiance pour un paramètre $\theta$, au niveau de confiance $1-\alpha$, est un intervalle aléatoire $[L_n, R_n]$ tel que :

$$ P(L_n \le \theta \le R_n) = 1-\alpha $$

où $L_n$ et $R_n$ sont des fonctions de l'échantillon $(X_1, \dots, X_n)$.

Le niveau de confiance $1-\alpha$ est souvent choisi à 90%, 95% ou 99%.

La construction d'un intervalle de confiance repose souvent sur le Théorème Central Limite. Pour estimer une moyenne $\mu$ d'une loi de variance $\sigma^2$ connue à partir d'un grand échantillon, on utilise la formule suivante.

Intervalle de confiance pour une moyenne $\mu$ (variance $\sigma^2$ connue, $n$ grand) :

$$ \left[ \bar{X}_n - q_{1-\alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X}_n + q_{1-\alpha/2} \frac{\sigma}{\sqrt{n}} \right] $$

Où $q_{1-\alpha/2}$ est le quantile d'ordre $1-\alpha/2$ de la loi Normale Centrée Réduite $\mathcal{N}(0,1)$.

Pour un niveau de confiance de 95% ($1-\alpha=0.95$, donc $\alpha=0.05$, $\alpha/2=0.025$, $1-\alpha/2=0.975$), $q_{0.975} \approx 1.96$.

Exemple détaillé : Intervalle de confiance pour une moyenne

Un sondage est réalisé auprès de 400 personnes pour estimer la dépense moyenne mensuelle en loisirs. La moyenne observée sur l'échantillon est de 120€, et l'écart-type de la population est connu et vaut 30€.

Étape 1 : Identifier les paramètres et la loi.

Taille de l'échantillon $n=400$. Moyenne échantillon $\bar{X}_n = 120$. Écart-type population $\sigma = 30$.

Nous voulons un intervalle de confiance à 95% pour la vraie dépense moyenne $\mu$.

Étape 2 : Déterminer le quantile.

Pour un niveau de confiance de 95%, $1-\alpha = 0.95$, donc $\alpha = 0.05$. Le quantile est $q_{1-\alpha/2} = q_{0.975} \approx 1.96$.

Étape 3 : Calculer les bornes de l'intervalle.

Marge d'erreur : $m = q_{1-\alpha/2} \frac{\sigma}{\sqrt{n}} = 1.96 \times \frac{30}{\sqrt{400}} = 1.96 \times \frac{30}{20} = 1.96 \times 1.5 = 2.94$.

L'intervalle de confiance est $[\bar{X}_n - m, \bar{X}_n + m] = [120 - 2.94, 120 + 2.94] = [117.06, 122.94]$.

Conclusion : Au niveau de confiance de 95%, la dépense moyenne mensuelle en loisirs est estimée être entre 117.06€ et 122.94€.

À retenir :

L'estimation vise à déduire des paramètres de la population à partir d'un échantillon.
Un estimateur est sans biais si son espérance est égale au paramètre estimé.
Un intervalle de confiance donne une plage de valeurs pour le paramètre, avec un niveau de confiance associé.
Pour les grands échantillons, le TCL est la clé de la construction des intervalles de confiance.

VI. Tests d'Hypothèses

Les tests d'hypothèses sont des outils puissants pour prendre des décisions sur une population en se basant sur des données d'échantillon. Ils te permettent de confronter une hypothèse (dite nulle) à une hypothèse alternative, avec un niveau de risque d'erreur contrôlé.

Ce chapitre est fondamental en CPGE ECG car tu seras amené à interpréter des résultats de tests dans de nombreux contextes. La compréhension de la logique sous-jacente est plus importante que la mémorisation aveugle des formules.

VI.1. Principe général d'un test statistique

Un test d'hypothèse suit une démarche structurée. On part d'une hypothèse que l'on souhaite tester, on recueille des données, puis on calcule une statistique de test et on la compare à une valeur critique.

Les étapes d'un test d'hypothèse :

Formulation des hypothèses :
- Hypothèse Nulle ($H_0$) : l'hypothèse que l'on souhaite rejeter (souvent l'absence d'effet, d'égalité, etc.).
- Hypothèse Alternative ($H_1$) : ce que l'on cherche à prouver (souvent l'existence d'un effet, d'une différence, etc.).
Choix du niveau de signification $\alpha$ : La probabilité de rejeter $H_0$ alors qu'elle est vraie (erreur de première espèce). Souvent 5% ou 1%.
Choix de la statistique de test : Une variable aléatoire dont la loi est connue sous $H_0$.
Détermination de la région critique : L'ensemble des valeurs de la statistique de test pour lesquelles on rejette $H_0$.
Calcul de la statistique de test observée : À partir de l'échantillon.
Prise de décision : Comparer la statistique observée à la région critique (ou comparer la p-value au niveau $\alpha$).

VI.2. Erreurs de type I et de type II

Dans un test statistique, il existe toujours un risque d'erreur. Comprendre ces risques est essentiel pour interpréter correctement les résultats.

Définition : Erreurs de type I et II

Erreur de type I (ou erreur $\alpha$) : Rejeter $H_0$ alors que $H_0$ est vraie. $P(\text{rejeter } H_0 | H_0 \text{ vraie}) = \alpha$.
Erreur de type II (ou erreur $\beta$) : Ne pas rejeter $H_0$ alors que $H_1$ est vraie. $P(\text{ne pas rejeter } H_0 | H_1 \text{ vraie}) = \beta$.

La puissance du test est $1-\beta = P(\text{rejeter } H_0 | H_1 \text{ vraie})$, c'est la probabilité de prendre la bonne décision quand $H_1$ est vraie.

Attention aux erreurs classiques :

Ne jamais "accepter" $H_0$. On dit "ne pas rejeter $H_0$". L'absence de preuve contre $H_0$ n'est pas une preuve de $H_0$.

De plus, la p-value n'est pas la probabilité que $H_0$ soit vraie. C'est la probabilité d'observer un résultat au moins aussi extrême que celui obtenu si $H_0$ était vraie.

VI.3. Exemples de tests usuels

Deux tests sont particulièrement importants en CPGE ECG : le test sur une moyenne et le test sur une proportion. Ils reposent souvent sur l'approximation Normale des estimateurs grâce au TCL.

Test de la moyenne (variance connue, grand échantillon) :

Hypothèses : $H_0: \mu = \mu_0$ contre $H_1: \mu \ne \mu_0$ (bilatéral) ou $H_1: \mu > \mu_0$ (unilatéral) ou $H_1: \mu < \mu_0$ (unilatéral).
Statistique de test : $Z_{obs} = \frac{\bar{X}_n - \mu_0}{\sigma/\sqrt{n}}$. Sous $H_0$, $Z_{obs} \approx \mathcal{N}(0,1)$.
Règle de décision (pour $H_1: \mu \ne \mu_0$ au niveau $\alpha$): Rejeter $H_0$ si $|Z_{obs}| > q_{1-\alpha/2}$.

Test d'une proportion (grand échantillon) :

Hypothèses : $H_0: p = p_0$ contre $H_1: p \ne p_0$ (bilatéral) ou $H_1: p > p_0$ (unilatéral) ou $H_1: p < p_0$ (unilatéral).
Statistique de test : $Z_{obs} = \frac{\hat{p}_n - p_0}{\sqrt{p_0(1-p_0)/n}}$, où $\hat{p}_n = \frac{Y_n}{n}$ est la proportion observée. Sous $H_0$, $Z_{obs} \approx \mathcal{N}(0,1)$.
Règle de décision (pour $H_1: p \ne p_0$ au niveau $\alpha$): Rejeter $H_0$ si $|Z_{obs}| > q_{1-\alpha/2}$.

Exemple détaillé : Test d'une proportion

Une entreprise affirme que 70% de ses clients sont satisfaits. Une association de consommateurs interroge 200 clients au hasard et constate que 120 d'entre eux sont satisfaits.

Étape 1 : Formuler les hypothèses.

$H_0: p = 0.70$ (la proportion de clients satisfaits est bien 70%).

$H_1: p \ne 0.70$ (la proportion est différente de 70%, test bilatéral).

On choisit un niveau de signification $\alpha = 0.05$.

Étape 2 : Calculer la proportion observée.

Nombre de clients satisfaits $Y_n = 120$. Taille de l'échantillon $n = 200$.

Proportion observée $\hat{p}_n = \frac{120}{200} = 0.60$.

Étape 3 : Calculer la statistique de test.

$Z_{obs} = \frac{\hat{p}_n - p_0}{\sqrt{p_0(1-p_0)/n}} = \frac{0.60 - 0.70}{\sqrt{0.70(1-0.70)/200}} = \frac{-0.10}{\sqrt{0.70 \times 0.30 / 200}} = \frac{-0.10}{\sqrt{0.21 / 200}} = \frac{-0.10}{\sqrt{0.00105}} \approx \frac{-0.10}{0.0324} \approx -3.086$.

Étape 4 : Prendre une décision.

Pour un test bilatéral à $\alpha = 0.05$, le quantile $q_{1-\alpha/2} = q_{0.975} \approx 1.96$.

La région critique est $(-\infty, -1.96] \cup [1.96, +\infty)$.

Puisque $|Z_{obs}| = |-3.086| = 3.086 > 1.96$, nous rejetons $H_0$.

Conclusion : Au niveau de signification de 5%, nous rejetons l'hypothèse que 70% des clients sont satisfaits. L'échantillon suggère que la proportion est significativement différente de 70% (et plus précisément, plus faible).

À retenir :

Les tests d'hypothèses permettent de prendre des décisions statistiques sur des paramètres de population.
Les hypothèses $H_0$ et $H_1$ sont fondamentales. Ne pas confondre les erreurs de type I ($\alpha$) et II ($\beta$).
La statistique de test et la région critique (ou la p-value) sont les outils de décision.
Le rejet de $H_0$ signifie que les données apportent une preuve suffisante contre elle.

VII. Récapitulatif des Concepts Clés

Pour t'aider à fixer les idées et à organiser tes connaissances, voici un tableau récapitulatif des points essentiels abordés dans ce cours. C'est un excellent outil pour tes révisions rapides et pour vérifier ta compréhension.

Concept	Définition / Rôle	Formule(s) clé(s)	Application typique
Espace Probabilisé	Cadre pour modéliser une expérience aléatoire : $(\Omega, \mathcal{A}, P)$.	$P(\Omega)=1$, $P(A \cup B) = P(A)+P(B)-P(A \cap B)$.	Toute situation aléatoire.
Probabilités Conditionnelles	Probabilité d'un événement sachant qu'un autre s'est réalisé.	$P(A\|B) = \frac{P(A \cap B)}{P(B)}$.	Arbres de probabilités, événements dépendants.
Variable Aléatoire Discrète	Prend un nombre fini ou dénombrable de valeurs.	$E(X) = \sum x_i P(X=x_i)$, $V(X) = E(X^2) - (E(X))^2$.	Nombre de succès (Binomiale), rang du 1er succès (Géométrique).
Variable Aléatoire Continue	Prend des valeurs dans un intervalle réel, caractérisée par une densité $f_X$.	$P(a \le X \le b) = \int_a^b f_X(t) dt$, $E(X) = \int t f_X(t) dt$.	Durées de vie (Exponentielle), grande majorité de phénomènes (Normale).
Loi des Grands Nombres (LGN)	La moyenne empirique converge en probabilité vers l'espérance réelle.	$\bar{X}_n \xrightarrow{P} \mu$.	Justifie les sondages et moyennes à long terme.
Théorème Central Limite (TCL)	La moyenne (centrée réduite) d'un grand échantillon suit approximativement une loi Normale.	$\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \xrightarrow{L} \mathcal{N}(0,1)$.	Base de l'inférence statistique pour les grands échantillons.
Estimation Ponctuelle	Donner une valeur unique (l'estimateur) pour un paramètre inconnu.	Ex: $\bar{X}_n$ pour $\mu$.	Estimer une moyenne, une proportion.
Intervalle de Confiance	Fournir une plage de valeurs contenant le paramètre avec une certaine probabilité (niveau de confiance).	$[\bar{X}_n \pm q_{1-\alpha/2} \frac{\sigma}{\sqrt{n}}]$.	Donner une fourchette pour une estimation.
Tests d'Hypothèses	Prendre une décision sur une hypothèse ($H_0$) en fonction des données de l'échantillon.	Statistique de test $Z_{obs}$ comparée à $q_{1-\alpha/2}$ (ou p-value vs $\alpha$).	Vérifier une affirmation sur une moyenne ou une proportion.

VIII. Exercices d'Application Rapides

Pour consolider tes connaissances, voici quelques mini-exercices. Prends le temps de les résoudre et de vérifier tes réponses. C'est en pratiquant que tu progresseras le plus !

Événements indépendants :

Soient $A$ et $B$ deux événements indépendants tels que $P(A) = 0.4$ et $P(B) = 0.5$. Calcule $P(A \cup B)$.
Loi de Poisson :

Le nombre d'appels reçus par un service client en une heure suit une loi de Poisson de paramètre $\lambda = 3$. Quelle est la probabilité de recevoir exactement 2 appels en une heure ?
Loi Normale :

Soit $X \sim \mathcal{N}(10, 4)$. Calcule $P(X \le 12)$. (Tu peux utiliser $\Phi(1) \approx 0.8413$).
Théorème Central Limite :

On lance un dé équilibré 100 fois. Soit $S_{100}$ la somme des résultats. En utilisant le TCL, donne la loi approximative de $S_{100}$. (Rappel : pour un dé, $E(X)=3.5$, $V(X)=35/12$).
Intervalle de Confiance :

Un échantillon de 64 observations a une moyenne de 50. L'écart-type de la population est connu et vaut 8. Construis un intervalle de confiance à 90% pour la moyenne de la population. ($q_{0.95} \approx 1.645$).

Corrigés rapides :

$P(A \cap B) = P(A)P(B) = 0.4 \times 0.5 = 0.2$. Donc $P(A \cup B) = P(A) + P(B) - P(A \cap B) = 0.4 + 0.5 - 0.2 = 0.7$.
$P(X=2) = e^{-3} \frac{3^2}{2!} = e^{-3} \frac{9}{2} \approx 0.0498 \times 4.5 \approx 0.224$.
$Z = \frac{X-\mu}{\sigma} = \frac{12-10}{2} = 1$. Donc $P(X \le 12) = P(Z \le 1) = \Phi(1) \approx 0.8413$.
La somme $S_{100}$ peut être approchée par une loi Normale d'espérance $E(S_{100}) = 100 \times 3.5 = 350$ et de variance $V(S_{100}) = 100 \times (35/12) \approx 291.67$. Donc $S_{100} \approx \mathcal{N}(350, 291.67)$.
L'intervalle de confiance est $[50 - 1.645 \frac{8}{\sqrt{64}}, 50 + 1.645 \frac{8}{\sqrt{64}}] = [50 - 1.645 \times 1, 50 + 1.645 \times 1] = [48.355, 51.645]$.

IX. Comment ORBITECH Peut T'aider

Chez ORBITECH AI Academy, nous savons que la maîtrise des probabilités et des statistiques est cruciale pour ta réussite en CPGE ECG. Notre plateforme est conçue pour t'offrir un soutien personnalisé et des outils innovants, t'aidant à transformer les concepts complexes en connaissances solides. Nous t'accompagnons à chaque étape de ton apprentissage, de la compréhension théorique à la pratique intensive, pour que tu abordes les concours avec confiance et expertise.

Le Générateur d'Exercices te permet de t'entraîner sur des milliers de problèmes de probabilités et statistiques, adaptés à ton niveau et au programme ECG, avec des corrigés détaillés pour chaque question.
Utilise le Générateur de Résumés pour condenser les longs chapitres sur les lois de probabilité ou les tests d'hypothèses en fiches claires et concises, parfaites pour tes révisions.
Le Générateur de Flashcards t'aide à mémoriser les définitions, formules et propriétés des différentes lois et théorèmes, garantissant que les notions clés sont toujours à portée de main.
Notre Calculatrice Scientifique intégrée te fera gagner un temps précieux lors de tes calculs d'espérance, de variance ou de statistiques de test, te permettant de te concentrer sur le raisonnement.

Probabilités & Stats en CPGE ECG

I. Rappels et Fondements des Probabilités

I.1. Espace probabilisé

I.2. Propriétés des probabilités

I.3. Probabilités conditionnelles et indépendance

II. Variables Aléatoires Discrètes et Lois Usuelles

II.1. Définition et loi de probabilité

II.2. Espérance et variance

II.3. Lois discrètes usuelles

III. Variables Aléatoires Continues et Lois Usuelles

III.1. Définition et fonction de répartition

III.2. Densité de probabilité, espérance et variance

III.3. Lois continues usuelles

IV. Convergences et Théorèmes Limites

IV.1. Convergence en probabilité et Loi des Grands Nombres (LGN)

IV.2. Convergence en loi et Théorème Central Limite (TCL)

V. Introduction à l'Estimation Statistique

V.1. Estimation ponctuelle : Estimateurs

V.2. Estimation par intervalle de confiance

VI. Tests d'Hypothèses

VI.1. Principe général d'un test statistique

VI.2. Erreurs de type I et de type II

VI.3. Exemples de tests usuels

VII. Récapitulatif des Concepts Clés

VIII. Exercices d'Application Rapides

IX. Comment ORBITECH Peut T'aider

MAÎTRISE TES MATHS EN PRÉPA ECG !