Retour au blog

Biostatistique : Maîtrise Test Chi-deux & Intervalle Confiance

Développe ton analyse critique des données biologiques avec des exercices ciblés et corrigés.

Cet article a été rédigé à des fins pédagogiques. Les informations présentées peuvent évoluer. Nous t’invitons à vérifier auprès de sources officielles.

Exercices de Biostatistique : Test du Chi-deux et Intervalle de Confiance

Salut ! Cette série d'exercices est conçue pour te familiariser avec deux outils fondamentaux de la biostatistique : le test du chi-deux (χ²) et l'intervalle de confiance. Ces méthodes sont indispensables pour analyser des données issues de la recherche en sciences de la vie, que ce soit pour tester des hypothèses sur des fréquences ou pour estimer des paramètres de population. Prépare-toi à renforcer ta capacité d'analyse et d'interprétation de données avec une progression de difficulté adaptée au niveau supérieur.

Compétences travaillées :

  • Comprendre et appliquer le test du chi-deux d'indépendance et d'ajustement.
  • Calculer et interpréter des intervalles de confiance pour des proportions et des moyennes.
  • Évaluer la significativité statistique des résultats.
  • Relier ces méthodes à des problématiques concrètes en SVT.

Erreurs fréquentes à éviter :

  • Confondre le test d'ajustement et le test d'indépendance du chi-deux.
  • Utiliser des effectifs trop faibles pour le calcul du chi-deux.
  • Mal interpréter l'intervalle de confiance (ne pas confondre avec la probabilité que le paramètre soit dans l'intervalle).
  • Ne pas tenir compte des conditions d'application des tests statistiques.

Exercice 1 : (Facile) - Le Chi-deux d'Ajustement

Dans une population de papillons, on s'attend à observer les couleurs suivantes dans les proportions théoriques : 50% jaune, 25% bleu, 25% rouge. Sur un échantillon de 200 papillons, on observe 90 jaunes, 60 bleus et 50 rouges.

a) Quel test statistique est approprié pour comparer les fréquences observées aux fréquences théoriques attendues ?

b) Calcule les effectifs théoriques pour chaque couleur.

c) Que représente le "zéro hypothèse" (H0) dans ce cas ?

Correction :

a) Le test statistique approprié est le test du chi-deux d'ajustement (ou test d'adéquation).

b) Calcul des effectifs théoriques pour n=200 :

  • Jaune : $200 \times 0,50 = 100$
  • Bleu : $200 \times 0,25 = 50$
  • Rouge : $200 \times 0,25 = 50$

c) L'hypothèse nulle (H0) est que les fréquences observées dans l'échantillon sont conformes aux fréquences théoriques attendues dans la population pour la distribution des couleurs des papillons.

Point méthode : Le test d'ajustement sert à comparer une distribution observée à une distribution théorique prédéfinie.

Exercice 2 : (Facile) - L'Intervalle de Confiance pour une Proportion

Dans une étude sur la résistance des moustiques à un insecticide, on a observé que sur un échantillon de 400 moustiques, 120 présentaient une résistance.

a) Calcule la proportion observée de moustiques résistants.

b) Quel est l'objectif d'un intervalle de confiance pour cette proportion ?

c) Calcule l'intervalle de confiance à 95% pour la proportion de moustiques résistants (tu peux utiliser $z_{0.975} \approx 1.96$).

Correction :

a) Proportion observée ($p$) = Effectif observé / Taille de l'échantillon = $120 / 400 = 0,30$.

b) L'objectif d'un intervalle de confiance est de fournir une plage de valeurs plausibles pour la vraie proportion de moustiques résistants dans la population entière, compte tenu de la proportion observée dans l'échantillon.

c) Calcul de l'intervalle de confiance à 95% :

Formule : $p \pm z_{\alpha/2} \sqrt{\frac{p(1-p)}{n}}$

Erreur standard : $\sqrt{\frac{0,30(1-0,30)}{400}} = \sqrt{\frac{0,30 \times 0,70}{400}} = \sqrt{\frac{0,21}{400}} = \sqrt{0,000525} \approx 0,0229$

Marge d'erreur : $1,96 \times 0,0229 \approx 0,0449$

Intervalle : $0,30 \pm 0,0449 = [0,2551 ; 0,3449]$

L'intervalle de confiance à 95% est donc approximativement [0,255 ; 0,345].

Point méthode : Un intervalle de confiance plus étroit indiqu'une meilleure précision de l'estimation. Il dépend de la taille de l'échantillon et du niveau de confiance.

Exercice 3 : (Facile) - Test du Chi-deux d'Indépendance

On étudie la relation entre le sexe (Homme/Femme) et la préférence pour une activité sportive (Football/Tennis) auprès de 100 personnes. Les données sont résumées dans le tableau suivant :

Football Tennis
Homme 40 10
Femme 20 30

a) Quel test statistique permet de vérifier s'il existe une association significative entre le sexe et la préférence sportive ?

b) Quel est l'effectif théorique attendu pour un Homme préférant le Football si les deux variables étaient indépendantes ?

c) Que signifie l'hypothèse nulle (H0) dans le contexte de ce test ?

Correction :

a) Le test approprié est le test du chi-deux d'indépendance.

b) Calcul de l'effectif théorique (Homme, Football) :

Effectif total = $40 + 10 + 20 + 30 = 100$.

Total Hommes = $40 + 10 = 50$.

Total Football = $40 + 20 = 60$.

Effectif théorique = (Total Hommes × Total Football) / Effectif total = $(50 \times 60) / 100 = 3000 / 100 = 30$.

c) L'hypothèse nulle (H0) est qu'il n'y a pas d'association significative entre le sexe et la préférence sportive ; les deux variables sont indépendantes.

Point méthode : Le test d'indépendance cherche à savoir si deux variables qualitatives sont liées ou non.

Exercice 4 : (Moyen) - Conditions du Chi-deux

Lors de l'application du test du chi-deux, il est essentiel de vérifier certaines conditions. Cite deux conditions importantes pour la validité de ce test.

Correction :

Deux conditions importantes pour la validité du test du chi-deux sont :

  1. Indépendance des observations : Chaque observation doit être indépendante des autres. Par exemple, dans une enquête, la réponse d'une personne ne doit pas influencer la réponse d'une autre.
  2. Effectifs théoriques suffisants : Pour que le test chi-deux soit valide, les effectifs théoriques calculés pour chaque catégorie (et non les effectifs observés) doivent être suffisamment grands. Généralement, on exige que tous les effectifs théoriques soient supérieurs ou égaux à 5. Si certaines catégories ont des effectifs théoriques inférieurs à 5, il peut être nécessaire de regrouper des catégories adjacentes si cela est biologiquement pertinent, ou d'utiliser d'autres tests statistiques.

Attention : Ignorer ces conditions peut mener à des conclusions erronées.

Exercice 5 : (Moyen) - Interprétation de l'Intervalle de Confiance

Dans une étude sur l'efficacité d'un nouveau traitement médicamenteux pour une maladie, un intervalle de confiance à 95% pour le taux de guérison a été calculé : [0.65 ; 0.75].

a) Interprète cet intervalle de confiance.

b) Que se passerait-il si l'on souhaitait un intervalle de confiance plus étroit ? Que faudrait-il modifier ?

Correction :

a) Interprétation : On peut affirmer, avec un niveau de confiance de 95%, que le véritable taux de guérison dans la population concernée se situe la majorité. Cela ne signifie pas que 95% des individus guérissent, mais que si l'on répétait l'expérience de nombreuses fois, 95% des intervalles de confiance ainsi calculés contiendraient la vraie proportion de guérison.

b) Pour obtenir un intervalle de confiance plus étroit (c'est-à-dire une estimation plus précise) :

  • On peut augmenter la taille de l'échantillon (n). C'est la méthode la plus efficace pour réduire la largeur de l'intervalle.
  • On peut diminuer le niveau de confiance (par exemple, passer la majorité). Cependant, cela réduit la certitude que l'intervalle contienne la vraie valeur.

Erreur à éviter : Ne jamais dire que "95% des individus guérissent" à partir d'un intervalle de confiance. L'intervalle concerne la plage de valeurs plausibles pour la proportion de la population, pas l'individu.

Exercice 6 : (Moyen) - Calcul du Chi-deux (Exemple Simple)

Reprenons l'exercice 1 avec les papillons. Effectue le calcul de la statistique du chi-deux (χ²) pour tester l'ajustement aux proportions théoriques.

Données :

  • Observé : Jaune (90), Bleu (60), Rouge (50)
  • Théorique : Jaune (100), Bleu (50), Rouge (50)
  • n = 200

Correction :

La formule du chi-deux est : $\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$, où $O_i$ est l'effectif observé et $E_i$ l'effectif théorique pour chaque catégorie $i$.

Calcul :

  • Jaune : $\frac{(90 - 100)^2}{100} = \frac{(-10)^2}{100} = \frac{100}{100} = 1$
  • Bleu : $\frac{(60 - 50)^2}{50} = \frac{10^2}{50} = \frac{100}{50} = 2$
  • Rouge : $\frac{(50 - 50)^2}{50} = \frac{0^2}{50} = \frac{0}{50} = 0$

Statistique $\chi^2$ = $1 + 2 + 0 = 3$.

Valeur calculée du $\chi^2$ = 3.

Point méthode : La statistique $\chi^2$ mesure la divergence entre les observations et les attentes théoriques. Plus la valeur est élevée, plus la divergence est grande.

Exercice 7 : (Difficile) - Test du Chi-deux et Seuil de Significativité

Reprenons les données de l'exercice 3 (Sexe vs Sport) où l'on a calculé un effectif théorique de 30 pour les Hommes préférant le Football. Les effectifs observés sont : Homme/Football=40, Homme/Tennis=10, Femme/Football=20, Femme/Tennis=30.

a) Calcule la statistique $\chi^2$ pour ce test d'indépendance.

b) Détermine les degrés de liberté (ddl) pour ce test.

c) En supposant que la valeur critique du $\chi^2$ pour le seuil de significativité de 5% et les ddl calculés est de 3.84, comment interprètes-tu le résultat ?

Correction :

a) Calcul de la statistique $\chi^2$ :

Effectifs théoriques :

  • Homme/Football : 30 (calculé dans l'exercice 3)
  • Homme/Tennis : $(50 \times 40) / 100 = 20$
  • Femme/Football : $(50 \times 60) / 100 = 30$
  • Femme/Tennis : $(50 \times 40) / 100 = 20$

Calcul des termes :

  • Homme/Football : $\frac{(40 - 30)^2}{30} = \frac{100}{30} \approx 3.33$
  • Homme/Tennis : $\frac{(10 - 20)^2}{20} = \frac{(-10)^2}{20} = \frac{100}{20} = 5$
  • Femme/Football : $\frac{(20 - 30)^2}{30} = \frac{(-10)^2}{30} = \frac{100}{30} \approx 3.33$
  • Femme/Tennis : $\frac{(30 - 20)^2}{20} = \frac{10^2}{20} = \frac{100}{20} = 5$

Statistique $\chi^2 = 3.33 + 5 + 3.33 + 5 = 16.66$.

Valeur calculée du $\chi^2$ $\approx$ 16.67.

b) Degrés de liberté (ddl) : Pour un test d'indépendance, ddl = (nombre de lignes - 1) × (nombre de colonnes - 1).

Ici, 2 lignes (Homme/Femme) et 2 colonnes (Football/Tennis).

ddl = (2 - 1) × (2 - 1) = 1 × 1 = 1.

Degrés de liberté = 1.

c) Interprétation : La valeur calculée du $\chi^2$ (16.67) est supérieure à la valeur critique (3.84) pour un seuil de significativité de 5% et 1 ddl. Cela signifie que la probabilité d'observer une telle différence entre les effectifs observés et théoriques par pur hasard est très faible (inférieure à 5%). Par conséquent, on rejette l'hypothèse nulle (H0). Il existe une association statistiquement significative entre le sexe et la préférence sportive.

Le savais-tu : Le p-value associée à $\chi^2 = 16.67$ avec 1 ddl est extrêmement faible (bien inférieure à 0.001), confirmant la forte significativité du résultat.

Exercice 8 : (Difficile) - Intervalle de Confiance pour une Moyenne

Une équipe de recherche mesure la taille (en cm) de 50 plantes d'une espèce rare. Ils obtiennent une taille moyenne d'échantillon de 25 cm avec un écart-type d'échantillon (s) de 4 cm.

a) Calcule l'erreur standard de la moyenne.

b) Calcule l'intervalle de confiance à 99% pour la taille moyenne des plantes, en utilisant $t_{0.995}$ pour 49 degrés de liberté, qui est approximativement de 2.68.

c) Interprète cet intervalle de confiance.

Correction :

a) Calcul de l'erreur standard de la moyenne (ESM) :

Formule : $ESM = s / \sqrt{n}$

$ESM = 4 / \sqrt{50} \approx 4 / 7.07 \approx 0.566$

Erreur standard de la moyenne $\approx 0.566$ cm.

b) Calcul de l'intervalle de confiance à 99% :

Formule : $\bar{x} \pm t_{\alpha/2, df} \times ESM$

Marge d'erreur : $2.68 \times 0.566 \approx 1.517$

Intervalle : $25 \pm 1.517 = [23.483 ; 26.517]$

L'intervalle de confiance à 99% est approximativement [23.48 cm ; 26.52 cm].

c) Interprétation : On peut affirmer, avec 99% de confiance, que la taille moyenne réelle de cette espèce de plante dans la population se situe entre 23.48 cm et 26.52 cm. Si l'on répétait cette étude de nombreuses fois, 99% des intervalles calculés contiendraient la vraie moyenne de taille de la population.

Point méthode : Pour les petites tailles d'échantillon (souvent n < 30) ou lorsque l'écart-type de la population est inconnu, on utilise la loi de Student (t) au lieu de la loi normale (z) pour calculer les intervalles de confiance. La valeur critique 't' dépend des degrés de liberté (ddl = n-1).

Exercice 9 : (Difficile) - Application Combinée : Test et Intervalle de Confiance

Une étude vise à déterminer si une nouvelle variété de blé est plus résistante à la sécheresse qu'une variété standard. On cultive 100 plants de chaque variété sous conditions de stress hydrique contrôlé. Les rendements moyens sont :

  • Variété standard : $\bar{x}_{std} = 30$ quintaux/hectare, $s_{std} = 6$
  • Nouvelle variété : $\bar{x}_{nouvelle} = 34$ quintaux/hectare, $s_{nouvelle} = 7$
  • Taille des échantillons : $n_{std} = 100$, $n_{nouvelle} = 100$.

a) Quel test statistique utiliserait-on pour comparer les rendements moyens des deux variétés ?

b) Estime la différence de rendement entre les deux variétés en calculant l'intervalle de confiance à 95% pour la différence des moyennes. (Tu peux approximer avec $z_{0.975} \approx 1.96$ car les échantillons sont grands).

c) Interprète le résultat de l'intervalle de confiance et sa relation avec le test de significativité.

Correction :

a) Pour comparer les moyennes de deux groupes indépendants, on utilise généralement un test t pour échantillons indépendants (ou un test z si les variances sont connues et/ou les échantillons très grands, ce qui est le cas ici par approximation).

b) Calcul de l'intervalle de confiance pour la différence des moyennes ($\mu_1 - \mu_2$) :

Différence observée : $\bar{x}_{nouvelle} - \bar{x}_{std} = 34 - 30 = 4$ quintaux/hectare.

Erreur standard de la différence : $ESED = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}$

$ESED = \sqrt{\frac{6^2}{100} + \frac{7^2}{100}} = \sqrt{\frac{36}{100} + \frac{49}{100}} = \sqrt{0.36 + 0.49} = \sqrt{0.85} \approx 0.922$

Marge d'erreur : $1.96 \times 0.922 \approx 1.807$

Intervalle de confiance à 95% pour la différence : $4 \pm 1.807 = [2.193 ; 5.807]$

L'intervalle de confiance à 95% pour la différence des rendements est approximativement [2.19 ; 5.81] quintaux/hectare.

c) Interprétation et relation avec le test : L'intervalle de confiance pour la différence des moyennes est [2.19 ; 5.81]. Comme cet intervalle ne contient pas zéro et est entièrement positif, cela indique la nouvelle variété de blé a un rendement moyen significativement plus élevé que la variété standard, et ce, avec un niveau de confiance de 95%. Si l'on réalisait un test t, on obtiendrait une p-value inférieure à 0.05, conduisant au rejet de l'hypothèse nulle d'égalité des moyennes. L'intervalle de confiance nous donne en plus une estimation de l'ampleur de cette différence.

Point méthode : Un intervalle de confiance qui ne contient pas zéro pour une différence entre deux moyennes suggère une différence statistiquement significative.

Exercice 10 : (Difficile) - Chi-deux et Intervalle de Confiance pour Comparer des Proportions

Dans une étude sur la toxicité d'un pesticide, deux groupes de souris ont été exposés : un groupe contrôle (pas d'exposition) et un groupe exposé. Après une semaine, on observe le nombre de souris mortes.

  • Groupe contrôle : 100 souris, 5 mortes.
  • Groupe exposé : 100 souris, 30 mortes.

a) Calcule la proportion de mortalité dans chaque groupe.

b) Utilise un test du chi-deux d'indépendance pour déterminer si l'exposition au pesticide est associée à une augmentation significative de la mortalité.

c) Calcule l'intervalle de confiance à 95% pour la différence des proportions de mortalité entre les deux groupes. Que peux-tu conclure sur la toxicité du pesticide ?

Correction :

a) Proportions de mortalité :

  • Contrôle ($p_1$) : $5 / 100 = 0.05$
  • Exposé ($p_2$) : $30 / 100 = 0.30$

b) Test du chi-deux d'indépendance :

Tableau des effectifs observés :

Morts Vivant Total
Contrôle 5 95 100
Exposé 30 70 100
Total 35 165 200

Effectifs théoriques :

  • Contrôle/Morts : $(100 \times 35) / 200 = 17.5$
  • Contrôle/Vivant : $(100 \times 165) / 200 = 82.5$
  • Exposé/Morts : $(100 \times 35) / 200 = 17.5$
  • Exposé/Vivant : $(100 \times 165) / 200 = 82.5$

Calcul de la statistique $\chi^2$ :

  • Contrôle/Morts : $\frac{(5 - 17.5)^2}{17.5} = \frac{(-12.5)^2}{17.5} \approx 8.93$
  • Contrôle/Vivant : $\frac{(95 - 82.5)^2}{82.5} = \frac{12.5^2}{82.5} \approx 1.92$
  • Exposé/Morts : $\frac{(30 - 17.5)^2}{17.5} = \frac{12.5^2}{17.5} \approx 8.93$
  • Exposé/Vivant : $\frac{(70 - 82.5)^2}{82.5} = \frac{(-12.5)^2}{82.5} \approx 1.92$

Statistique $\chi^2 = 8.93 + 1.92 + 8.93 + 1.92 = 21.7$.

Degrés de liberté = (2-1)x(2-1) = 1.

La valeur critique du $\chi^2$ pour 1 ddl à 5% est 3.84. Comme 21.7 > 3.84, on rejette H0. Il y a une association significative entre l'exposition et la mortalité.

c) Intervalle de confiance pour la différence des proportions ($p_2 - p_1$) à 95% :

Différence observée : $0.30 - 0.05 = 0.25$.

Erreur standard de la différence : $ESED_p = \sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1} + \frac{1}{n_2})}$, où $\hat{p}$ est la proportion combinée ($35/200 = 0.175$).

$ESED_p = \sqrt{0.175(1-0.175)(\frac{1}{100} + \frac{1}{100})} = \sqrt{0.175 \times 0.825 \times 0.02} = \sqrt{0.0028875} \approx 0.0537$

Marge d'erreur : $1.96 \times 0.0537 \approx 0.105$

Intervalle : $0.25 \pm 0.105 = [0.145 ; 0.355]$

L'intervalle de confiance à 95% pour la différence des proportions de mortalité est approximativement [0.145 ; 0.355].

Conclusion sur la toxicité : L'intervalle de confiance est entièrement positif et ne contient pas zéro. Cela confirme que l'exposition au pesticide est associée à une augmentation significative de la mortalité. La différence de mortalité attendue est entre 14.5% et 35.5% de plus dans le groupe exposé par rapport au groupe contrôle. Le pesticide est donc considéré comme toxique.

Point méthode : Le test du chi-deux nous dit s'il y a une association significative, tandis que l'intervalle de confiance pour la différence nous donne une estimation de l'ampleur de cet effet.

Comment ORBITECH Peut T'aider

ORBITECH AI Academy met à ta disposition des outils concrets pour réviser plus efficacement et progresser à ton rythme.

Tous ces outils sont disponibles sur ta plateforme ORBITECH. Connecte-toi et explore ceux qui correspondent le mieux à tes besoins !

Commencer gratuitement

Contenu en libre diffusion — partage autorisé sous réserve de mentionner ORBITECH AI Academy comme source.

COMMENCE DÈS MAINTENANT

Rejoins des milliers d’étudiants qui utilisent ORBITECH pour exceller.

Commencer gratuitement
🌍 ORBITECH AI Academy — Free education in 88 languages for 171 countries