Objectifs du cours :
- Définir et comprendre les concepts fondamentaux des statistiques descriptives.
- Calculer et interpréter les mesures de tendance centrale : moyenne, médiane, mode.
- Calculer et interpréter les mesures de dispersion : étendue, variance, écart-type.
- Calculer et interpréter les mesures de position : quartiles, déciles, percentiles.
- Utiliser les représentations graphiques (histogramme, boîte à moustaches) pour explorer les données.
- Appliquer ces outils pour décrire et résumer un jeu de données réel.
Prérequis :
- Notions de base en mathématiques (opérations arithmétiques, fonctions).
- Compréhension des ensembles de nombres.
- Capacité à organiser et lire des données sous forme de listes ou tableaux.
- Une calculatrice scientifique est recommandée pour les exemples.
Salut à toi, futur Data Scientist ! Bienvenue dans ce cours essentiel sur les statistiques descriptives.
Si tu es en BUT Data Science, tu sais déjà que les données sont le carburant de notre époque. Mais pour les utiliser, il faut d'abord savoir les comprendre et les résumer.
Les statistiques descriptives sont la première étape de toute analyse de données. Elles te permettent de donner du sens à des tableaux de chiffres bruts, de détecter des tendances, des anomalies, et de communiquer des informations clés de manière concise. C'est un langage universel pour les données.
I. Introduction aux Statistiques Descriptives
Les statistiques descriptives sont une branche des statistiques qui se concentre sur la description, la synthèse et la présentation des données d'une manière significative. Elles ne tirent pas de conclusions au-delà des données analysées et ne généralisent pas à une population plus large.
Leur objectif est de réduire la complexité d'un grand ensemble de données en quelques indicateurs clés ou représentations graphiques. Elles te permettent de "raconter une histoire" avec tes données. C'est une compétence fondamentale en Data Science.
I.1. Population, Échantillon et Variables
Avant de plonger dans les calculs, il est crucial de bien définir le cadre de ton étude statistique. Comprendre ces termes te permettra de poser les bonnes bases pour toute analyse.
Définition : Concepts Clés
- Population : L'ensemble de tous les individus ou éléments présentant une caractéristique commune sur laquelle porte l'étude. Ex: Tous les étudiants d'un BUT Data Science en France.
- Échantillon : Un sous-ensemble représentatif de la population, choisi pour être étudié. Ex: 100 étudiants sélectionnés aléatoirement parmi tous les étudiants de BUT Data Science.
- Individu (ou unité statistique) : Chaque élément de la population ou de l'échantillon. Ex: Un étudiant.
- Variable (ou caractère) : La caractéristique étudiée sur les individus. Ex: Âge, taille, note au dernier examen.
Les variables peuvent être de différents types, et le type de variable déterminera les méthodes statistiques que tu pourras utiliser. Il est crucial de bien les identifier dès le début de ton projet.
- Variables qualitatives : Décrivent une qualité ou une catégorie.
- Nominales : Pas d'ordre logique (Ex: Couleur des yeux, sexe).
- Ordinales : Il y a un ordre logique (Ex: Mention au bac : Passable, AB, B, TB).
- Variables quantitatives : Mesurent une quantité.
- Discrètes : Prennent un nombre fini ou dénombrable de valeurs (Ex: Nombre d'enfants, nombre de livres lus).
- Continues : Peuvent prendre n'importe quelle valeur dans un intervalle (Ex: Taille, poids, temps).
Exemple : Étude sur les films
Tu réalises une étude sur les films sortis l'année dernière.
- Population : Tous les films sortis l'année dernière.
- Échantillon : Les 100 films les plus rentables de l'année.
- Individu : Un film particulier.
- Variables :
- Genre (qualitative nominale : Action, Comédie, Drame).
- Note des spectateurs (quantitative discrète ou ordinale si sur une échelle de 1 à 5).
- Durée (quantitative continue : en minutes).
- Studio de production (qualitative nominale).
À retenir : Les statistiques descriptives servent à résumer des données. Avant de commencer, identifie clairement ta population, ton échantillon et le type de tes variables (qualitatives ou quantitatives) car cela conditionne les outils statistiques à employer.
II. Mesures de Tendance Centrale : Où se Situent les Données ?
Les mesures de tendance centrale te donnent une idée de la valeur "typique" ou "moyenne" autour de laquelle les données se regroupent. Elles sont essentielles pour avoir un premier aperçu de la distribution de tes données. Tu les utiliseras constamment.
Les trois principales mesures de tendance centrale sont la moyenne, la médiane et le mode. Chaque mesure a ses spécificités et est plus ou moins adaptée selon le type de données et la forme de leur distribution.
II.1. La Moyenne Arithmétique
La moyenne est probablement la mesure la plus connue et la plus utilisée. Elle représente la somme de toutes les valeurs divisée par le nombre de valeurs. Elle est très sensible aux valeurs extrêmes (outliers).
Définition : Moyenne Arithmétique
La moyenne arithmétique (notée $\bar{x}$) d'une série de $n$ valeurs $x_1, x_2, \dots, x_n$ est la somme de ces valeurs divisée par le nombre de valeurs $n$.
Formule : Moyenne Arithmétique
$$ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i $$
La moyenne est très utile pour les variables quantitatives. Elle a l'avantage de prendre en compte toutes les valeurs de la série. Cependant, sa sensibilité aux valeurs aberrantes peut parfois la rendre peu représentative.
II.2. La Médiane
La médiane est la valeur centrale d'une série de données ordonnées. Elle divise la série en deux parties égales : la moitié des valeurs sont inférieures ou égales à la médiane, l'autre moitié sont supérieures ou égales. Elle est moins sensible aux valeurs extrêmes que la moyenne.
Définition : Médiane
La médiane ($Me$) est la valeur qui partage la série de données ordonnées en deux sous-ensembles de même effectif.
Pour calculer la médiane, tu dois d'abord trier tes données par ordre croissant. Si le nombre de valeurs $n$ est impair, la médiane est la valeur située au milieu. Si $n$ est pair, la médiane est généralement la moyenne des deux valeurs centrales.
II.3. Le Mode
Le mode est la valeur qui apparaît le plus fréquemment dans une série de données. C'est la seule mesure de tendance centrale qui peut être utilisée pour les variables qualitatives nominales. Une série de données peut avoir un mode (unimodale), plusieurs modes (multimodale) ou aucun mode.
Définition : Mode
Le mode ($Mo$) est la valeur ou la modalité qui a la plus grande fréquence (ou le plus grand effectif) dans une série statistique.
Exemple : Notes d'un examen
Voici les notes de 10 étudiants à un examen (sur 20) : 12, 15, 10, 18, 12, 14, 16, 11, 12, 15.
- Calcul de la Moyenne : $$ \bar{x} = \frac{12+15+10+18+12+14+16+11+12+15}{10} = \frac{135}{10} = 13.5 $$ La note moyenne est 13.5.
- Calcul de la Médiane :
- Ordonner les notes : 10, 11, 12, 12, 12, 14, 15, 15, 16, 18.
- Il y a 10 valeurs ($n$ est pair). Les deux valeurs centrales sont la 5ème (12) et la 6ème (14).
- La médiane est la moyenne de ces deux valeurs : $Me = \frac{12+14}{2} = 13$.
- Calcul du Mode :
- La note 12 apparaît 3 fois. La note 15 apparaît 2 fois. Toutes les autres notes apparaissent 1 fois.
- Le mode est 12, car c'est la note la plus fréquente.
Attention : Quand utiliser quelle mesure ?
Utilise la moyenne si tes données sont quantitatives et ne présentent pas de valeurs aberrantes significatives. Préfère la médiane si tes données ont des valeurs extrêmes ou si elles sont ordinales. Le mode est utile pour toutes les variables, notamment les nominales, pour identifier la catégorie la plus fréquente.
À retenir : Les mesures de tendance centrale (moyenne, médiane, mode) t'indiquent le "centre" de tes données. La moyenne est sensible aux extrêmes, la médiane est robuste, et le mode identifie la valeur la plus fréquente.
III. Mesures de Position : Diviser les Données
Les mesures de position, ou quantiles, sont des valeurs qui divisent une série de données ordonnées en parties égales. Elles te donnent une idée de la répartition des données et de la position relative de certaines valeurs. Elles sont particulièrement utiles pour l'analyse exploratoire et la détection d'outliers.
Les plus couramment utilisés sont les quartiles, mais tu peux aussi rencontrer les déciles et les percentiles. Ces outils permettent de découper la distribution de tes données en segments compréhensibles.
III.1. Les Quartiles
Les quartiles divisent une série de données ordonnées en quatre parties égales. Ils sont au nombre de trois et sont notés $Q_1, Q_2, Q_3$.
Définition : Quartiles
- Premier Quartile ($Q_1$) : 25% des données sont inférieures ou égales à $Q_1$. C'est la médiane de la première moitié des données.
- Deuxième Quartile ($Q_2$) : 50% des données sont inférieures ou égales à $Q_2$. C'est la médiane de l'ensemble de la série.
- Troisième Quartile ($Q_3$) : 75% des données sont inférieures ou égales à $Q_3$. C'est la médiane de la deuxième moitié des données.
Pour calculer les quartiles, il est indispensable de commencer par ordonner la série de données. La méthode de calcul exacte peut varier légèrement entre les logiciels, mais le principe reste le même.
Exemple : Salaires annuels (en milliers d'euros) de 12 employés
Série ordonnée : 25, 28, 30, 32, 35, 38, 40, 42, 45, 50, 55, 60.
- Calcul de la Médiane ($Q_2$) : $n=12$ (pair). Les valeurs centrales sont la 6ème (38) et la 7ème (40). $Q_2 = (38+40)/2 = 39$.
- Calcul de $Q_1$ : C'est la médiane de la première moitié des données (25, 28, 30, 32, 35, 38). Il y a 6 valeurs. Les valeurs centrales sont 30 et 32. $Q_1 = (30+32)/2 = 31$.
- Calcul de $Q_3$ : C'est la médiane de la deuxième moitié des données (40, 42, 45, 50, 55, 60). Il y a 6 valeurs. Les valeurs centrales sont 45 et 50. $Q_3 = (45+50)/2 = 47.5$.
Cela signifie que 25% des employés gagnent moins de 31k€, 50% moins de 39k€, et 75% moins de 47.5k€.
À retenir : Les quartiles ($Q_1, Q_2, Q_3$) divisent les données ordonnées en quatre parts égales, te donnant des repères sur la distribution des valeurs, notamment la médiane ($Q_2$).
IV. Mesures de Dispersion : Comment les Données S'étalent-elles ?
Les mesures de dispersion complètent les mesures de tendance centrale en t'indiquant à quel point les données sont étalées ou concentrées autour de la moyenne. Deux séries de données peuvent avoir la même moyenne mais des dispersions très différentes. C'est une information cruciale.
L'étendue, la variance et l'écart-type sont les indicateurs les plus courants pour quantifier cette dispersion. Ils te permettront de juger de l'homogénéité ou de l'hétérogénéité de tes données.
IV.1. L'Étendue
L'étendue est la mesure de dispersion la plus simple. C'est la différence entre la valeur maximale et la valeur minimale d'une série. Elle te donne une idée rapide de l'amplitude des données.
Définition : Étendue
L'étendue ($E$) est la différence entre la valeur maximale ($x_{max}$) et la valeur minimale ($x_{min}$) d'une série de données.
Formule : Étendue
$$ E = x_{max} - x_{min} $$
L'étendue est très facile à calculer, mais elle est extrêmement sensible aux valeurs extrêmes. Une seule valeur aberrante peut fausser complètement l'idée de la dispersion générale.
IV.2. L'Écart Interquartile
L'écart interquartile ($EIQ$) est la différence entre le troisième quartile ($Q_3$) et le premier quartile ($Q_1$). Il mesure l'étendue des 50% des données centrales, ce qui le rend moins sensible aux valeurs extrêmes que l'étendue.
Définition : Écart Interquartile (EIQ)
L'écart interquartile est la différence entre le troisième quartile et le premier quartile.
Formule : Écart Interquartile
$$ EIQ = Q_3 - Q_1 $$
L'EIQ est un indicateur robuste de dispersion, particulièrement utile pour les distributions asymétriques ou avec des outliers.
IV.3. La Variance et l'Écart-type
La variance et l'écart-type sont les mesures de dispersion les plus importantes et les plus fréquemment utilisées. Elles quantifient la moyenne des carrés des écarts par rapport à la moyenne. L'écart-type, en particulier, est exprimé dans la même unité que les données, ce qui facilite son interprétation.
Définition : Variance et Écart-type
- Variance ($\sigma^2$ ou $s^2$) : Moyenne des carrés des écarts de chaque valeur par rapport à la moyenne. Plus la variance est élevée, plus les données sont dispersées.
- Écart-type ($\sigma$ ou $s$) : Racine carrée de la variance. Il est plus facile à interpréter car il est dans la même unité que les données.
Formules : Variance et Écart-type
Pour une population :
$$ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 $$
$$ \sigma = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2} $$
Pour un échantillon (variance non biaisée) :
$$ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$
$$ s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} $$
Où $\mu$ est la moyenne de la population, $\bar{x}$ est la moyenne de l'échantillon, $N$ est la taille de la population, et $n$ est la taille de l'échantillon.
Exemple : Notes d'un examen (suite de l'exemple précédent)
Notes : 10, 11, 12, 12, 12, 14, 15, 15, 16, 18. Moyenne $\bar{x} = 13.5$.
- Calcul des Écarts au Carré :
- $(10-13.5)^2 = 12.25$
- $(11-13.5)^2 = 6.25$
- $(12-13.5)^2 = 2.25$ (x3)
- $(14-13.5)^2 = 0.25$
- $(15-13.5)^2 = 2.25$ (x2)
- $(16-13.5)^2 = 6.25$
- $(18-13.5)^2 = 20.25$
- Somme des Écarts au Carré : $12.25 + 6.25 + (3 \times 2.25) + 0.25 + (2 \times 2.25) + 6.25 + 20.25 = 56.5$.
- Calcul de la Variance (échantillon $n=10$) : $s^2 = \frac{56.5}{10-1} = \frac{56.5}{9} \approx 6.2778$.
- Calcul de l'Écart-type : $s = \sqrt{6.2778} \approx 2.505$.
Un écart-type de 2.5 points signifie que les notes varient en moyenne d'environ 2.5 points par rapport à la moyenne de 13.5.
Attention : $n$ ou $n-1$ pour la variance ?
Lorsque tu calcules la variance et l'écart-type d'un échantillon pour estimer ceux de la population, utilise $n-1$ au dénominateur. C'est le "correctif de Bessel" qui rend l'estimateur non biaisé. Pour décrire juste un échantillon, tu peux utiliser $n$, mais en Data Science, on cherche souvent à inférer sur la population.
À retenir : Les mesures de dispersion (étendue, EIQ, variance, écart-type) quantifient l'étalement des données. L'écart-type est le plus pertinent car il est dans la même unité que les données et robuste pour décrire la variabilité autour de la moyenne.
V. Représentations Graphiques pour l'Exploration
Les chiffres sont importants, mais une image vaut mille mots. Les représentations graphiques sont des outils indispensables en statistiques descriptives pour visualiser la distribution de tes données, identifier des motifs, des valeurs aberrantes et des tendances. Elles rendent l'analyse plus intuitive.
Plusieurs types de graphiques sont adaptés pour décrire différents types de variables. Choisir le bon graphique est crucial pour communiquer efficacement tes découvertes. Tu vas apprendre à utiliser les plus pertinents.
V.1. Histogrammes pour Variables Quantitatives
Un histogramme est un graphique en barres qui représente la distribution d'une variable quantitative continue (ou discrète avec un grand nombre de valeurs). L'axe horizontal représente les classes de valeurs, et l'axe vertical représente la fréquence (ou la densité) de ces classes.
Définition : Histogramme
Un histogramme est un graphique qui affiche la distribution d'une variable quantitative en divisant les données en "bins" (intervalles) et en comptant le nombre d'observations dans chaque bin.
La forme d'un histogramme peut te révéler beaucoup sur tes données : sont-elles symétriques, asymétriques, unimodales (un seul pic) ou multimodales (plusieurs pics) ? Y a-t-il des trous ou des valeurs extrêmes ?
V.2. Diagrammes en Boîte à Moustaches (Box Plot)
Le diagramme en boîte à moustaches (ou box plot) est un graphique très efficace pour visualiser la distribution d'une variable quantitative à l'aide de ses quartiles. Il te donne rapidement une idée de la tendance centrale, de la dispersion et de la présence de valeurs aberrantes.
Définition : Diagramme en Boîte à Moustaches
Un box plot est une représentation graphique qui visualise la distribution d'une série de données numériques à l'aide de cinq valeurs clés : le minimum, le premier quartile ($Q_1$), la médiane ($Q_2$), le troisième quartile ($Q_3$) et le maximum.
Les "moustaches" s'étendent des quartiles aux valeurs minimale et maximale qui ne sont pas considérées comme des outliers. Les outliers sont souvent représentés par des points individuels au-delà des moustaches. Le box plot est idéal pour comparer des distributions.
Exemple : Analyse de la distribution de salaires avec un Box Plot
Reprenons notre exemple de salaires : 25, 28, 30, 32, 35, 38, 40, 42, 45, 50, 55, 60.
Nous avions calculé : $Min=25, Q_1=31, Q_2=39, Q_3=47.5, Max=60$.
Un box plot pour ces données montrerait :
- Une boîte allant de 31 ($Q_1$) à 47.5 ($Q_3$).
- Une ligne à 39 ($Q_2$, la médiane) à l'intérieur de la boîte.
- Une moustache inférieure allant jusqu'à 25 (Min).
- Une moustache supérieure allant jusqu'à 60 (Max).
Si un salaire de 150 était ajouté, il serait représenté comme un point isolé (outlier) au-dessus de la moustache supérieure, car il serait bien au-delà de $Q_3 + 1.5 \times EIQ$.
Attention : La taille des bins pour les histogrammes
Le choix de la taille des intervalles (bins) pour un histogramme est crucial. Des bins trop larges masquent des détails, des bins trop étroits peuvent rendre le graphique bruyant et difficile à interpréter. Il n'y a pas de règle unique, mais plusieurs méthodes existent pour déterminer la taille optimale.
À retenir : Les histogrammes montrent la distribution de fréquences des variables quantitatives, tandis que les box plots résument la distribution en utilisant les quartiles et identifient les valeurs aberrantes, étant parfaits pour la comparaison de groupes.
VI. Cas Pratiques et Interprétation des Indicateurs
Les statistiques descriptives ne sont pas juste des calculs, c'est avant tout de l'interprétation ! Dans cette section, nous allons voir comment utiliser ces indicateurs ensemble pour avoir une vision complète de tes données et prendre des décisions éclairées. C'est là que la Data Science prend tout son sens.
Un bon Data Scientist sait non seulement calculer les statistiques, mais aussi les expliquer et les contextualiser. Il faut toujours se poser la question : "Qu'est-ce que ces chiffres me disent sur le phénomène étudié ?"
VI.1. Interprétation Combinée des Mesures
Ne te contente jamais d'une seule mesure. La moyenne, la médiane, le mode, l'écart-type et les quartiles racontent chacun une partie de l'histoire. C'est en les combinant que tu obtiendras une image complète de tes données.
- Si moyenne $\approx$ médiane : La distribution est probablement symétrique.
- Si moyenne > médiane : La distribution est probablement asymétrique vers la droite (étalée vers les grandes valeurs), avec peut-être des valeurs élevées qui tirent la moyenne vers le haut.
- Si moyenne < médiane : La distribution est probablement asymétrique vers la gauche (étalée vers les petites valeurs), avec peut-être des valeurs faibles qui tirent la moyenne vers le bas.
- Un écart-type faible indique que les données sont regroupées autour de la moyenne (homogènes).
- Un écart-type élevé indique que les données sont très dispersées (hétérogènes).
Exemple : Analyse des temps de réponse d'un serveur (en ms)
Un Data Scientist étudie les temps de réponse de deux serveurs, A et B. Il collecte 1000 mesures pour chaque serveur.
Serveur A :
- Moyenne = 120 ms
- Médiane = 115 ms
- Écart-type = 10 ms
- Min = 90 ms, Max = 150 ms
Serveur B :
- Moyenne = 125 ms
- Médiane = 100 ms
- Écart-type = 40 ms
- Min = 50 ms, Max = 300 ms
Interprétation :
- Le serveur A a des temps de réponse légèrement inférieurs en moyenne et médiane.
- Le serveur A est beaucoup plus stable (écart-type faible). Ses temps de réponse sont très homogènes.
- Le serveur B a une distribution asymétrique vers la droite (Moyenne > Médiane), avec un écart-type très élevé. Cela suggère qu'il y a des pics de latence importants, même si la plupart des requêtes sont rapides. Le maximum de 300 ms confirme la présence de requêtes très lentes.
- Pour un service critique, le serveur A serait préféré pour sa prévisibilité, malgré sa moyenne légèrement plus élevée.
Attention : Corrélation n'est pas causalité !
Les statistiques descriptives te montrent des relations et des caractéristiques dans les données. Elles ne prouvent jamais une relation de cause à effet. Si tu constates que deux variables évoluent ensemble, cela ne signifie pas que l'une cause l'autre.
À retenir : Combine les mesures de tendance centrale et de dispersion pour une interprétation riche. Compare moyenne et médiane pour juger de la symétrie, et l'écart-type pour la variabilité. Rappelle-toi toujours que la corrélation n'implique pas la causalité.
VII. Récapitulatif Final
Tu as parcouru les concepts fondamentaux des statistiques descriptives ! Voici un tableau récapitulatif pour t'aider à structurer tes connaissances et à te rappeler les points essentiels.
| Catégorie | Mesure | Description | Utilisation Clé | Sensibilité aux Outliers |
|---|---|---|---|---|
| Tendance Centrale | Moyenne ($\bar{x}$) | Somme des valeurs / nombre de valeurs | Valeur "moyenne" pour données quantitatives symétriques | Très sensible |
| Médiane ($Me$) | Valeur centrale des données ordonnées | Milieu de la distribution, robuste aux outliers | Faible | |
| Mode ($Mo$) | Valeur la plus fréquente | Pour toutes variables, identifie la catégorie la plus courante | Non applicable | |
| Position | Quartiles ($Q_1, Q_2, Q_3$) | Divisent les données ordonnées en 4 parties égales | Analyse de la répartition, base du box plot | Faible |
| Dispersion | Étendue ($E$) | $x_{max} - x_{min}$ | Amplitude totale des données (simple et rapide) | Très sensible |
| Écart Interquartile ($EIQ$) | $Q_3 - Q_1$ | Étendue des 50% centrales des données (robuste) | Faible | |
| Variance ($\sigma^2$ ou $s^2$) | Moyenne des carrés des écarts à la moyenne | Base de l'écart-type, quantifie la dispersion | Sensible | |
| Écart-type ($\sigma$ ou $s$) | $\sqrt{\text{Variance}}$ | Dispersion moyenne autour de la moyenne, dans la même unité que les données | Sensible |
VIII. Exercices d'Application Rapides
Mets tes connaissances en pratique avec ces exercices rapides. N'hésite pas à revoir les formules si besoin.
-
Question 1 : Une entreprise enregistre le nombre d'appels reçus chaque jour pendant une semaine : 120, 150, 130, 180, 140, 150, 160. Calcule la moyenne, la médiane et le mode du nombre d'appels.
Réponse :
- Série ordonnée : 120, 130, 140, 150, 150, 160, 180.
- Moyenne : $(120+130+140+150+150+160+180) / 7 = 1030 / 7 \approx 147.14$ appels.
- Médiane : La 4ème valeur est 150.
- Mode : 150 (apparaît 2 fois).
-
Question 2 : Pour la série de données : 5, 8, 10, 12, 15, 18, 20. Calcule l'étendue et l'écart interquartile.
Réponse :
- Série ordonnée : 5, 8, 10, 12, 15, 18, 20.
- Étendue : $20 - 5 = 15$.
- Médiane ($Q_2$) : 12.
- $Q_1$ (médiane de 5, 8, 10) : 8.
- $Q_3$ (médiane de 15, 18, 20) : 18.
- Écart Interquartile : $18 - 8 = 10$.
-
Question 3 : Deux classes (A et B) ont les notes moyennes suivantes : Classe A ($\bar{x}=14$, $s=2$) et Classe B ($\bar{x}=14$, $s=5$). Quelle classe est la plus homogène en termes de notes, et pourquoi ?
Réponse : La Classe A est la plus homogène. Bien que les deux classes aient la même moyenne, la Classe A a un écart-type plus faible (2 contre 5), ce qui signifie que les notes de ses élèves sont plus regroupées autour de la moyenne, avec moins de dispersion.
-
Question 4 : Tes données contiennent des valeurs extrêmes. Quelle mesure de tendance centrale privilégierais-tu pour décrire la valeur "typique" et pourquoi ?
Réponse : Je privilégierais la médiane. Contrairement à la moyenne, la médiane est robuste face aux valeurs extrêmes et donne une meilleure idée du centre de la distribution lorsque les données sont asymétriques ou contiennent des outliers.
IX. Comment ORBITECH Peut T'aider
Chez ORBITECH AI Academy, nous savons que la maîtrise des statistiques descriptives est fondamentale pour tout Data Scientist en herbe. C'est la base de toute analyse de données, et nous sommes là pour t'accompagner. Nous mettons à ta disposition des outils interactifs et des ressources pédagogiques pour t'aider à calculer, comprendre et interpréter ces indicateurs clés avec facilité et rigueur.
- Générateur d'Exercices : Entraîne-toi à calculer moyennes, médianes, écarts-types sur des jeux de données variés, avec des corrections détaillées pour t'assurer de bien comprendre chaque étape.
- Générateur de Résumés : Obtiens des fiches de synthèse de ce cours ou de tes propres notes, idéal pour revoir rapidement les définitions et formules clés avant tes évaluations.
- Générateur de Flashcards : Crée des cartes de révision pour mémoriser les formules et les concepts importants des statistiques descriptives de manière ludique et efficace.
- Calculatrice Scientifique : Utilise notre calculatrice intégrée pour effectuer rapidement tes calculs de variance ou d'écart-type, sans te perdre dans des outils externes.