L'essentiel à connaître
Les statistiques à deux variables étudient la relation entre deux caractères observés sur une même population (ex: budget pub et chiffre d'affaires, ou taille et poids). La première étape est le nuage de points, une représentation graphique où chaque individu est un point de coordonnées (xi, yi). Si les points semblent alignés, on peut envisager un ajustement linéaire. Le "point moyen" G, dont les coordonnées sont les moyennes respectives des deux variables, est un point central par lequel passera toujours la droite d'ajustement.
La méthode la plus courante pour trouver la meilleure droite est celle des "moindres carrés". Elle minimise la somme des carrés des écarts verticaux entre les points et la droite. Cette droite d'équation y = ax + b permet de faire des prévisions : on estime une valeur de y pour un x donné (interpolation ou extrapolation). C'est un outil de décision puissant en gestion pour anticiper les ventes ou les coûts de production.
Définition : La corrélation mesure l'intensité et le sens de la relation entre deux variables. Elle ne prouve pas qu'une variable cause l'autre (causalité).
À retenir : Le coefficient de corrélation linéaire r est toujours compris entre -1 et 1. Plus sa valeur absolue est proche de 1, plus l'ajustement linéaire est de qualité.
Les points clés
Le coefficient de corrélation r est l'indicateur de confiance de ton modèle. Si r = 0,95, le lien est très fort et positif. Si r = -0,80, le lien est fort mais inverse (quand x augmente, y diminue). Si r est proche de 0, il n'y a pas de lien linéaire, et la droite de régression ne sera d'aucune utilité pour les prévisions. Attention toutefois aux "valeurs aberrantes" qui peuvent fausser r et déplacer la droite de manière injustifiée.
Pour calculer la pente 'a' de la droite de régression, on utilise la covariance des deux variables divisée par la variance de x. Une fois 'a' obtenu, on trouve 'b' (l'ordonnée à l'origine) en utilisant le fait que la droite passe par le point moyen G. En gestion, on utilise aussi souvent le coefficient de détermination R² (qui est le carré de r). Un R² de 0,81 signifie que la grande majorité de la variation de y est expliquée par la variation de x. C'est un excellent moyen de valider la pertinence d'un modèle marketing ou financier.
Formule : Équation de la droite : $$y = ax + b$$ avec $$a = \frac{Cov(X,Y)}{V(X)}$$
Piège classique : Confondre les variables x et y dans les calculs ou oublier que la corrélation n'implique pas forcément une causalité directe.
Quiz : Teste tes connaissances
Question 1 : Qu'est-ce que le "point moyen" G d'un nuage de points ?
Réponse : C. Le point moyen G(x̄, ȳ) est le centre de gravité du nuage. Une propriété fondamentale de la droite de régression par les moindres carrés est qu'elle passe obligatoirement par ce point.
Question 2 : Quelle valeur de r indique l'absence totale de corrélation linéaire ?
Réponse : B. Un coefficient de corrélation proche de 0 indique qu'il n'y a aucun lien linéaire entre les deux variables. Le nuage de points ressemble alors à une "tache" informe ou à un cercle, rendant tout ajustement par une droite inutile.
Question 3 : Si r = -0,92, comment peut-on qualifier la relation entre X et Y ?
Réponse : A. Un r de -0,92 est proche de -1, ce qui signifie que les points sont très bien alignés sur une droite qui descend. Quand la variable X augmente, la variable Y diminue de façon très régulière.
Question 4 : Quel est le but principal de la méthode des moindres carrés ?
Réponse : D. En minimisant le carré des écarts, on s'assure que la droite est la plus proche possible de l'ensemble des points du nuage. On évite ainsi que de grands écarts ne soient trop pénalisants, tout en assurant un ajustement optimal.
Question 5 : Dans l'équation y = 2x + 10, que représente le coefficient 2 ?
Réponse : B. Le coefficient 'a' (ici 2) indique de combien augmente Y quand X augmente d'une unité. Si 'a' est positif, la droite monte ; s'il est négatif, elle descend.
Question 6 : On trouve y = 3x + 50. Si x = 10, quelle est la valeur estimée de y ?
Réponse : C. C'est le principe de la prévision par ajustement linéaire. On remplace x par sa valeur dans l'équation : y = 3 * 10 + 50 = 30 + 50 = 80. C'est une estimation utile pour projeter une tendance future.
Question 7 : Un coefficient de détermination R² de 0,49 signifie que :
Réponse : A. R² donne la proportion de la variance de Y qui est "expliquée" par le modèle linéaire. À 0,49 (soit r = 0,7), l'ajustement est modéré : il reste 51% de variations dues à d'autres facteurs non pris en compte.
Question 8 : Pourquoi dit-on que "corrélation n'est pas causalité" ?
Réponse : D. Deux variables peuvent être corrélées à cause d'un troisième facteur caché (variable confondante). Par exemple, la vente de glaces et les coups de soleil sont corrélés, mais l'un ne cause pas l'autre : c'est la chaleur qui cause les deux.
Question 9 : Comment appelle-t-on une prévision faite pour une valeur de X située à l'extérieur de l'intervalle des données observées ?
Réponse : B. L'extrapolation consiste à prédire le futur ou des valeurs extrêmes. Elle est plus risquée que l'interpolation car rien ne garantit que la tendance linéaire observée se poursuivra au-delà des données connues.
Question 10 : Si toutes les données sont multipliées par 2, le coefficient de corrélation r :
Réponse : C. Le coefficient r est invariant par changement d'échelle linéaire. Il mesure la "qualité" de l'alignement, pas la grandeur des valeurs. Si les points sont alignés, ils le restent même si on change les unités de mesure.
Question 11 : Quel signe a la pente 'a' si r est positif ?
Réponse : A. La pente 'a' et le coefficient de corrélation 'r' ont toujours le même signe (celui de la covariance). Si les variables évoluent dans le même sens (r > 0), la droite doit forcément avoir une pente montante (a > 0).
Question 12 : Qu'est-ce qu'un "résidu" en statistiques bivariées ?
Réponse : B. Le résidu représente l'erreur du modèle pour un point précis. Si le résidu est proche de zéro, la droite passe près du point. L'analyse des résidus permet de vérifier si un modèle linéaire est vraiment adapté aux données.
Question 13 : Quel graphique est indispensable avant tout calcul de régression ?
Réponse : D. Visualiser les données est crucial. Le nuage de points permet de voir immédiatement si une relation existe et si elle semble linéaire. Si le nuage a une forme de courbe (parabole), un ajustement linéaire (droite) serait une erreur.
Question 14 : La covariance de deux variables X et Y est négative. Cela signifie que :
Réponse : A. La covariance indique le sens de la variation commune. Négative, elle signifie que lorsque X est au-dessus de sa moyenne, Y a tendance à être en dessous de la sienne. Cela conduit à un r négatif et une pente 'a' négative.
Question 15 : Si r = 1, cela signifie que :
Réponse : C. Un coefficient r = 1 indiqu'une corrélation positive parfaite. Il n'y a aucun résidu, tous les points sont situés exactement sur la droite de régression. C'est un cas idéal rarement rencontré avec des données réelles.
Comment ORBITECH Peut T'aider
ORBITECH AI Academy met à ta disposition des outils concrets pour réviser plus efficacement et progresser à ton rythme.
- Générateur de Quiz : crée des quiz personnalisés pour tester tes connaissances et identifier tes lacunes.
- Générateur d'Exercices : crée des exercices d'entraînement adaptés à ton niveau avec corrections détaillées.
- Calculatrice Scientifique : effectue des calculs avancés avec historique et graphiques de fonctions.
- Générateur de Résumés : transforme tes cours en fiches de révision claires et structurées.
Tous ces outils sont disponibles sur ta plateforme ORBITECH. Connecte-toi et explore ceux qui correspondent le mieux à tes besoins !