Retour au blog

Quiz : Maîtrises-tu les bases du Machine Learning ?

Du mode de prédiction au regroupement de données, explore les piliers de l'intelligence artificielle pour booster tes compétences en data science.

Cet article a été rédigé à des fins pédagogiques. Les informations présentées peuvent évoluer. Nous t’invitons à vérifier auprès de sources officielles.

L'essentiel à connaître

Le Machine Learning (ML), ou apprentissage automatique, est une branche de l'intelligence artificielle qui permet aux ordinateurs d'apprendre à partir de données sans être explicitement programmés pour chaque tâche. On distingue principalement deux familles : l'apprentissage supervisé et l'apprentissage non supervisé. Dans le premier cas, l'algorithme s'entraîne sur des données étiquetées (on connaît la réponse attendue), tandis que dans le second, il doit trouver des structures par lui-même.

La régression et la classification appartiennent à l'apprentissage supervisé. La régression sert à prédire une valeur numérique continue, comme le prix d'un appartement ou la température de demain. La classification, quant à elle, sert à prédire une catégorie ou une étiquette discrète, comme déterminer si un email est un spam ou non. Ces deux méthodes sont fondamentales pour l'analyse prédictive en entreprise.

Le clustering est la méthode phare de l'apprentissage non supervisé. Son rôle est de regrouper des objets similaires au sein de "clusters" (grappes) en se basant sur leurs caractéristiques communes. C'est un outil puissant pour la segmentation de clientèle ou la compression d'images, car il ne nécessite pas de connaissances préalables sur les groupes à former.

Définition : Le Machine Learning est un procédé d'analyse de données qui automatise la construction de modèles analytiques par la reconnaissance de patterns.

À retenir : La différence majeure entre supervision et non-supervision réside dans la présence ou l'absence d'étiquettes (labels) dans ton jeu de données d'entraînement.

Les points clés

Pour réussir tes modèles, tu dois comprendre la notion de variables. En apprentissage supervisé, on utilise des variables explicatives (features) pour prédire une variable cible (target). Le choix du modèle dépendra de la nature de cette cible. Si tu te trompes de type de modèle, par exemple en utilisant une régression linéaire pour un problème de classification binaire, tes résultats seront incohérents ou inexploitables.

Le surapprentissage (overfitting) est le piège numéro un. Cela arrive quand ton modèle apprend "par cœur" les données d'entraînement, y compris le bruit et les erreurs, au lieu de généraliser. À l'inverse, le sous-apprentissage (underfitting) signifie que le modèle est trop simple pour saisir la complexité des données. Trouver le juste équilibre est l'objectif de tout data scientist.

Formule : L'erreur quadratique moyenne (MSE) est souvent utilisée en régression : $$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$

Piège classique : Confondre corrélation et causalité. Ce n'est pas parce que deux variables évoluent ensemble que l'une cause l'autre.

Quiz : Teste tes connaissances

Question 1 : Quel est l'objectif principal de la régression ?

A. Classer des images dans des dossiers
B. Prédire une valeur numérique continue
C. Regrouper des clients par comportement
D. Réduire la dimension des données

Réponse : B. La régression vise à estimer une valeur quantitative (ex: un prix). L'option A correspond à la classification et l'option C au clustering. La régression ne traite pas de catégories mais de nombres réels.

Question 2 : Laquelle de ces tâches est un exemple de classification ?

A. Détecter si une transaction bancaire est frauduleuse
B. Estimer le futur prix d'une action en bourse
C. Créer des groupes d'utilisateurs sur un réseau social
D. Prédire la quantité de pluie pour demain

Réponse : A. La fraude est un problème binaire (Oui/Non), ce qui définit la classification. Le prix de l'action (B) et la pluie (D) sont des régressions, car ce sont des valeurs continues.

Question 3 : Qu'est-ce que le clustering ?

A. Une méthode d'apprentissage supervisé
B. Un algorithme pour prédire l'âge des utilisateurs
C. Une méthode de regroupement de données non étiquetées
D. Une technique pour nettoyer les données manquantes

Réponse : C. Le clustering est non supervisé ; il découvre des structures cachées sans labels préalables. Prédire l'âge (B) serait une régression, pas du clustering.

Question 4 : Quel algorithme est célèbre pour le clustering ?

A. Régression Linéaire
B. Support Vector Machine (SVM)
C. Random Forest
D. K-Means

Réponse : D. K-Means est l'algorithme de clustering le plus utilisé pour partitionner des données en K groupes. Les autres (A, B, C) sont principalement des algorithmes supervisés.

Question 5 : Que signifie l'étiquetage (labeling) des données ?

A. Supprimer les données inutiles
B. Associer une réponse connue à chaque exemple d'entrée
C. Trier les données par ordre alphabétique
D. Convertir des images en noir et blanc

Réponse : B. En apprentissage supervisé, le "label" est la vérité terrain que le modèle doit apprendre à prédire. Sans labels, on passe en apprentissage non supervisé.

Question 6 : Quel problème survient lorsqu'un modèle est trop complexe pour les données ?

A. Overfitting (Surapprentissage)
B. Underfitting (Sous-apprentissage)
C. Normalisation
D. Clustering

Réponse : A. L'overfitting se produit quand le modèle capture le bruit au lieu de la tendance générale. Le modèle performe alors très bien sur l'entraînement mais mal en situation réelle.

Question 7 : Dans une classification binaire, combien de classes y a-t-il ?

A. Une seule
B. Une infinité
C. Deux
D. Autant qu'il y a de colonnes

Réponse : C. "Binaire" implique deux choix possibles (ex: vrai/faux, malade/sain). Au-delà de deux, on parle de classification multi-classe.

Question 8 : Qu'est-ce qu'une "Feature" en Machine Learning ?

A. Le résultat final de l'algorithme
B. Une caractéristique ou variable d'entrée utilisée pour prédire
C. Un bug dans le code Python
D. Le nom du modèle choisi

Réponse : B. Les features sont les colonnes de ton tableau de données (âge, taille, poids) qui servent à expliquer ou prédire la variable cible.

Question 9 : Quelle métrique est couramment utilisée pour évaluer une classification ?

A. La moyenne arithmétique
B. L'erreur absolue moyenne (MAE)
C. L'écart-type
D. L'Accuracy (Précision globale)

Réponse : D. L'Accuracy mesure le pourcentage de prédictions correctes. La MAE (B) est réservée à la régression pour mesurer l'écart entre les nombres.

Question 10 : Si tu veux prédire la note d'un examen (de 0 à 20) en fonction du temps d'étude, tu utilises :

A. Une régression
B. Un clustering
C. Un algorithme de recommandation
D. Une classification

Réponse : A. La note est une valeur continue sur une échelle numérique. Si on voulait seulement prédire "Reçu" ou "Échoué", on utiliserait la classification.

Question 11 : Quel est le rôle de l'ensemble de test (test set) ?

A. Entraîner le modèle
B. Nettoyer les données
C. Évaluer les performances du modèle sur des données inconnues
D. Remplacer l'ensemble d'entraînement

Réponse : C. On gard'une partie des données secrètes pour simuler le comportement du modèle dans le monde réel et vérifier s'il n'a pas fait d'overfitting.

Question 12 : Qu'est-ce qu'un "Outlier" ?

A. Une donnée très importante
B. La réponse prédite par le modèle
C. Un paramètre de l'algorithme
D. Une donnée aberrante ou atypique qui s'écarte du reste

Réponse : D. Les outliers peuvent fausser les résultats, notamment en régression linéaire, car ils tirent la droite de prédiction vers eux de manière disproportionnée.

Question 13 : Pourquoi utilise-t-on le Machine Learning plutôt que des règles IF/ELSE classiques ?

A. Parce que c'est moins cher
B. Pour gérer des problèmes trop complexes ou changeants
C. Parce que le ML ne fait jamais d'erreurs
D. Pour coder plus rapidement

Réponse : B. Il est impossible d'écrire des règles manuelles pour reconnaître un visage parmi des millions de pixels. Le ML apprend ces règles tout seul.

Question 14 : En clustering K-Means, que représente le "K" ?

A. Le nombre de groupes (clusters) souhaités
B. Le nombre total de données
C. La vitesse d'apprentissage
D. Le coefficient d'erreur

Réponse : A. K est un hyperparamètre que tu dois définir à l'avance pour dire à l'algorithme combien de groupes il doit créer dans ton dataset.

Question 15 : Quel domaine utilise massivement le clustering ?

A. Le calcul des impôts
B. La traduction automatique
C. Le marketing (segmentation client)
D. La résolution d'équations mathématiques

Réponse : C. Le clustering permet d'identifier des groupes de clients ayant des comportements d'achat similaires pour leur proposer des offres ciblées sans connaître les groupes à l'avance.

Comment ORBITECH Peut T'aider

ORBITECH AI Academy met à ta disposition des outils concrets pour réviser plus efficacement et progresser à ton rythme.

Tous ces outils sont disponibles sur ta plateforme ORBITECH. Connecte-toi et explore ceux qui correspondent le mieux à tes besoins !

Contenu en libre diffusion — partage autorisé sous réserve de mentionner ORBITECH AI Academy comme source.

COMMENCE DÈS MAINTENANT

Cours approfondis, méthodologie et orientation pour réussir dans le supérieur.

Commencer gratuitement
🌍 ORBITECH AI Academy — Free education in 88 languages for 171 countries