Pour résoudre des problèmes de classification, par exemple, pour trier les spams dans un dossier de courrier électronique séparé, ces algorithmes sont utilisés pour catégoriser avec précision les données de test. Les classificateurs linéaires, les machines à vecteurs de support, les arbres de décision et les forêts aléatoires sont tous des algorithmes de classification courants. Les modèles de données de régression vous aident à prédire des nombres basés sur des données ponctuelles, telles que le chiffre d’affaires futur.
Dans le contexte de l’apprentissage automatique, le clustering appartient à l’apprentissage non supervisé, qui déduit une règle pour décrire des modèles cachés dans des données non étiquetées.
En apprentissage non supervisé, des algorithmes d’apprentissage automatique sont utilisés pour analyser et regrouper des ensembles de données brutes. Ces algorithmes identifient des modèles dans les données sans intervention humaine. Des modèles d’apprentissage non supervisés sont construits pour détecter les anomalies, améliorer les services de recommandation, prédire le comportement des clients, etc.
Les modèles d’apprentissage non supervisé sont utilisés pour effectuer trois tâches principales : le regroupement, l’association et la réduction de la dimensionnalité. Le clustering est une technique d’exploration de données permettant de regrouper des données non étiquetées en fonction de leurs similitudes et de leurs différences. Cette méthode convient à la segmentation du marché, à la compression d’images, etc. L’association est une méthode d’apprentissage non supervisé qui utilise certaines règles pour identifier les relations entre des variables et un ensemble de données donné. Ces méthodes sont souvent utilisées pour analyser le comportement d’achat, créer des services de recommandation et sélectionner des produits dans les catégories « Pour acheter avec ». La réduction de la dimensionnalité est une technique utilisée lorsqu’il y a trop d’entités (ou de dimensions) dans un certain ensemble de données. Cette technique est fréquemment utilisée dans la phase de prétraitement des données, pour supprimer le bruit des données visuelles afin d’améliorer la qualité de l’image.
Le but de l’apprentissage non supervisé est d’obtenir des informations utiles à partir d’une énorme quantité de nouvelles données sans corrections. Dans l’apprentissage supervisé, l’algorithme « apprend » en faisant des prédictions basées sur l’ensemble de données d’apprentissage et en les ajustant jusqu’à ce qu’il obtienne la bonne réponse. Bien que les modèles d’apprentissage supervisés soient généralement plus précis que les modèles non supervisés, ils nécessitent une intervention humaine directe et un étiquetage précis des données. Par exemple, un modèle d’apprentissage supervisé peut prédire combien de temps il faudra pour se rendre au travail en fonction de l’heure de la journée, des conditions météorologiques, etc.
L’apprentissage non supervisé nécessite des outils puissants pour traiter de grandes quantités de données non classifiées. Ces modèles apprennent indépendamment la structure interne des données non étiquetées. Cependant, ils nécessitent encore peu d’intervention humaine pour valider les variables de sortie. Par exemple, un modèle d’apprentissage non supervisé pourrait révéler que les acheteurs en ligne achètent souvent des groupes de produits en même temps, mais un data scientist devrait vérifier s’il est logique pour un service de recommandation de regrouper tous ces produits en un seul groupe.
Il n’y a pas de classification généralement acceptée des méthodes de clustering, mais plusieurs groupes d’approches peuvent être distingués (certaines manières peuvent être attribuées à plusieurs groupes conditionnels à la fois, il existe de nombreuses méthodes, et méthodologiquement, elles sont significativement différentes) :