Qu’est-ce que l’algorithme des k plus proches voisins? L’algorithme des k plus proches voisins (KPPV) est une méthode d’apprentissage machine supervisée utilisée pour la classification et la régression. Il attribue des étiquettes en fonction des points de données des « k » plus proches voisins dans la base d’apprentissage et est l’un des classificateurs les plus utilisés dans l’apprentissage machine. Démonstration de l’IA
Ce qu’il faut savoir sur les données synthétiques
Que sont les vecteurs et la recherche vectorielle? À quoi sert l’algorithme KPPV? Que sont les mesures de distance? Comment définir la valeur « k »? Pourquoi l’algorithme KPPV est-il important? Quels sont les avantages? Quels sont les inconvénients? Comment l’algorithme KPPV fonctionne-t-il? Quelles sont les différentes façons? Mise à profit de l’algorithme KPPV

La classification des données est un processus fondamental de l’apprentissage machine et de l’intelligence artificielle. L’objectif est d’attribuer des étiquettes aux points de données en fonction de leurs caractéristiques. Il s’agit d’analyser les données connues (données d’entraînement), chaque exemple étant étiqueté avec une catégorie ou une valeur. Les étiquettes contribuent à établir des motifs et des relations entre les données et permettent au modèle de faire des prédictions précises sur de nouveaux points de données non vus. Le travail avec des données étiquetées génère toutefois son lot de problèmes. Les processus manuels d’étiquetage des données peuvent prendre du temps et être difficiles, et l’investissement en ressources peut être trop élevé pour certaines organisations. 

L’algorithme des k plus proches voisins (KPPV) offre une solution simple et efficace à ce problème. Plutôt que d’exiger des calculs complexes en amont, l’algorithme KPPV stocke toutes les données et fait des prédictions sur les nouvelles données en fonction de leur similarité avec les données existantes. Cette approche permet à l’algorithme KPPV de faire des prédictions précises sans nécessiter un ajustement complexe, ce qui est particulièrement utile lorsqu’on travaille avec de petits ensembles de données et une puissance de calcul limitée.

Tout développer Réduire tout Que sont les vecteurs et les recherches vectorielles dans l’algorithme KPPV?

Les vecteurs font partie intégrante de la fonctionnalité de l’algorithme des k plus proches voisins. Un vecteur est une suite de nombres représentant un point dans un espace multidimensionnel. Les modèles d’apprentissage machine doivent être en mesure de transformer des données brutes non structurées en représentations numériques, appelées vecteurs d’intégration. Les vecteurs d’intégration capturent l’essence sémantique ou structurelle des données d’entrée, les relations entre les vecteurs étant représentées comme leur proximité spatiale (la distance à laquelle ils se situent les uns des autres) dans l’espace vectoriel.

L’algorithme KPPV utilise cet arrangement spatial en identifiant les « voisins » d’un point de requête, lesquels sont d’autres vecteurs situés à proximité dans l’espace multidimensionnel. Ces voisins reflètent des points de données ayant des caractéristiques partagées ou similaires.

Par exemple, deux documents traitant de thèmes similaires auront des vecteurs plus rapprochés, ce qui permettra à l’algorithme KPPV de reconnaître les similarités et les associations afin de classer de nouvelles données ou de prédire des résultats en fonction de ces relations.

Présentation de Now Intelligence Découvrez comment ServiceNow donne à l’IA et aux analyses une application concrète pour modifier la façon dont les entreprises travaillent et accélérer la transformation numérique. Obtenir le livre électronique
À quoi sert l’algorithme KPPV? 

L’algorithme des k plus proches voisins fonctionne en utilisant des vecteurs pour identifier la valeur « k » (points de données ou voisins les plus proches) à un nouveau point de données et faire des prédictions basées sur ces voisins. Par exemple, si l’objectif est de classer les courriels comme pourriels ou non, l’algorithme KPPV doit examiner les courriels les plus similaires et classer les nouveaux courriels en fonction de la classification majoritaire de ces voisins.

Imaginons qu’une organisation dispose de données clients qui incluent des éléments comme l’âge, les intérêts et l’historique d’achats. L’algorithme KPPV peut regrouper ces clients en catégories comme les acheteurs fréquents, les acheteurs occasionnels et les amateurs de lèche-vitrines en comparant leurs caractéristiques. Si un nouveau client visite le site, l’algorithme KPPV peut prédire son comportement d’achat en évaluant à quel groupe il ressemble le plus. 

L’adaptabilité de l’algorithme s’étend encore plus lorsqu’il est utilisé avec des ensembles de données multimodaux. Dans ce cas, des informations provenant de plusieurs sources (texte, images ou audio) sont combinées. L’algorithme KPPV analyse ces données dans un espace vectoriel partagé en identifiant les similitudes entre les différentes modalités. L’application de l’algorithme KPPV aux données multimodales permet de trouver le voisin le plus similaire, quelle que soit la nature des données. Cette polyvalence fait de l’algorithme KPPV un outil puissant pour gérer des scénarios de plus en plus complexes et variés.

  • Reconnaissance de motifs

L’algorithme KPPV est largement utilisé pour les tâches de reconnaissance des motifs, comme la reconnaissance des images et de l’écriture manuscrite. En comparant de nouvelles images ou de nouveaux échantillons à un ensemble de données étiqueté, l’algorithme KPPV peut classifier avec précision les objets, les caractères ou les visages en fonction de la similarité avec les motifs connus. 

  • Traitement des données 

L’algorithme KPPV est efficace dans le prétraitement des données, comme l’imputation de valeurs manquantes ou la détection de valeurs aberrantes. En analysant les plus proches voisins, il peut estimer les valeurs manquantes et améliorer la qualité et la cohérence des données. 

  • Moteurs de recommandation 

L’algorithme KPPV aide à créer des systèmes de recommandation en analysant le comportement et les préférences des utilisateurs. En identifiant les utilisateurs ayant des intérêts similaires, il peut suggérer des produits, des films ou du contenu que d’autres profils similaires ont aimés, améliorant ainsi l’expérience et la participation des utilisateurs. 

  • Transformation image-texte 

L’algorithme KPPV est de plus en plus utilisé dans les tâches de conversion image-texte au sein des systèmes multimodaux. En comparant les vecteurs des images avec ceux des descriptions textuelles, il permet aux systèmes d’IA de réaliser des tâches comme la mise en légende automatisée des images, où les meilleures correspondances fournissent un texte contextuellement adapté. 

Quelles mesures de distance sont utilisées dans l’algorithme KPPV?

Dans chacune des approches mentionnées, la précision des prédictions de l’algorithme KPPV dépend fortement des mesures de distance utilisées pour déterminer la similarité des données. Les mesures de distance dans l’algorithme KPPV déterminent la similarité entre les points de données, ce qui est crucial pour des prédictions précises. Ces mesures déterminent comment l’algorithme calcule la « proximité » des points de données pour classifier ou prédire efficacement de nouveaux points de données.

Distance euclidienne 

La distance euclidienne est la mesure la plus couramment utilisée dans KPPV, calculant la distance linéaire entre deux points dans l’espace euclidien. Imaginez utiliser une carte et une règle pour mesurer le chemin le plus court entre deux emplacements. Plus la distance est courte, plus les points sont considérés comme similaires. Par exemple, si on compare la taille et le poids de différentes personnes, la distance euclidienne aiderait à déterminer quelles personnes sont les plus similaires en fonction de ces deux caractéristiques qui sont séparées par la plus courte distance euclidienne. 

 

Distance de Manhattan 

La distance de Manhattan mesure les différences absolues entre les points le long de chaque dimension, comme la navigation dans un réseau de rues urbaines. Imaginez une ville quadrillée où les déplacements sont possibles uniquement le long des rues et non en diagonale. Cette mesure est utile lorsque les points de données sont structurés selon un motif de grille, comme pour la comparaison des itinéraires de livraison ou des scénarios de planification urbaine.

Distance de Minkowski  

La distance de Minkowski est une généralisation des distances euclidienne et Manhattan. L’ajustement du paramètre « p » lui permet de se comporter comme l’une ou l’autre des mesures. Considérez la distance de Minkowski comme un outil flexible qui peut s’adapter à différents scénarios en fonction des besoins précis de l’analyse des données. Par exemple, si quelqu’un compare des propriétés à dimensions différentes (comme le prix, la superficie et le nombre de pièces), l’ajustement de la valeur « p » aiderait à mettre l’accent sur certaines dimensions par rapport aux autres, ce qui en ferait un paramètre polyvalent pour différents types de comparaisons de données. 

Comment définir la valeur « k »? 

Sans la définition correcte de la valeur « k », l’algorithme KPPV ne fonctionnera pas comme prévu. Si la valeur « k » est trop petite, les prédictions seront trop sensibles au bruit des données, ce qui entraînera une forte variance et des résultats instables. D’autre part, une valeur trop importante pourrait lisser les prévisions, mais pourrait rendre le modèle trop généralisé de sorte qu’il ignorerait certains motifs particuliers.

Pour trouver la valeur optimale de « k », les praticiens utilisent généralement la validation croisée (une technique où l’ensemble de données est divisé en ensembles de formation et de validation à plusieurs reprises pour tester différentes valeurs de « k »). Cela aide à établir un « k » qui minimise les erreurs de prédiction tout en maintenant la capacité de généralisation de l’algorithme.

Ce processus peut comprendre des essais et des erreurs. Pour trouver le « k » adéquat, il faut tester diverses valeurs pour s’assurer que le modèle fonctionne bien sur les données vues et non vues, et qu’il atteint l’équilibre optimal entre stabilité et précision.

Pourquoi l’algorithme KPPV est-il important? 
L’algorithme KPPV est un outil précieux dans divers scénarios où les relations entre les points de données ne sont pas immédiatement évidentes. Il exploite la similarité entre les points de données pour faire des prédictions précises sans nécessiter un entraînement approfondi du modèle. Il est particulièrement utile dans les domaines comme la reconnaissance d’images, où les similitudes visuelles peuvent être essentielles pour identifier des objets, ou dans la segmentation de la clientèle, où les motifs de comportement aident à classer les utilisateurs en groupes significatifs. 
Quels sont les avantages de l’algorithme KPPV? 

L’objectif principal de l’algorithme des k plus proches voisins est d’établir des connexions, des similarités et des relations entre les données. Ses nombreux avantages en font un modèle populaire auprès des organisations. Les avantages de l’algorithme KPPV comprennent ce qui suit :

Mise en œuvre facile 

L’algorithme KPPV est simple à comprendre et à mettre en œuvre, même pour les débutants en apprentissage machine. Il ne nécessite pas de phase d’entraînement complexe; il mémorise plutôt l’ensemble de données d’entraînement et l’utilise directement pour faire des prédictions.

Adaptabilité 

Que ce soit pour des tâches de classification ou de régression, l’algorithme KPPV est capable de gérer différentes structures de données et relations nécessaires au groupement des points de données. Cette flexibilité lui permet d’être utilisé dans plusieurs secteurs, comme les finances, les soins de santé ou le commerce électronique.

Complexité réduite

L’algorithme KPPV nécessite très peu de paramètres à ajuster, principalement la valeur « k » et la mesure de distance. Cela réduit la complexité liée à l’ajustement du modèle, contrairement à d’autres algorithmes qui exigent une optimisation importante des paramètres. Par conséquent, Il simplifie le développement du modèle et facilite l’obtention de bonnes performances avec peu d’ajustements.

Quels sont les inconvénients de l’utilisation de l’algorithme KPPV? 

Bien que l’algorithme KPPV offre plusieurs avantages, il présente également certaines faiblesses notables. Cela peut inclure : 

Problèmes liés au grand nombre de dimensions 

Ce problème concerne l’augmentation exponentielle des données requises pour maintenir le même niveau de performance quand le nombre de caractéristiques (ou dimensions) augmente. Dans les espaces à grand nombre de dimensions, la distance entre les points de données devient moins significative, ce qui rend difficile l’identification des véritables « plus proches voisins » par l’algorithme KPPV. Cela peut réduire considérablement la précision et l’efficacité de l’algorithme dans les ensembles de données avec de nombreuses fonctions. 

Risque de surapprentissage 

L’algorithme KPPV peut être affecté négativement par le bruit et les valeurs aberrantes des données, particulièrement lorsque la valeur « k » est faible. Cette sensibilité peut entraîner un surapprentissage dans lequel l’algorithme interprète le bruit et les anomalies comme des motifs valides. Le surapprentissage nuit à la capacité du modèle à généraliser à partir de nouvelles données non vues, ce qui réduit la performance prédictive. 

Difficultés de mise à l’échelle 

La complexité du calcul augmente avec la taille de l’ensemble de données, ce qui rend l’algorithme KPPV inefficace pour les ensembles de données trop volumineux. Chaque prédiction exige de calculer la distance entre le nouveau point de données et tous les points de la base d’apprentissage, ce qui entraîne une utilisation excessive de la mémoire et des temps de calcul longs. Ce manque de capacité de mise à l’échelle limite donc l’application de l’algorithme KPPV dans les scénarios où les volumes de données sont importants. 

Comment l’algorithme KPPV fonctionne-t-il? 

Comme nous l’avons déjà mentionné, l’algorithme KPPV classe les points de données en fonction de leur proximité avec d’autres points de données dans l’ensemble de données. Pour ce faire, l’algorithme doit suivre un ensemble précis d’étapes :

1. Choisir le nombre de voisins (k) 

Définir la valeur « k » à prendre en compte lors de la classification ou de la régression. Cette valeur influencera la façon dont l’algorithme évalue la similarité entre les points de données.

2. Calculer la distance 

Pour chaque point de données de la base d’apprentissage, calculez la distance entre celui-ci et le nouveau point de données en vous servant d’une des mesures de distance (euclidienne, Manhattan ou Minkowski). Cette mesure de distance aide à déterminer ce qui devrait être considéré comme le plus proche voisin du nouveau point de données.

3. Identifier les plus proches voisins 

Triez les distances calculées à l’étape 2 et déterminez les « k » plus proches voisins. Ces voisins sont les points de données les plus proches du nouveau point de données en fonction de la mesure de distance choisie. 

4. Faire une prédiction 

Pour les tâches de classification, attribuez le nouveau point de données à la classe la plus courante parmi ses « k » plus proches voisins. Pour les tâches de régression, calculez la valeur moyenne ou médiane des « k » plus proches voisins et utilisez cette valeur comme prédiction pour le nouveau point de données.

5. Évaluer le modèle

Évaluez l’exactitude et la performance du modèle de l’algorithme KPPV à l’aide de techniques de validation croisée. Ajustez la valeur « k » et la mesure de distance au besoin pour optimiser les prévisions du modèle. 

Quelles sont les différentes façons d’exécuter l’algorithme KPPV? 

Il existe plusieurs méthodes pour exécuter l’algorithme des k plus proches voisins (KPPV), chacune ayant ses propres avantages et correspondant à des applications appropriées. Les méthodes suivantes aident à optimiser le processus de recherche des plus proches voisins, ce qui fait de l’algorithme KPPV une option efficace pour différents types d’ensembles de données.  

  • Force brute 

La méthode de force brute calcule la distance entre le point de requête et tous les autres points de l’ensemble de données. C’est une méthode simple, mais coûteuse sur le plan informatique, ce qui la rend plus appropriée pour les petits ensembles de données 

  • Arbre k-dimensionnel (arbre k-d)

Un arbre k-d organise les points dans un espace k-dimensionnel en divisant de façon recourbée l’espace en hyperrectangles. Il réduit les calculs de distance et accélère les recherches de l’algorithme KPPV pour des données à nombre modéré de dimensions. 

  • Arbre métrique

Un arbre métrique divise l’espace en sphères imbriquées, ce qui permet les recherches efficaces de plus proches voisins en éliminant des parties non pertinentes de l’ensemble de données. Il est particulièrement efficace pour les données à grand nombre de dimensions et surpasse souvent les arbres K-d dans ces scénarios. 

Tarification de ServiceNow ServiceNow offre des ensembles de produits concurrentiels qui s’adaptent au fur et à mesure que votre entreprise grandit et que vos besoins changent. Obtenir un devis
Tirer parti de l’algorithme des k plus proches voisins avec ServiceNow 

L’algorithme des k plus proches voisins est inestimable pour sa capacité à classer les points de données et à quantifier les relations pour les systèmes d’IA. ServiceNow, un chef de file en solutions de TI d’entreprise, intègre l’IA avancée et l’algorithme KPPV, fournissant des outils puissants pour la transformation numérique. La plateforme primée Now Platform® de ServiceNow exploite l’intelligence artificielle et l’apprentissage machine pour automatiser, optimiser et moderniser les flux de travail dans l’ensemble des fonctions de l’entreprise, ce qui permet une optimisation intelligente à l’échelle de l’entreprise. 

En intégrant l’algorithme KPPV et d’autres algorithmes avancés, ServiceNow permet aux organisations de tirer parti de l’IA pour améliorer la prise de décision, réduire les délais d’exécution et adopter une approche plus efficace de l’entreprise. Découvrez la puissance transformatrice de l’IA et de Now Platform; demandez une démonstration de ServiceNow dès aujourd’hui! 

Alt
Explorez les flux de travail IA Découvrez comment la plateforme ServiceNow permet d’exploiter l’IA dans tous les domaines de votre entreprise. Explorer l’IA générative Nous contacter
Ressources Articles Qu’est-ce que l’IA? Qu’est-ce que l’IA générative? Rapports d’analyste IDC InfoBrief : Maximisez la valeur de l’IA avec une plateforme numérique IA générative dans les opérations informatiques Mise en œuvre de l’IA générative dans l’industrie des télécommunications Fiches techniques Recherche IA Prédisez et prévenez les pannes avec Predictive AIOps de ServiceNow® Gestion des ressources Livres électroniques Modernize IT Services and Operations with AI (Moderniser les services et les opérations informatiques avec l’IA) L’IA générative : Un enjeu majeur? Unleash Enterprise Productivity with GenAI (Optimisez la productivité dans toute l’entreprise avec l’IA générative) Livres blancs Indice de maturité de l’IA de l’entreprise IA générative pour les télécommunications