« Apprendre » se fait de différentes manières. Nous apprenons par l’étude, par la mise en pratique de connaissances ou encore par l’expérience et la déduction. Aussi, nous apprenons si nous le voulons bien, avec ou sans guide. La machine, celle qui semble nous dépasser en apprentissage, que fait-elle de plus ou de mieux que nous ?
L’ENTRAÎNEMENT
Alors que l’apprentissage que nous faisons peut être tout à fait aléatoire et n’avoir aucun autre objectif que la connaissance elle-même, l’apprentissage machine répond à des objectifs précis. L’apprentissage est conditionné pour répondre à une résolution de problème ou pour effectuer une tâche particulière.
Rendre un programme capable d’apprendre à partir d’exemples de données sans être programmé.
Dans l’apprentissage machine, ce sont les algorithmes qui développent leur savoir-faire grâce à l’acquisition et à l’interprétation d’un ensemble de données. Ils apprennent à développer des modèles qui améliorent les processus.
Dans les situations inédites, notre cerveau se sert de ses propres connaissances pour émettre un jugement et agir. Les algorithmes procèdent de la même façon. On suppose alors que pour la prise de telle ou telle décision, les algorithmes fournissent des solutions plus riches que les nôtres.
On peut distinguer deux grandes catégories de mode d’apprentissage: l’apprentissage supervisé et l’apprentissage non supervisé.
LA SUPERVISION DES APPRENTISSAGES OU LEUR NIVEAU D’AUTONOMIE
L’apprentissage supervisé – Supervised Learning
Dans la supervision des algorithmes, une annotation est faite avant le processus d’apprentissage, c’est le moment de l’étiquetage. Les « données d’entrée » sont annotées au préalable. Elles ont déjà un label ou une classe cible quand elles entrent dans le système.
L’apprentissage machine consiste donc à habiliter les algorithmes, par l’entraînement, à prédire de nouvelles cibles (targets). L’algorithme apprend à reconnaître la présence de similitudes pour en déduire de nouvelles occurrences.
L’apprentissage non supervisé – Unsupervised Learning
Par opposition, l’apprentissage non supervisé suppose que les données d’entrée ne sont pas étiquetées. L’algorithme doit lui-même trouver les similarités entre les modèles et créer des ensembles. Il n’apprend plus seulement à identifier les ressemblances, mais à déterminer des points communs entre deux inférences pour en créer une catégorie. C’est un principe de déduction assez avancé.
LES DIFFÉRENTS TYPES D’ALGORITHMES
Un algorithme de régression
Lorsqu’on attend de l’algorithme qu’il nous livre des données de sortie ayant une valeur continue comme un nombre, on parle de régression. Les données de sorties sont alors généralement des prédictions de quantités ou de tailles.
L’évaluation du prix d’une maison en est un bon exemple. Ou encore, lorsqu’on veut déterminer le coût par clic d’une publicité web, il y a régression, comme le souligne le professeur, Yannis Chaouche.
En quoi est-ce une régression? Dans le langage des mathématiques, la régression renvoie à la détermination de la grandeur approximative d’un phénomène correspondant à la grandeur certaine d’un autre phénomène. On utilise cette fonction de généralisation pour prédire des associations et leur ampleur entre des données qui n’ont pas encore été observées.
Cependant, la généralisation reste approximative. Il ne s’agit pas ici de produire des résultats avec une précision optimale. C’est pourquoi une vérification doit être faite concernant la qualité des données de sortie. Des données de test doivent permettre la validation de ces résultats.
Un algorithme de classification
Par ailleurs, si l’on cherche à obtenir des données de sortie ayant une valeur discrète, comme une catégorie, on a affaire à une classification. Lorsqu’on veut déterminer si une photo représente un chat ou un chimpanzé, on effectue une classification.
Reprenons l’exemple du prix des maisons. Un algorithme de classification peut tenter de prédire si les maisons se vendent plus ou moins au prix de détail recommandé. L’algorithme utilise alors les deux valeurs discrètes suivantes : au-dessus ou au-dessous du prix de détail recommandé.
Un algorithme de clustering (regroupement)
Lorsque l’issue (outcome) du modèle d’apprentissage est un ensemble de groupes de données d’entrée, il s’agit d’un problème de clustering. Le fait de regrouper des données non étiquetées, ou encore sans label, dans des ensembles, est une fonction de clustering ou de regroupement.
On peut parler de partitionnement aussi. Il s’agit de créer des ensembles à partir de clusters (parties, paquets) homogènes. Par ailleurs, cet ensemble de données est souvent comparé à un arbre avec plusieurs grappes.
Le processus de regroupement se fait de manière autonome par la machine. Les données sont classées en sous-groupes selon un principe de similarité. Tel comportement social d’un client permet de prédire qu’il aura tel ou tel comportement d’achat. On effectue un profilage. Si deux fleurs ont la même forme, alors elles sont en rapport avec une structure commune sous-jacente.
Un algorithme d’association
Dans les cas d’apprentissage non supervisé, l’association est une fonction qui consiste à découvrir certaines relations entre les attributs de données.
On distingue plusieurs types de classification, comme la classification hiérarchique, non hiérarchique et celles basées sur une densité ou sur des modèles statistiques.
CONCLUSION
Pour aller un peu plus loin, il faudrait expliquer ce qu’est l’apprentissage profond (Deep Learning). On peut le comprendre en imaginant un ensemble plus complexe de couches (layers) non linéaires amalgamées de manière abstraite. Chaque couche prendrait alors comme « entrée », la « sortie » de la couche précédente.
Ce sont des procédés formés d’arbres complexes qui permettent le développement de technologies pointues, comme la reconnaissance faciale, la vision augmentée ou le traitement du langage naturel (NLP).
On peut retenir que l’apprentissage machine s’apparente et s’inspire de notre faculté d’apprentissage. Partant du principe que le maximum de données permet le meilleur apprentissage, on peut se douter qu’une machine dépasse de loin nos capacités reliées à la mémorisation des connaissances.
Qu’en est-il alors de l’apprentissage machine qui se fait par minimisation des données. Est-ce un processus qui s’apparente au nôtre et avec lequel nous pourrions comparer nos habilités?
BILBIOGRAPHIE
Blohorn, Agar; Concepts mathématiques derrière le machine learning : la régression linéaire, ActuIA, 2019.
Chaouche, Yannis; Identifiez les différents types d’apprentissage automatiques; OpenClassrooms; mars 2021.
Patrick, Mark; Comprendre l’intelligence artificielle: l’apprentissage (training); Electronique News, mars 2021.
Priyadarshini, Pallavi; Comment choisir les algorithmes de ML pour les problèmes de régression?; Geekflare, 2019.
Valcheva, Silvia; Supervised vs Unsupervised Learning: Algorithms and Examples; IntellSpot.
Vandomme, Roger; Les concepts essentiels de l’IA; CScience IA, 2020.