“Médecine, police, justice : l’intelligence artificielle a de réelles limites”

“Médecine, police, justice : l’intelligence artificielle a de réelles limites”

Philippe Besse, chercheur à l’OBVIA alerte sur les limites de l’intelligence artificielle (IA). Dans le cadre du partenariat entre CScience IA et La Conversation nous vous proposons l’intégralité de l’article paru le 1er décembre.

Les systèmes d’IA (intelligence artificielle), qui envahissent nos quotidiens, sont des algorithmes d’apprentissage automatique consommant de grandes masses de données pour leur entraînement. De nombreux exemples montrent que ceux-ci ne sont pas aussi performants que nous pourrions l’espérer (ou le craindre). La compréhension de leurs limites éclaire le choix de leur déploiement et préalablement celui de l’accès à des données personnelles.

Les médias ont largement communiqué sur les performances d’AlphaZero pour jouer aux échecs ou au go, sur celles, parfois discutables, des algorithmes de détection de tumeurs, la médecine 4p (personnalisée, prédictive et participative, préventive), sur les craintes suscitées par les projets de police prédictive (PredPol).

On communique moins sur les succès réels de la détection de défaillances sur une chaîne de production industrielle, l’abandon de PredPol par la police de Los Angeles, la faible performance des recommandations publicitaires et déjà la difficulté de l’évaluer. Trois points éclairent ces questions de performance de prévision et donc d’aide, bénéfique ou non, à la décision : prévision personnalisée vs de population, complexité et dimension du domaine d’application, représentativité du test d’évaluation des performances.

IA EMPIRIQUE ET APPRENTISSAGE AUTOMATIQUE

La prévision d’une valeur ou de la probabilité d’occurrence d’un événement (ruine, défaillance, pathologie, récidive, acte violent, acte d’achat, embauche…) est basée sur l’observation de données historiques personnelles issues de l’observation de p caractéristiques ou variables (biologiques, génomiques, comptables, socio-économiques, comportementales, CV…) de n situations ou individus ainsi que celles de la réponse recherchée : valeur ou occurrence de l’événement. L’entraînement de l’algorithme consiste à quantifier les relations selon le type d’algorithme utilisé entre les variables et la réponse.

Cette étape réalisée et ayant observé les variables pour une nouvelle situation ou individu, une aide à la décision est la conséquence de la prévision de sa réponse. Cette prévision est construite en combinant, à l’aide des paramètres, les réponses prises par les individus les plus proches du nouvel individu au sens du type d’algorithme utilisé.

Rappelons qu’un tel algorithme ne crée rien, il fournit une prévision la plus conforme à l’historique observé à condition que le nouvel individu, la nouvelle situation, soit bien issue du domaine concerné. Schématiquement, la conception d’un système d’IA passe par des étapes essentielles :

  1. les définitions de l’objectif et du domaine d’application,
  2. le dimensionnement et choix du modèle ou type d’algorithme,
  3. l’acquisition des données d’entraînement, leur évaluation,
  4. l’entraînement avec optimisation d’hyper paramètres,
  5. le test afin d’en évaluer rigoureusement les performances.

Les points 1 et 3 soulèvent la question fondamentale mais classique en statistique : les données d’entraînement sont-elles représentatives de l’objectif et du domaine visés ? Le point 4 technique est quasiment automatisé. Nous allons illustrer les points 1, 2 et 5 en prenant pour exemple d’actualité la médecine 4_p_ en montrant en quoi, personnalisée et prédictive peuvent être antinomiques pour un système d’IA empirique.

PRÉVISION INDIVIDUELLE ET MOYENNE

Plus la taille n d’un échantillon est importante, meilleure est la prévision d’une moyenne (médecine de population, santé publique). Plus précisément, l’erreur décroît avec la racine carrée de n. En revanche, une prévision individuelle (médecine personnalisée) reste entachée d’une erreur, quelle que soit la taille n considérée.

Cette erreur incompressible est une conséquence des erreurs aléatoires, bruits, de mesure et des effets inconnus de facteurs non pris en compte. Ceci explique en partie les très mauvaises performances de la prévision d’un comportement humain en justice (30 à 40 % d’erreur) ou police prédictive.

En médecine de population, des modèles statistiques élémentaires (régression logistique), permettent de prouver (significativité statistique), quantifier, expliquer l’influence de facteurs (tabac, alcool, pesticides…) sur la santé publique.

C’est un objectif de la cohorte Constances rassemblant n=200 000 personnes afin d’atteindre la puissance statistique nécessaire pour mettre en évidence des impacts inconnus de facteurs ou de leurs interactions. En médecine personnalisée, réduire l’erreur de prévision d’une pathologie multifactorielle complexe incite à associer de nombreux facteurs génétiques et environnementaux.

C’est un objectif du plan France Génomique 2025 qui finance le séquençage annuel massif de milliers de génomes. Les avancées des biotechnologies permettent de détecter, pour chaque individu, des occurrences de millions de SNPs (single-nucleotide polymorphism) ou mutations, de mesurer les expressions (ARN) de dizaines de milliers de gènes, de quantifier des centaines de milliers de protéines…

Autant de facteurs omiques et leurs interactions susceptibles d’influencer, comprendre, prévoir, une pathologie complexe et que les technologies numériques permettent de stocker, analyser.

LE FLÉAU DE LA TRÈS GRANDE DIMENSION

Comme en reconnaissance d’images composées de millions de pixels, le concepteur d’un système d’IA est alors confronté à un problème de très grande dimension où p le nombre de variables peut être beaucoup plus grand que la taille n de l’échantillon ; p très grand signifie plus d’informations mais aussi plus d’indéterminations pour estimer les paramètres d’un algorithme.

En effet, en très grande dimension, les individus se trouvent explosés dans un espace essentiellement vide, tous uniques, isolés et finalement tous aussi éloignés les uns des autres, mettant en défaut la stratégie d’apprentissage.

En reconnaissance d’images, des empilements de couches spécifiques (convolutionnelles) de neurones contournent le problème en exploitant les proximités géométriques des pixels. Les données omiques n’offrent pas ces capacités. Même s’il est techniquement possible de manipuler de très gros ensembles de données, le fléau de la dimension égare tout algorithme ; les GWAS (genomic wide association studies) appliquées à la prédictibilité de maladies multifactorielles sont mises en échec.

Seule une sélection drastique des variables lors de procédures indépendantes permet une réduction pertinente de la dimension. En effet, un piège consiste à présélectionner des variables (gènes, protéines…) puis entraîner un algorithme sur le même jeu de données. Ceci est la cause de résultats trop optimistes déjà dénoncés en 2002 mais toujours d’actualité.

La prévision d’une pathologie multifactorielle ou même la seule mise en évidence de combinaisons de facteurs de risques de cette pathologie n’est alors qu’un artefact non reproductible sur un autre jeu de données indépendant.

En résumé, il est nécessaire de discerner entre domaines d’opération d’un système d’IA : milieu clos (jeu, process industriel sous contrôle, véhicule en site propre) de dimension déterminée ou milieu ouvert complexe de dimension très grande ou indéterminée (comportement humain).

ESTIMATION DE PERFORMANCE ET TEST REPRÉSENTATIF

Une estimation fiable des performances d’un système d’IA est basée sur la construction rigoureuse d’un échantillon test, indépendant de celui qui a servi à l’apprentissage et représentatif du domaine d’exploitation : anticiper les différentes technologies ou modes d’acquisition, leurs usures ou dégradations…

Surfant sur la mode de l’apprentissage profond (deep learning) appliqué à la reconnaissance d’images et soumis à la pression académique de publication, beaucoup trop d’articles annoncent des résultats étonnants mais non reproductibles pour la détection de tumeurs ou celle précoce du Covid.
Avant commercialisation aux USA, la FDA contrôle la rigueur de ces tests en vue de la certification de systèmes d’IA d’aide au diagnostic. En France c’est le rôle du GMED anticipant le projet de réglementation européenne sur l’IA (AI Act).
En résumé, ouvrir l’accès à des données personnelles (e.g. Health Data Hub, DataJust) comporte un risque de confidentialité qui est atténué par une procédure d’anonymisation par floutage des données : classe d’âge, région de résidence… pour éviter une réidentification.
Ce risque est d’autant plus important en santé que des données génomiques ne sont pas anonymisables et permettent même une identification comme une empreinte génétique.En contrepartie, le bénéfice attendu (intérêt public), légitime pour un objectif prédictif de population (modèles épidémiologiques) doit être attentivement estimé pour des objectifs de prévision personnalisée.
En santé c’est le rôle en France du comité d’expertise sur l’intérêt public de l’INDS. En très grande dimension, médecine personnalisée et médecine prédictive par système d’IA ne font pas bon ménage.
Le consensus de recherches indépendantes ou la prise en compte d’autres informations sous forme de contraintes : régularité (problèmes inverses dits mal posés), réseaux de régulation biologique, permet de contrôler la dimension d’un domaine, le nombre de facteurs influents, pour garantir les performances suite à une évaluation rigoureuse et donc l’intérêt public.
Auteur : Philippe Besse Professeur émérite de Mathématiques, chercheur à l’OBVIA, INSA Toulouse
Article paru dans La Conversation, le 1er décembre 2021
Crédit photo : Pexels / Markus Spiske