Prendre soin de ses données grâce aux principes FAIR

Prendre soin de ses données grâce aux principes FAIR

La révolution de l’intelligence artificielle (IA) est impossible sans l’apport des données. Jusqu’à présent, beaucoup d’efforts et d’argent ont été versés dans les centres de recherche pour aider au développement des technologies de l’IA, mais trop peu d’attention a été portée aux données, et il est temps que cela change selon les experts.

Philippe Després se décrit comme un « évangéliste » des principes FAIR au Québec.

Cet acronyme qui signifie Facile à trouver, Accessible, Interopérable et Réutilisable (de l’anglais : Findable, Accessible, Interoperable, Reusable) est une sorte de guide pour rendre les données plus aisées à utiliser.

Le professeur titulaire au Département de physique, de génie physique et d’optique de l’Université Laval s’intéresse à la valorisation des données dans le milieu de la santé. Selon ce dernier, il est temps de « redonner de l’amour à nos données » en adoptant les normes décrites par les principes FAIR.

ESSENTIEL À L’IA

Pour comprendre l’importance du concept FAIR, il faut tout d’abord réviser le fonctionnement de l’IA.

Lorsqu’on parle d’apprentissage automatique par exemple, on entend par ce terme l’entraînement d’un algorithme à l’accomplissement d’une tâche grâce à l’utilisation de modèles mathématiques ou statistiques.

Contrairement à un programme informatique « traditionnel », l’ordinateur n’est pas programmé directement par des humain pour accomplir cette tâche. Il doit donc utiliser un ensemble de données pour apprendre à compléter son objectif.

Cette dernière partie est cruciale pour comprendre l’importance de « l’hygiène » des données que M. Després aimerait voir adoptée par ses collègues.

« L’IA se nourrit en continu de « data ». Un modèle développé avec certaines données va peut-être bien fonctionner, mais une fois qu’on arrive dans le monde réel et que la machine doit gérer de nouvelles informations, ça se corse. C’est pour cela qu’il est important d’ajouter une sémantique aux données », souligne le professeur.

Les principes FAIR ne concernent donc pas vraiment la qualité des données en tant que telle, mais celle des métadonnées.

« Il faut que l’on parle la même langue, la même terminologie, pour que la machine puisse l’interpréter » -Philippe Després, professeur titulaire au Département de physique, de génie physique et d’optique de l’Université Laval

Ainsi, les données doivent être faciles à trouver (repérables, découvrables), grâce à une indexation dans des moteurs de recherche.

Elles nécessitent aussi une certaine forme d’accessibilité : on ne parle pas nécessairement ici de données ouvertes (c’est-à-dire gratuites à tous les utilisateurs), mais plutôt d’un protocole standard de communication, avec des licences d’utilisation claires. « On peut avoir des données FAIR, mais aussi bien protégées », souligne M. Després.

L’interopérabilité signifie l’utilisation de normes quant au format des données et des métadonnées, ce qui permettrait par exemple à deux ordinateurs d’échanger facilement des données.

Enfin, l’aspect réutilisable est lui aussi rendu possible grâce à l’apport de métadonnées, qui font en sorte qu’un utilisateur futur – humain ou machine – saura précisément ce à quoi réfère les données (comment elles ont été générées, par qui, quand, etc.).

L’EXEMPLE DE LA TOAST

Pour simplifier le concept, M. Després fait appel à l’exemple de la « toast ».

« Disons que dans le cadre d’une recherche sur la nutrition, vous collectez des données sur l’alimentation d’individus. Ils vous disent qu’ils ont mangé des toasts au déjeuner. Si vous voulez qu’éventuellement une machine puisse rependre certaines des données créées dans cette recherche pour d’autres travaux, il faut que votre machine puisse comprendre c’est quoi des toasts. Vous devez créer une « ontologie alimentaire », souligne le professeur.

Ainsi, pour que d’autres chercheurs puissent intégrer des informations sur les toasts à leurs études, ou afin que ces données soient réutilisées par un algorithme d’IA, vous devrez rattacher toutes les caractéristiques pertinentes au terme « toast ». La valeur nutritionnelle, la composition, la taille moyenne, la « généalogie » (famille du pain blanc), le fait qu’elles soient grillées.

En soi, il faut décrire tout ce qui fait que cet aliment est une « toast » pour que le concept soit rendu « digeste pour la machine ».

DE PLUS EN PLUS ADOPTÉ

Ces nouvelles normes sont en voie de conquérir les États et organismes scientifiques.

Le Gouvernement du Canada, qui est à la révision de sa Politique sur la gestion des données de recherche, voit d’un bon œil l’adoption des principes FAIR par les chercheurs.

« La pandémie actuelle illustre le rôle crucial que joue la gestion des données de recherche dans l’établissement d’un système de recherche fondé sur les principes FAIR (…) Bon nombre de chercheurs, d’établissements de recherche, d’organismes de parties prenantes et d’autres groupes ont fait preuve de diligence pendant la pandémie en ce qui concerne la gestion des données de recherche », peut-on lire sur le site gouvernemental Science.gc.ca.

« Les Instituts de recherche en santé du Canada, le Conseil de recherches en sciences naturelles et en génie du Canada, et le Conseil de recherches en sciences humaines subventionnaires encouragent le milieu de la recherche à poursuivre les efforts amorcés à l’appui de la gestion des données de recherche au Canada et ailleurs », poursuit le texte.

Revenant sur les effets de la crise sanitaire dans les milieux de la recherche et de la santé, M. Després rappelle que les centres hospitaliers du Québec n’ont pas utilisé de standard pour classifier les tests de dépistage de COVID.

« Ça se retrouve dans des milliers de feuilles Excel avec un code différent inventé par chaque hôpital. Ça aurait été pratique d’adopter un modèle standardisé, comme le LOINC (Logical Observation Identifiers Names & Codes), une terminologie de référence internationale pour les résultats de laboratoire. Ceci aurait peut-être contribué à rendre les résultats accessibles plus rapidement sur le portail de Carnet Santé Québec. »

D’ailleurs, le ministère de la Santé et des Services sociaux (MSSS) est lui aussi en voie de normaliser ses jeux de données.

« Le programme Dossier santé numérique évolue en concordance avec les travaux en innovation dans le secteur de la santé, notamment pour ce qui touche la mise en place d’un ou d’un réseau de « Lacs de données ». À cet égard, il est d’ores et déjà convenu que les principes FAIR seront adoptés », indique par courriel Robert Maranda, responsable des relations avec les médias au MSSS.

Crédit photo: Pexels/Christina Morillo