La quête des données parfaites ou le Sisyphe des temps modernes

La quête des données parfaites ou le Sisyphe des temps modernes

L’avènement du big data il y a dix ans, et la démocratisation de l’intelligence artificielle qui s’impose aujourd’hui dans l’optimisation des décisions, ont plus que jamais jeté la lumière des projecteurs sur l’importance des données. Sans données, pas d’analyses, et donc pas d’aide à la décision. Pire, de mauvaises données génèreront des décisions biaisées, potentiellement catastrophiques.

Récemment, l’examens des modèles prédictifs de la pandémie de COVID ont prouvé que ces modèles étaient souvent inutiles, principalement en raison de mauvaises données, liées au manque de normalisation, à la duplication et à un étiquetage erroné. Le coût des mauvaises données est estimé à 15 millions de dollars par an et par organisation.

Cependant, le monde est de plus en plus piloté par les données. L’analyse des tendances selon le dernier BI Trend Monitor de Barc-Research montre bien l’importance des techniques liées aux données. La quantité de données générées et disponibles augmente de façon exponentielle dans tous les domaines de notre vie, les personnes et les entreprises générant continuellement des volumes de données à une vitesse, une variété et une complexité croissantes.

« Les bases de données deviennent de plus en plus complexes, avec des variations importantes dans la vitesse, le volume et la variété. »

Des fonctionnalités telles que les filtres anti-spam, les recommandations d’achat en ligne, la saisie semi-automatique pour les e-mails, la catégorisation biométrique pour le suivi du sommeil ou l’optimisation des itinéraires pour les trajets quotidiens, simples en apparence et faisant à présent partie intégrante de nos vies, demandent une masse considérable de données.

Alors qu’il est relativement simple, pour la plupart des entreprises, d’obtenir un aperçu descriptif des données disponibles, seules les entreprises capables de gérer les données de manière adéquate et de les exploiter à leurs fins ont un vrai avantage concurrentiel. Les bases de données deviennent de plus en plus complexes, avec des variations importantes dans la vitesse, le volume et la variété.

« L’importance de la qualité des données et de la gestion des données de référence est très claire : les gens ne peuvent prendre les bonnes décisions fondées sur les données que si les données qu’ils utilisent sont correctes. Sans une qualité de données suffisante, les données sont pratiquement inutiles et parfois même dangereuses. Une bonne mise en œuvre de l’IA/ML dépend de bonnes données sous-jacente », peut-on encore lire sur le site de Barc-Research.

Il s’en est suivi, en plus de l’amélioration des techniques d’analyse et de modélisation, le développement de techniques et de savoir-faire dédiées à l’acquisition et à la maintenance des données.

De plus en plus, les investisseurs et sociétés de capital-risque de premier plan financent des startups dédiées à la qualité des données, comme Databricks et Scale, qui automatisent le traitement à grande échelle des mauvaises données et intègrent des fonctionnalités de qualité de données dans leurs suites de produits.

Une base de données parfaite, le Graal ?

Si une base de données parfaite existe rarement, sinon jamais, il est essentiel d’en poursuivre l’objectif. Mais selon quels critères ?

Les données doivent d’abord répondre aux besoins spécifiques des utilisateurs. La maîtrise de la gestion des données nécessite que les organisations adoptent une approche holistique en s’adressant d’abord aux personnes, aux processus et aux technologies qui les utilisent. C’est pourquoi il est important, par exemple, d’inclure les data scientist très en amont des projets. Même si leur rôle n’intervient que plus en aval, il est déterminant que les responsables des bases de données sachent comment celles-ci seront utilisées. Cela prévient des erreurs couteuses, souvent irréparables.

L’une des conditions préalables à une qualité acceptable des données vise à déterminer la qualité des données dans le contexte des domaines spécifiques de leur utilisation. La première étape consiste à dresser un inventaire, aussi exhaustif que possible, des données existantes. L’ensemble des données peut alors être évalué sur la base de plusieurs critères :

  • Couverture (ou largeur) : les variables couvrent elles toute l’étendue possible des qualifications disponibles.
  • Profondeur : chaque variable est-elle peuplée à 100%.
  • Exactitude : les valeurs sont-elles le reflet exact de la réalité.
  • Validité : en particulier, les données sont-elles récentes.

A cela viendra s’ajouter la chasse aux doublons, aux répétitions, aux incohérences et aux données aberrantes.

Une fois atteint un niveau acceptable de qualité, il est nécessaire de se préoccuper de la maintenance des données afin de conserver, sur le long terme, ce niveau de qualité. Il est alors essentiel de créer une équipe dédiée. Il est important que les organisations définissent des responsabilités claires pour tous les acteurs impliqués dans la gestion et la maintenance des données. Les rôles doivent être définis avec précision, que ce soit le propriétaire, l’architecte ou le responsable qualité. Et ce en fonction de la nature des données : données clients, financières ou opérationnelles. Il est également souhaitable d’adopter un processus spécifique d’assurance qualité des données par l’imposition d’un cycle de qualité adéquat. Enfin, il faut conserver à l’esprit que l’infrastructure technologique se doit de soutenir les acteurs dans leurs opérations grâce à des fonctionnalités et à une architecture logicielle adaptées.

En résumé, les cinq piliers essentiels à la gestion de données de qualité sont :

  • La gestion des métadonnées : celles-ci sont essentielles pour tirer parti d’un accord inter-organisationnel et convertir les données en un actif d’entreprise. 
  • La gouvernance des données : essentielle, elle est un ensemble de processus visant à standardiser la gestion des actifs de données au sein d’une organisation.
  • Le catalogue des données : il permet aux utilisateurs de découvrir et de comprendre facilement les données existantes et disponibles. 
  • La correspondance des données : elle identifie les doublons ou les chevauchements possibles pour briser les silos de données et assurer une cohérence. 
  • L’intelligence des données : elle est la capacité à comprendre les données et à les utiliser correctement.

Crédit Image à la Une : cottonbro, pexels