Conservation des données en entreprise : Le prix à payer quand on veut tout garder

Conservation des données en entreprise : Le prix à payer quand on veut tout garder

Au printemps dernier, je participais à un panel dans le cadre d’une conférence en science des données. À la fin, une question en apparence simple à répondre a surgi de l’auditoire : « Vous avez mentionné plus tôt qu’il est important pour les organisations de faire leur stratégie de données et de se questionner quant aux données qui sont collectées et conservées. Avec les coûts de plus en plus bas des solutions Cloud de stockage, pourquoi ne pas simplement tout garder ? ». Hum… bonne question ! Et je n’aurais pas répondu la même chose il y a quelques années…

Les grandes ambitions des scientifiques de données

Alors que j’étais au début de ma carrière en science des données et que j’évoluais dans le secteur bancaire, je vivais une certaine frustration de ne pas avoir suffisamment d’historique à exploiter. Travailler avec les quelques années d’historique disponibles, c’était peu pour les grandes ambitions que j’avais! 

Exploiter les données au quotidien, ça désensibilise. C’est comme une drogue… On en veut toujours plus.

Plus pour produire une analyse plus riche, plus pour expérimenter des approches algorithmiques complexes, plus pour obtenir une meilleure performance algorithmique, plus pour… « au cas où » !

Alors oui, quand on me posait la question il y a 10 ans, je répondais de ne pas prendre de chance et de tout garder.

Dans la chaise du scientifique de données qui veut faire évoluer son organisation, c’est facile de tomber dans le piège de la gourmandise avec les données. Pourquoi évolution ne voudrait pas plutôt dire gagner en maturité avec les données qu’on a et faire plus avec moins ? Depuis que je travaille avec la PME, c’est ce qui m’obsède. Avoir un retour sur investissement le plus important possible à court terme. Car les ressources des PME sont souvent très limitées et une bonne stratégie de données prend tout son sens.

Collectez maintenant, payez plus tard

Au jour 1 de la collecte de données, le volume de données est en général bien gérable. Les données proviennent de systèmes ERP, d’un CRM, de fichiers internes. Avec la mise en place d’une base de données relationnelle et d’un bon processus de rafraîchissement de ces données, elles peuvent être valorisées et utilisées à l’interne de l’organisation pour des premiers cas d’application. Lorsque l’entreprise gagne en maturité, de nouvelles sources de données peuvent s’ajouter : données de capteurs, d’appels téléphoniques, d’images et de vidéos, de documents numérisés, provenant du web, etc. C’est là que ça se complique. Certaines données sont générées à la microseconde, certaines sont non-structurées, les jointures sont complexes même parfois impossibles, et ce n’est que le début! L’infrastructure technologique mise en place au départ ne permet plus le stockage des données qui affluent. Une solution temporaire de stockage dans le nuage est donc mise en place pour assurer la conservation de l’ensemble des données. Ouf! Il y a maintenant un bouchon dans le fond du bain. Toutefois, il y a un coût important à ne rien faire par la suite, même si la solution de stockage n’est pas onéreuse. 

« Il est donc urgent qu’une gestion responsable des données soit mise en place dans toutes les organisations génératrices de celles-ci. »

L’intangible et l’environnement

Data center, serveurs, données. Crédit photo: Pexels/Christina Morillo.

Ce qu’il y a de particulier avec les solutions dans le nuage offertes sur le marché, c’est que nous ne voyons plus l’impact que ça a. C’est de l’intangible pour presque tous les utilisateurs. Nous ne voyons pas l’espace que prennent les serveurs, la chaleur qui y est générée, l’électricité qui y afflue. Or, le coût de conserver toutes les données générées est énorme pour l’environnement. Au Québec, nous aurons la chance d’avoir des sites de serveurs plus écologiques  qui permettront la récupération d’une bonne proportion de l’énergie mobilisée. Malheureusement, ce n’est pas le cas mondialement et le coût environnemental restera élevé longtemps. Surtout que la quantité de données générées ne se stabilisera pas ou ne diminuera pas de sitôt. Il est donc urgent qu’une gestion responsable des données soit mise en place dans toutes les organisations génératrices de celles-ci. 

L’importance de mettre nos efforts aux bons endroits

La gestion des gros volumes de données, souvent non structurées et de qualité discutable, nécessite beaucoup de ressources humaines. En effet, des expertises spécialisées sont nécessaires pour l’entretien et l’évolution de l’infrastructure technologique, la gestion de la base de données, la transformation et le nettoyage des données, et bien sûr, l’exploitation de ces données. Plus les données sont complexes, variées, de niveaux d’agrégation différents et de sources multiples, plus les efforts relatifs à leur préparation et à leur manipulation devront être importants. Avec une absence de stratégie, ils pourraient prendre facilement 90% du temps des experts des données dans l’entreprise, en considérant une augmentation importante de la taille de l’équipe. 

Un autre élément à prendre en considération est le coût technologique associé à l’exploitation des données brutes. En effet, plusieurs solutions logicielles actuelles dédiées à l’exploitation des données engendrent des coûts à la requête dans la base de données. En général, plus la donnée est brute, plus les coûts seront importants à chaque requête. Sans compter que les mêmes opérations sont faites un nombre incalculable de fois sur les mêmes données, souvent par plusieurs utilisateurs. Les entreprises ont donc tout à gagner à mettre en place des solutions d’exploitation des données pérennes et efficaces pour les utilisateurs.

La sécurité et la gouvernance

La conservation d’une grande variété de données et de volumes importants implique également des impacts plus grands lors d’une brèche de sécurité technologique. Il s’agit d’un élément important à prendre en considération, surtout dans le contexte actuel d’augmentation des tentatives d’intrusions dans les environnements technologiques des entreprises. En effet, plus de détails sur les opérations, les finances, les clients et les employés dans les bases de données impliquent plus de conséquences négatives dans le cas d’une brèche. Ça peut causer énormément de dommages. Il faut donc consacrer des ressources de plus en plus importantes pour la gestion de la sécurité, la gouvernance des données, la mise en place de procédures, etc. Ces ressources augmenteront de façon significative avec les volumes et la variété des données conservées. À cet égard, c’est d’autant plus pertinent dans le contexte de la nouvelle loi sur la protection des renseignements personnels! 

Le retour sur investissement

Une bonne stratégie de données pour une entreprise doit prendre en considération plusieurs éléments, dont le coût de conservation des données. Dans toutes les organisations, il importe de se questionner sur le retour sur investissement de mettre en place de nouvelles capacités d’exploitation et de valorisation des données. Collecter des données, c’est motivant! Ça constituera un des actifs futurs de l’entreprise. Il importe donc de le faire en toute connaissance des impacts que ça aura dans l’organisation mais également à l’externe, afin que ça demeure un projet globalement positif! 

Crédit Image à la Une : Mikhail Nilov, Pexels