[ANALYSE] Suffira-t-il de rendre nos données ANONYMES pour les protéger?

Le jeu du chat et de la souris entre l’individu et sa propre trace numérique est multiple. L’un se cache sous différents profils, l’autre sous plusieurs écritures. D’un côté, il y a changement d’apparence, de l’autre, des formules de plus en plus obscures. Mais ce jeu persiste, car les tactiques d’esquives sont toujours découvertes. Ainsi, alors que nous frayons notre narration sous plusieurs types d’identités, nos traces elles-mêmes mutent.

I. ANONYMISATION ET PSEUDONYMISATION

Nous croyons nous faufiler habilement et discrètement entre les algorithmes à l’aide d’avatars et/ou de pseudos, mais pouvons-nous imaginer que nos propres traces numériques possèdent, elles-mêmes, des pseudonymes?

a) Le modèle de pseudonymisation du RGPD

Le Règlement Général sur la Protection des Données émis par l’Union européenne préconise la pseudonymisation des données. Le RGPD, ou encore GDPR (General Data Protection Regulation), la définit comme étant un procédé permettant de rompre l’attribution directe de nos données personnelles à nous-mêmes. En d’autres termes, les données relatives à une personne physique, après traitements, ne permettent plus l’identification d’un individu, sans le recours à d’autres informations.

Ce procédé qui relève, toujours selon le RGPD, de mesures techniques et organisationnelles est celui de la pseudonymisation. D’un point de vue technique, il consiste à cacher chacune de nos données personnelles sous un pseudonyme. Notre numéro de téléphone aura une autre valeur numérique et ainsi de suite.

Bien que les recommandations soient régulièrement ajournées, ce procédé marque des faiblesses notoires. La confidentialité des données n’est pas forcément maintenue par les tierces parties aux différentes étapes du traitement des données. Le moment de la transmission des données, par exemple, constitue une étape cruciale.

« Le procédé de pseudonymisation n’est pas irréversible. »

Les données courent le risque d’être réidentifiées et de permettre à nouveau l’attribution à un individu.

b) Les définitions actuelles de l’anonymisation

Pour pallier les risques de la pseudonymisation, l’anonymisation est un procédé plus robuste qui vise à éviter tout type de réidentification. Voyons les définitions actuelles proposées par la CNIL (Commission Nationale de l’Informatique et des Libertés) en comparaison avec la pseudonymisation.

« L’anonymisation est un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, en pratique, toute identification de la personne par quelque moyen que ce soit et de manière irréversible. »

« La pseudonymisation est un traitement de données personnelles réalisé de manière à ce qu’on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire. »

On voit que ce qui différencie les deux procédés est essentiellement leur réversibilité. Autrement dit, le traitement qui consiste à rendre ANONYMES nos données personnelles a ceci de particulier qu’il ne permet pas de réidentification.

Examinons, en pratique, comment ce procédé est rendu possible.

II. LES CARACTÉRISTIQUES DE L’ANONYMISATION

a) Mélange aléatoire des données (Randomization)

Comme nous utilisons la fonction shuffle pour remédier à la monotonie qu’engendre une liste musicale, cette technique consiste à mélanger de manière aléatoire les valeurs de nos données afin de brouiller leur logique identitaire.

« Les liens ou les connexions entre les données sont déplacés afin de rendre impossible le retour au lien source. »

Mais, alors que la donnée perd ainsi sa signification première, elle reste toutefois la même et n’a pas de pseudo. Le numéro de téléphone reste inchangé, or, plus rien ne nous permet de dire qu’il est rattaché à un individu. La donnée conserve ainsi, son intégrité.

b) Abstraction par généralisation (Generalization)

Pour un ensemble de données devant conserver sa signification des éléments qui le composent sont alors hachurés ou brouillés. Ce traitement vise à rendre l’ensemble de données non recevable pour d’autres systèmes. Il ne sera pas reconnu ou accepté par une tierce partie puisqu’il sera illisible, en quelque sorte.

b) Rendre la rétro-ingénierie impossible (No Reverse Engineering)

Le procédé d’anonymisation fait en sorte que la valeur d’origine d’une donnée n’est plus récupérable par rétro-ingénierie (reverse engineering). À l’intérieur d’un système, les données ne correspondent plus à une sortie, mais deviennent de nouvelles données entrantes accessibles.

Les données ont été modifiées, non pas au moyen d’un cryptage, mais par une forme de masquage. La menace du cryptage est qu’il peut toujours d’être décrypté par un programmeur. C’est pourquoi l’anonymisation est considéré comme étant plus robuste.

c) Virtualisation des données (Data Virtualization)

Lorsque vient le temps de déterminer un trajet routier, plusieurs lectures sont possibles. Il y a la lecture analytique qui consiste à suivre le tracé d’une carte et d’en mémoriser les détails. Mais, il y a aussi la lecture à vol d’oiseau du chemin à parcourir. Celle-ci est une lecture synthétique qui embrasse la vue d’ensemble pour en créer une visualisation abstraite.

On peut voir ces deux types de lecture, comme deux procédés de transmission de données. Par la virtualisation des données, on entend la synthétisation d’un ensemble de données pour en extraire une signification. Pour reprendre l’exemple du trajet routier, cette virtualisation est notre tableau de bord.

Ce traitement utilise des métadonnées et permet aux données d’origine de rester intouchées et au même endroit.

« Le seul transfert nécessaire est celui du portrait général de l’ensemble. »

On protège alors la donnée d’origine, dans la mesure où son transfert n’est pas nécessaire.

III. LIMITES ET BONNES PRATIQUES DE L’ANONYMISATION

a) Anonymat en doute

Les chercheurs, Luc Rocher, Julien M. Hendrickx & Yves-Alexandre de Montjoye, remettent en cause la technique d’anonymisation, dans l’article Estimation du succès des réidentifications dans des ensembles de données incomplets à l’aide de modèles génératifs. Les résultats de leur étude suggèrent que même les ensembles de données anonymisées fortement échantillonnés ne satisferont probablement pas aux normes actuelles d’anonymisation énoncées par le RGPD.

La firme BCF Avocats d’affaires, avec d’autres réserves, suggèrent de mettre en place une gouvernance de l’anonymisation.

b) Les recommandations

Afin d’être le plus robuste possible, l’anonymisation doit satisfaire trois critères fondamentaux, selon le Comité Européen de la Protection des Données. Après le traitement d’anonymisation, il faut se demander:

Est-il encore possible de distinguer une personne?
Est-il encore possible de lier des enregistrements relatifs à une personne?
Peut-on déduire des informations concernant un individu?

Une autre recommandation porte sur la gestion des données et la minimisation des données (Data Minimization). Cette approche consiste à réduire au minimum requis la cueillette des données et d’en limiter au minimum l’utilisation et la durée d’entreposage. C’est un processus de nettoyage qui permet de limiter la quantité de données extraites.

Ce processus permet d’améliorer la protection des données en minimisant la surveillance, l’identification, l’utilisation secondaire et la divulgation de nos données personnelles.

CONCLUSION

Ainsi, d’un côté comme l’autre, il semble y avoir une métamorphose. D’une part, nous changeons d’aspect pour conserver un certain type d’anonymat. D’autre part, nos traces numériques, elles-mêmes, se détachent de nous, pour oublier leur origine.

Si une telle pression s’exerce sur la nécessité de changer de forme, c’est parce qu’aujourd’hui tout s’écrit de manière indélébile, ou presque.