La confidentialité à l’ère de l’intelligence artificielle, est-ce possible?

Dans cette chronique, je tenterai de vulgariser les mécanismes mis en place pour assurer la protection des données privées (et propriétaires) dans les nouveaux paradigmes d’intelligence artificielle.

Depuis les derniers 6 mois, je me suis intéressé au nouveau phénomène OpenAI. J’ai reconnu le potentiel dérangeant (perturbateur) des nouveaux modèles et je n’ai pu m’empêcher de creuser le sujet.

Je me concentrerai, bien sûr, du côté Microsoft du spectre technologique, car si jamais je m’aventure du côté des compétiteurs, je parlerais à travers mon chapeau.

Protéger la vie privée et la confidentialité des données des PME, pourquoi est-ce essentiel?

Les données de vie privée et confidentielles d’un individu sont la base de la relation de confiance entre un citoyen et son gouvernement, entre une personne et une banque et, surtout, c’est la colle derrière chaque transaction.

« Comment acheter une voiture, une auto, ou faire toute autre transaction, si nous ne pouvons garantir que vous êtes vraiment qui vous prétendez être? »

Je vous invite à imaginer la difficulté que vous auriez à obtenir un prêt hypothécaire si l’institution financière n’était pas en mesure de vous identifier; si vous n’étiez pas en mesure de fournir des pièces justificatives officielles prouvant que vous êtes qui vous êtes; que vous travailliez vraiment à ce salaire. Comment acheter une voiture, une auto, ou faire toute autre transaction, si nous ne pouvons garantir que vous êtes vraiment qui vous prétendez être?

Ceci donne une idée du chaos que cela représenterait du point de vue personnel, mais du côté des affaires, que ce passe-t-il si votre procédé unique, votre propriété intellectuelle, se retrouve à vendre sur la place publique et est achetée par votre compétiteur, qui se retrouve avec la recette qui a fait votre succès? Vous fermez les portes, tout simplement.

Donc, comme dans chaque vague transformative, il y a un risque. Dans le cas présent, comment est-ce que vous pouvez vous assurer de profiter de ces superbes opportunités, sans ouvrir des portes, qui, du point de vue de la cybersécurité, pourraient conduire à votre perte ?

Une compréhension des éléments de base

Dans un premier temps, nous devrons mettre à jour le lexique des concepts afin de nous assurer d’être sur la même longueur d’onde.

OpenAI

Selon vous, est-ce qu’OpenAI est une société à but non lucratif? En fait, la bonne réponse est : en partie. Il s’agit d’un OBNL qui a comme objectif d’atteindre l’intelligence artificielle générale pour améliorer l’humanité.

Open AI détient également une branche lucrative, mais qui a instauré un plafond à sa profitabilité, dans le but de maximiser l’impact social de ses recherches.

Microsoft détient 49% de la branche lucrative, avec un investissement, dans le temps, de plus de 13 milliards de dollars US, transportant la valorisation de l’entreprise à 29 milliards USD.

Le président de Microsoft, Satya Nadella, qui a reconnu la puissance du modèle derrière Chat GPT dans ses premières démonstrations, a choisi d’investir massivement, même s’il s’agissait d’une compagnie contrôlée par un organisme à but non lucratif.

LLM (Large Language Models) ou Modèle de Language à Grande Échelle

Un Large Language Model (LLM) est une forme d’intelligence artificielle qui a été entrainée sur une grande quantité de données textuelles.

Ses modèles, comme GPT-3 et GPT-4 (Generative Pretrained Transformer), peuvent générer du texte qui ressemble à du texte humain. Ils sont capables de comprendre et de générer des réponses basées sur le contexte de l’information qui leur est donnée.

Imaginez que vous ayez une conversation avec une personne, mais que cette personne soit en fait une machine qui comprend le sens général de vos mots et peut répondre de manière cohérente. C’est, en substance, ce que fait un LLM.

C’est une technologie qui continue d’évoluer et de jouer un rôle de plus en plus important dans divers domaines, allant de la rédaction automatique de textes à la gestion des interactions clients.

Il est important de noter que les LLM ne sont pas parfaits, mais que leur modèle évolutif permet de se corriger au fil du temps. Donc, si vous voyez une erreur lors d’une génération de texte, vous pouvez la pointer, et lui demander de se souvenir du fait que la réponse est mauvaise, voire même lui indiquer ce qui devrait être la bonne réponse.

Chat GPT

ChatGPT est une interface conversationnelle qui est assise sur le modèle (GPT-3 pour le grand public, GPT-4 pour les utilisateurs payeurs). Ainsi, vous pouvez valider vos interactions avec le modèle GPT (également nommé Prompt), qui a ses propres structure et modèle d’activation.

Le modèle Chat GPT est un modèle grand public. Vous ne pouvez donc pas prendre pour acquis que vos données sont en sécurité. Évitez de lui communiquer des informations sensibles ou personnelles.

Microsoft Bing

Le 7 février 2023, Microsoft annonçait que sa plateforme de recherche BING était désormais équipée d’une interface en langage naturel propulsé par GPT 4.

Tout d’un coup, BING s’est transformé en assistant pour le Web. Certaines éminences grises en lien avec Microsoft ont également déclaré que grâce à ce modèle, les moteurs de recherche à la Google disparaitraient pour longtemps.

Ce ne fut pas sans accident de parcours. Certains journalistes ayant grillé le modèle au point de faire apparaitre différents traits de personnalités qui étaient pour le moins particuliers.

Microsoft a répondu de façon très réactive en venant mettre en place des garde-fous, pour éviter ce genre de débordement.

Microsoft CoPilot

Depuis février dernier, les annonces ne cessent de pleuvoir. Microsoft annonce un ajout à toute la gamme de produits sous forme de co-pilotes. Ces derniers sont prévus pour venir infuser de l’intelligence artificielle génératrice à tous les niveaux de l’entreprise.

La vidéo originale de Microsoft sur l’avènement de Copilot pour 365 nous présentait une version idyllique du futur. Vous la trouverez ici : Introducing Microsoft 365 Copilot | Your Copilot for Work – YouTube

Dans l’une de mes dernières chroniques, je mentionnais Copilot for Security, et la façon dont cette nouvelle fonctionnalité allait soutenir les cyber-défenseurs dans la chasse aux cybercriminels.

Maintenant, imaginez le même genre d’assistant virtuel vous aidant avec tous les produits et plateformes Microsoft sollicités au cours de votre vie professionnelle. Voici quelques exemples :

Copilot for Windows
Copilot for Microsoft 365, avec une intégration dans Outlook, PowerPoint, Loop, Excel et Word
Copilot for PowerApps, offrant un support à tous les développeurs citoyens
- Incluant un module pour PowerPages, PowerAutomate et PowerBI
Copilot for Dynamics 365
Copilot for Microsoft Viva
Et bien sûr : Copilot for Security

Un exemple de co-pilote déjà en fonction depuis près d’un an est GitHub Copilot, l’assistant aux développeurs. Nous avons d’ailleurs lu que certaines autorités en développement, dont entre autres des leaders au sein de Tesla, l’utilisent pour générer près de 80% de leur code. Elles l’utilisent donc pour être plus productives, en éliminant la portion répétitive et mondaine de la création logicielle.

Microsoft Graph

Depuis 2015, Microsoft bâtit un édifice connu sous le nom de Microsoft Graph au sein de sa famille infonuagique. Il s’agit d’une interface de programmation qui permet d’accéder et d’interagir et voire même de configurer les différentes données et services.

Cette interface (API) est déjà intégrée profondément à toutes nos données et nos identités Microsoft 365. La meilleure des nouvellesà propos de cette API est qu’elle est déjà régie par les règles de sécurité et d’accès à nos données. Ainsi, personne dans l’entreprise ne peut demander d’accéder aux courriels du président.

Les défis posés par l’Intelligence Artificielle, la confidentialité et la vie privée

Comme le modèle d’IA proposé par les LLM de ce monde se fonde sur une tonne de données, ne serait-il pas naturel de le faire apprendre de façon géométrique, en incluant toutes les données de tous ces futurs clients? Deux mots me viennent en tête : Poursuite et Éthique.

En effet, cela serait illégal et immoral.

Mais donc, quel genre de protection peut être implanté, pour éviter ce risque de dérapage qui peut être des plus tentants, surtout dans le modèle capitaliste?

Microsoft amène des pistes et des solutions intéressantes, mais je souhaite prendre une seconde pour explorer le modèle existant public, soit Chat GPT.

Quand l’on demande à GPT4 de nous indiquer comment les données sensibles sont prises en charge par OpenAI, voici ce qu’il nous répond :

« Selon mes dernières données d’apprentissage en septembre 2021, OpenAI n’utilise pas les données personnelles envoyées via ChatGPT pour améliorer ses modèles. Bien que l’IA traite vos entrées pour générer des réponses, elle ne stocke pas ces informations ni ne les utilise pour une future formation. Cependant, évitez toujours de partager des informations personnelles sensibles lorsque vous interagissez avec l’IA, y compris ChatGPT. Pour des informations mises à jour, veuillez consulter la politique de confidentialité d’OpenAI. »

Microsoft et ses efforts de démocratisation

Microsoft a pris de front cette nouvelle révolution. L’entreprise n’allait pas reproduire l’erreur du cloud, qui l’a placée en deuxième position et lui a valu de faire du rattrapage. Cette fois, elle part première.

La grande force de Microsoft, outre ses énormes ressources tant financières qu’humaines, est cette nouvelle culture de dépassement qui découle de la nomination de Satya Nadella. Ainsi, la compagnie a été en mesure de se transformer, rapidement, pour accueillir ce que l’on appelle « l’Âge de l’IA ».

Donc, dès février, Microsoft a commencé le processus d’essais en entreprise (phase Beta), en clientèle uniquement, pour cette nouvelle vision qui inclut désormais l’infusion de modèle GPT4 à travers toute sa gamme de produits.

Comment ça marche?

Selon ma compréhension, Microsoft a créé des modèles entrainés spécifiquement pour chaque gamme de produits. Donc, par exemple, un modèle GPT4 spécialisé pour Microsoft 365, un autre pour Dynamics, etc. Ces modèles sont globaux et, surtout, en mode lecture seulement (read-only). Ceci est une barrière de sécurité importante, qui répond immédiatement à la question inhérente, « est-ce que vous entrainez votre modèle avec mes données ? ».

En contrepartie, CoPilot doit obtenir de l’intelligence spécifique à votre entreprise. Alors, CoPilot génère un sous-modèle, résidant dans votre environnement, qui s’entraîne directement à partir de vos données.

Ce sous-modèle prend la forme d’un index sémantique. Ainsi, cette instance, dont vous êtes propriétaire, contient l’intelligence spécifique à votre entreprise. CoPilot peut par conséquent apprendre la spécificité de votre entreprise.

Et la sécurité de mes données?

L’accès à ce modèle est géré par le Graph de Microsoft. Ainsi, les accès de vos données sont respectés. Par exemple, pour qu’un nouveau membre du groupe définissant votre nouveau produit phare ait accès aux détails du produit, il devra avoir les mêmes accès dont il aurait besoin pour accéder aux documents. La distinction est que dès que les accès sont donnés, il y a également accès via CoPilot, et non pas seulement au fichier traditionnel.

Graphique expliquant les interactions extrait du vidéo de Microsoft : Semantic Index for Copilot: Explained by Microsoft – YouTube

L’engagement de Microsoft pour la protection de la vie privée

On constate ainsi que Microsoft fait un effort pour perpétrer le modèle de sécurité de l’information, et ajoute la capacité de l’intelligence artificielle comme une couche d’accessibilité supplémentaire.

La machine de communication de Microsoft avait déjà fait ses devoirs lorsque les responsables de sécurité ont commencé à se questionner sur les possibilités de fuite de données via ChatGPT.

leurs craintes étaient fondées, et ils ont rapidement mis en place des politiques internes pour limiter l’utilisation de la version publique pour les besoins d’affaires.

Le fait que Microsoft apporte ces mêmes outils au sein de la gamme Microsoft 365 avait le potentiel de causer certains inconforts.

En s’engageant de façon claire avec sa campagne « Vos données sont à vous », Microsoft démontre avoir architecturé le produit pour s’assurer de faire en sorte que vos données ne quittent pas le périmètre de votre locataire MS 365.

Trucs et responsabilités pour PME

Comme Microsoft ne peut se rendre responsable si votre mot de passe est « MotdePasse », le risque de fuite demeure. Si l’un de vos appareils ou comptes utilisateur est compromis, les malfaiteurs auront accès à tout ce à quoi ce compte a accès.

Le meilleur truc que je puisse donner aux propriétaires de PME est de connaitre leur topographie de données. C’est-à-dire, quels sont les données et services qui sont cruciaux pour votre entreprise? Qu’est-ce qui peut créer un événement d’extinction si ces données deviennent publiques ou si tel ou tel service devient indisponible pour 1 mois?

Une fois que ces services sont identifiés, rendez leur accès plus complexe, ajoutez des couches de sécurité. Il est mieux de restreindre l’accès à quelques personnes et d’offrir des accès privilégiés à la demande, pour un temps limité, que d’ouvrir le tout à tous.

En revanche, rien ne sert de protéger des informations qui sont déjà publiques, ou de nature anodine, telle qu’une liste d’écoute de musique ou le calendrier scolaire des enfants, par exemple. Il faut faire preuve de discernement. Tout protéger comme si vous étiez à la NASA peut également vous être néfaste, en impactant négativement votre productivité.

Je suis également un très grand partisan de la prévention, surtout en cybersécurité. Le point d’accès le plus simple pour accéder et extraire vos données demeurent les appareils qui accèdent à ces dernières. Ne prenez donc pas de risque. Sécurisez-les et assurez-vous de la surveillance de ces senseurs. La même logique s’applique pour le détecteur de fumée de votre résidence; s’il n’est pas branché à une centrale de surveillance, personne ne peut prendre action.

Conclusion

Dans l’éventualité où vous avez la chance d’avoir une équipe de cyber-défenseurs, prenez le temps de réviser avec eux votre écosystème, afin de savoir quels sont les divers niveaux de criticité de vos données et de vos services.

Dans le cas contraire, je vous invite à prendre contact avec moi, à https://bit.ly/in-30minutes, et en 30 minutes, nous ferons le tour de votre situation. Je vous remettrai un rapport de l’état de votre situation. Après tout, notre vision est que d’ici dix ans, la cybercriminalité ne soit qu’un souvenir…

Faisons-donc le possible pour que cette vision se concrétise !

La confidentialité à l’ère de l’intelligence artificielle, est-ce possible?

René-Sylvain Bédard

Protéger la vie privée et la confidentialité des données des PME, pourquoi est-ce essentiel?