Articles

Le CCPA s’applique-t-il à votre entreprise ?

« Le California Consumer Privacy Act (CCPA) est un projet de loi qui renforce la garantie du droit au respect de la vie privée et la protection des consommateurs pour les résidents de la Californie aux États-Unis. Le projet de loi a été adopté par la législature de l’État de Californie et promulgué par Jerry Brown, gouverneur de Californie, le 28 juin 2018, en tant qu’amendement à la Partie 4 de la Division 3 du Code civil de Californie… Les amendements au CCPA, sous la forme du projet de loi 1121 du Sénat, ont été adoptés le 23 septembre 2018. Le CCPA entrera en vigueur le 1er janvier 2020. » (source)

Le CCPA s’applique à votre entreprise s’il s’agit d’une société à but lucratif qui traite les données personnelles de résidents de la Californie et remplit l’un des critères suivants :

●       Afficher un chiffre d’affaires annuel supérieur à 24 millions de dollars ;

●       Détenir les données personnelles de plus de 50 000 personnes, foyers ou appareils ;

●       Réaliser au moins la moitié du chiffre d’affaires en commercialisant des données personnelles.

Les droits accordés aux consommateurs par le CCPA sont similaires mais non identiques à ceux du RGPD. Ainsi, même si vous êtes en conformité avec le RGPD, vous ne l’êtes pas automatiquement avec le CCPA. Il est essentiel de comprendre les différences entre les deux et en quoi cela affecte votre activité.

L’un des principaux droits des consommateurs prévus par la loi de protection des données CCPA est le droit de connaître les informations dont vous disposez, leurs sources et la finalité pour laquelle elles sont utilisées. C’est sur ce sujet que Ken Lownie, vice-président Amérique du Nord, a mis l’accent dans ce webinaire.

La voie de la conformité

Le premier point que Ken a soulevé est qu’il ne s’agit pas de se concentrer uniquement sur le CCPA. Le CCPA et le RGPD ne sont que le début d’une longue série de réglementations de protection des données. Il est important de ne pas s’intéresser exclusivement au CCPA, mais à la protection de la vie privée en général. En intégrant la mise en conformité de la protection des données à votre stratégie globale, vous n’aurez aucun mal à respecter toutes les futures lois en la matière.

Mais comment intégrer la conformité à votre stratégie globale ? Vous devez mettre en place les capacités fondamentales nécessaires pour assurer votre conformité. Vous serez ainsi prêt à 90 % pour toutes les réglementations de protection des données à venir. De quelles capacités s’agit-il ?

●       Localiser les informations personnelles dans votre entreprise ;

●       Savoir à qui ces informations appartiennent ;

●       Identifier et supprimer ces informations.

Jeter les bases de la protection de la vie privée

La protection de la vie privée repose sur l’identification et le suivi des informations en votre possession. Un suivi régulier des nouvelles informations vous offre une visibilité complète sur les données que vous collectez et leurs sources.

Building Foundation for CCPA Compliance
Jeter les bases de la protection de la vie privée

Ken a présenté une approche technologique en deux étapes qui peut vous aider à jeter ces bases.

Identifier les informations personnelles

Selon Bernard Marr, contributeur de Forbes, 90 % des données du monde ont été créées au cours des deux dernières années.

La gestion traditionnelle des données suit la même approche que la gestion des documents papier : tout collecter. Mais il n’est plus possible de procéder ainsi. Les informations à organiser et à gérer sont trop nombreuses et éparpillées dans les différents référentiels de l’entreprise, tels que SharePoint, DropBox, Google Drive, OneDrive, les dossiers partagés, etc.

La bonne nouvelle est que les technologies comme l’apprentissage automatique, le traitement du langage naturel et l’intelligence artificielle peuvent être d’une grande aide. Les solutions d’analyse de fichiers utilisent ces technologies et d’autres encore pour se connecter à vos systèmes sources et créer un index (un catalogue) de toutes les informations. Cet index contient non seulement les propriétés et les métadonnées des fichiers, mais aussi le texte intégral de chaque document. Grâce à une fonctionnalité de recherche, vous pouvez parcourir les référentiels pour mieux connaître les données dont vous disposez ou trouver les informations dont vous avez besoin.

Gérer les politiques d’information

Une fois ce catalogue créé, vous pouvez gérer vos données à l’aide de politiques d’information. Parmi ces dernières figurent notamment les règles de conservation, d’élimination et de sécurité. Selon un sondage réalisé durant le webinaire, 33 % des participants ne gèrent pas de règles de conservation ni de politiques d’information, 33 % utilisent une feuille de calcul et 33 % possèdent un outil dédié.

Les feuilles de calcul peuvent être utiles pour commencer, mais ne constituent pas la meilleure stratégie à long terme. En effet, elles ne permettent pas de garantir une version unique de la situation (car il existe souvent plusieurs versions de la même feuille de calcul), ni de conserver les modifications précédemment apportées aux politiques. Les feuilles de calcul ne favorisent pas non plus la collaboration, alors que la plupart des tâches en matière de gestion des politiques sont réalisées par un groupe de personnes et non par un seul individu.

Vous avez besoin d’un outil spécifique pour vous aider à gérer non seulement des règles de conservation, mais aussi des cycles de vie de données, des références juridiques, des règles de sécurité, le service et la personne responsables, l’emplacement des informations, etc.

Building data catalog
Un catalogue de données pour la gestion des politiques d’information.

Pour montrer le fonctionnement de l’analyse de fichiers et des catalogues de données, Ken Crum, architecte de solutions chez Everteam, a réalisé une démonstration de deux produits d’Everteam : everteam.discover pour l’analyse de fichiers et de contenu, et everteam.policy pour la gestion des politiques d’information et de conservation des données. Vous pouvez visionner le webinaire dans son intégralité ci-dessous, ou demander une démonstration personnalisée de nos produits pour découvrir s’ils peuvent vous aider à répondre à vos exigences de conformité.

Les innovations de 2019 en matière de gouvernance de l’information

Si nous avons appris quelque chose en 2018, c’est bien que la gouvernance de l’information a retenu l’attention d’entreprises de toutes tailles. Si les organisations ne mentionnent pas toutes un travail en cours visant à mieux gouverner leurs informations, elles réfléchissent au moins à ce qu’il faut entreprendre pour y parvenir et se sont attelées à la tâche.

Tandis qu’elles développent des stratégies et conçoivent des projets, la technologie évolue pour les aider à prendre le contrôle de leurs informations. Quelque chose nous dit que 2019 promet de passionnantes innovations, notamment dans notre propre laboratoire d’innovation. Qu’elles voient le jour cette année ou les suivantes, en voici quelques-unes qui pourraient aider les entreprises à mieux gouverner leurs informations.

À la croisée des données structurées et des données non structurées

Aujourd’hui, il existe une nette distinction entre la manière de gérer des données structurées (bases de données, données de transaction) et des données non structurées (documents, textes, vidéos, images, e-mails, médias sociaux, etc.). En matière de gouvernance, la plupart des entreprises disposent d’équipes et de solutions différentes pour gérer chaque type de données, mais cela n’est pas nécessaire.

La frontière entre les données structurées et les données non structurées s’efface peu à peu, si bien que la gouvernance des données et la gouvernance de l’information ne peuvent plus faire l’objet de stratégies distinctes. Des solutions hybrides pour gérer les deux types de données font leur apparition. Pourquoi est-ce important ? Pour être compétitif dans le monde numérique d’aujourd’hui, vous devez analyser toutes les informations de votre entreprise afin d’avoir une excellente compréhension des activités de votre entreprise. Deux points essentiels :

  • Un moteur d’analyse reliant toutes vos données vous permet de mieux comprendre ce qu’il se passe et de prendre de meilleures décisions. Sans ce moteur, vous êtes contraint d’analyser les deux types d’informations séparément puis de les relier manuellement, ce qui peut entraîner des erreurs et des analyses erronées.
  • Toutes les informations, quel que soit leur type, demandent une gouvernance. Les exigences de conformité et autres règles auxquelles sont soumises les entreprises (conservation des documents, etc.) ne s’appliquent pas nécessairement en fonction de la structure des informations, alors pourquoi gérer vos politiques par type d’informations ?

Nous pensons qu’en 2019, les entreprises délaisseront cette approche et tenteront de combiner les deux types de données pour améliorer la manière dont elles mènent leurs activités. Et que la technologie qui sous-tend cette méthode occupera le devant de la scène.

La gouvernance de l’information en tant que service

Cette année, nous verrons des entreprises abandonner la gouvernance en silos pour déployer une gouvernance de l’information sous forme de « couche » globale d’informations. Elles passeront d’un système de gestion des documents isolé, d’un archivage ou d’un CMS d’entreprise et d’autres outils cloisonnés à une approche et une stratégie consistant à gérer les données et contenus là où ils sont (gouvernance de l’information sur place).

Cette nouvelle méthode nécessite un ensemble de nouvelles solutions, notamment des services de regroupement de contenus et des connecteurs de données et de contenus.

La création d’un registre d’informations complet

L’intégration des données structurées et des données non structurées à des fins d’analyse et de gouvernance requiert de nouvelles technologies. L’une de ces technologies est le registre d’informations. À l’heure actuelle, la plupart des entreprises disposent d’une solution pour suivre et gérer les politiques de conservation des documents.

Mais elles n’ont pas forcément une solution pour suivre les informations hors documents. Avec les lois protégeant la confidentialité des données (RGPD, CCPA, etc.) et les autres réglementations en vigueur, et face à la croissance des programmes de management de la qualité des données (ex. : ISO 27001), les entreprises doivent améliorer la manière dont elles gèrent leur capital informationnel. Dans cette optique, le système classique de conservation des documents évolue vers un registre d’informations complet.

L’idée n’a rien de nouveau : ce registre fait partie des exigences du RGPD et est déjà utilisé dans des domaines d’activité comme les services en bibliothèque, où il porte le nom de registre des actifs informationnels. Nous pensons que le registre d’informations ne doit pas se contenter de suivre les types d’informations dans l’entreprise, mais doit être élargi pour devenir un cadre de responsabilité, une bibliothèque de lois et de directives internes ou une liste d’activités et de processus clés produisant des informations sensibles. Nous l’envisageons également comme étant lié à des politiques définies, notamment celles portant sur la conservation ou la minimisation des données, et aux systèmes qui stockent des informations, pour veiller à ce que ces politiques soient bien mises en application.

everteam.policy est un registre d’informations complet. Nous continuons de le développer pour le doter de meilleures fonctionnalités et ainsi vous aider dans la gouvernance totale des informations de votre entreprise.

Classification automatique/assistée

Noble mission que de classer manuellement toutes les informations de votre entreprise. Après tout, ce sont les collaborateurs qui les comprennent le mieux, alors pourquoi ne pas leur confier cette tâche ? En réalité, les entreprises créent, stockent et gèrent trop d’informations pour qu’une classification manuelle soit possible.

Selon un récent rapport sur l’analyse de fichiers (file analytics), publié par Forrester, la plupart des organisations stockent au moins 100 téraoctets d’informations non structurées rien que dans leurs datacenters. Des études sur l’analyse de fichiers menées par Gartner indiquent que plus de 80 % des informations des entreprises sont des données non structurées, réparties comme suit :

  • Données réglementaires ou de conformité = <1 %
  • Données sur les litiges = <1 %
  • Données importantes à enregistrer = <2 %
  • Données en cours d’utilisation, de référence ou pourvues d’une valeur analytique = ~15 %
  • Contenu redondant, obsolète ou inutile (Redundant, Obsolete and Trivial – ROT) = ~80 %

Les entreprises s’efforcent de gérer les premiers 4 % alors qu’elles devraient effectuer un véritable nettoyage sur l’ensemble des données et des contenus. Il est urgent de réussir à classer les données rapidement et de manière plus automatisée, afin de définir le type d’informations et par extension les politiques à mettre en œuvre.

Dans le monde de la découverte numérique, la classification assistée est connue sous le nom de TAR (Technical Assisted Review) ou de codage prédictif. La classification automatique utilise des règles prédéfinies ou des algorithmes d’apprentissage automatique fonctionnant grâce à l’intelligence artificielle. Elle permet de classer des documents et d’aider les collaborateurs à les accepter, les modifier ou les rejeter. Suivant un cercle vertueux d’apprentissage, la machine devient de plus en plus performante avec le temps. La majeure partie des solutions d’analyse de fichiers reposent sur des principes d’apprentissage automatique et sur un système de classification en fonction de règles prédéfinies. Ces technologies de classification automatique et assistée peuvent encore être développées et améliorées. Plus le modèle est alimenté régulièrement avec des informations récentes, mieux il fonctionne.

L’évolution de la content intelligence

Les entreprises qui exploitent leurs informations pour prendre des décisions efficacement jouissent d’un avantage concurrentiel, c’est un fait. Voilà toutefois qui est plus facile à dire qu’à faire. Recueillir toutes les informations dont vous avez besoin au sein de l’entreprise est difficile, même lorsque tout va bien.

Pour gagner en efficacité, les solutions en la matière doivent dépasser le simple regroupement de moteurs de recherche. Elles doivent intégrer des capacités de content intelligence pour aider les utilisateurs professionnels à mieux comprendre le contexte de l’information qu’ils recherchent, à trouver l’information la plus pertinente et à entrevoir de nouvelles perspectives d’analyse.

Afin d’optimiser l’efficacité des recherches, vous pouvez envisager de profiter de l’enrichissement manuel (intervention humaine) ou automatisé des contenus pour attribuer des types, classer des contenus, identifier des données à caractère personnel/des informations sanitaires protégées et lancer une détection personnalisée en fonction de l’entité de l’entreprise. Vous pouvez aussi fournir, en guise de contexte, des indications sur la qualité et la gouvernance des informations auxquelles accède un utilisateur : data lineage et historique, contrôles de gouvernance réalisés, etc. En outre, les méthodes de prédiction permettent aux utilisateurs professionnels de détecter des problèmes avant même qu’ils ne surviennent, ou de trouver des opportunités que les autres ne voient pas forcément.

Nous incluons tous ces concepts dans l’idée de recherche cognitive, que nous continuons d’explorer avec notre solution everteam.discover. Pour en savoir plus, suivez nos actualités en 2019.

La partie émergée de l’iceberg

À présent, quelques commentaires sur l’économie de l’information (Infonomics en anglais). Selon Doug Laney, analyste chez Gartner, l’économie de l’information est une pratique consistant à véritablement traiter les informations comme des actifs. Il s’agit de les monétiser, de les gérer et de les mesurer de manière à prouver leur valeur en tant qu’actifs réels. Chez Everteam, nous avons la conviction que les informations de toutes les entreprises sont porteuses d’une valeur qu’on ignore encore. Nous cherchons comment extraire cette valeur et aider les entreprises à la gérer et à la mesurer de manière adéquate.

Je n’ai mentionné que quelques-uns des éléments sur lesquels nous faisons de la veille et travaillons. Il y en a bien d’autres dans notre boîte à outils et sur notre feuille de route, et nous partagerons nos connaissances sur des sujets tels que la blockchain, l’intelligence artificielle, l’analyse de données, la gestion intelligente de l’information, etc. Nous ne doutons pas que l’année 2019 sera passionnante et nous espérons que vous serez à nos côtés.

Qu’est-ce-que le contenu ROT et que devons-nous en faire ?

Tout le monde a déjà entendu parler du contenu “ROT” (ROT contents), c’est-à-dire le contenu redondant, obsolète ou inutile (en anglais « ROT », Redundant, Obsolete, Trivial) soit du contenu sans réel intérêt stratégique. Vous avez peut-être déjà entendu dire que ce dernier devait être identifié et assaini. Mais qu’est-ce au juste que le contenu ROT et pourquoi faut-il s’en soucier ? Comment le débusquer et qu’en faire ensuite ? 

Le ROT est du contenu superflu associé à l’infrastructure (partages de fichiers, SharePoint, etc.). Il s’agit de contenu inutile et qui peut être supprimé, mais de manière justifiée légalement. Voir aussi la définition de l’AIIM (Association for Information and Image Management) ici (http://community.aiim.org/blogs/kevin-parker/2016/05/05/defining-information-rot).

Qu’est-ce qui est ROT et qu’est-ce qui ne l’est pas ?

La définition de ce qui est et n’est pas du contenu ROT peut varier selon l’entreprise, mais pour faire court, ce contenu peut être défini comme suit :

  • Tout contenu réactif à un litige ou un processus d’e-discovery « Legal eDiscovery » (ESI) n’est pas du contenu ROT (par définition)
  • Parmi ce qu’il reste, le ROT est le contenu inutile pour l’activité de l’entreprise et pour le respect de la conformité, le contenu qui n’a pas été consulté depuis longtemps ou encore qui est un doublon exact ou presque, etc.

Souvent, l’entreprise sous-estime le volume de ROT qu’elle stocke. Certaines entreprises figurant dans le classement Fortune des 500 premières entreprises mondiales rapportent que plus de 30% de leur contenu (en volume) est du contenu ROT.

Qui se soucie réellement du contenu ROT ?

On peut aussi se demander pourquoi se soucier du contenu ROT. Le stockage n’est-il pas bon marché ?

Mais trop de contenu ROT, c’est un peu comme avoir un indice de masse corporelle (IMC) important avec les risques et problèmes que cela entraîne pour la santé :

  • Ce contenu ROT augmente les coûts de stockage… le coût total du stockage peut représenter plusieurs milliers d’euros /To par an dont les coûts de gestion, de sauvegarde, d’infrastructure, de DR, etc.
  • Le contenu ROT stocké sur des systèmes devenus obsolètes peut entraîner des dépenses d’exploitation et de maintenance élevées (ressources, renouvellement de licences, maintenance, etc.), et peut aussi interférer avec les stratégies de mise hors service d’applications planifiées par l’équipe IT
  • Le contenu ROT peut entraîner des risques au niveau juridique ainsi que des coûts d’e-discovery (« Legal e-Discovery ») indésirables et potentiellement élevés
  • Le contenu ROT peut aussi comporter des risques pour la conformité à la réglementation, dont les informations protégées par le règlement général sur la protection des données (RGPD) de l’Union Européenne, règlement que nous évoquons déjà sur notre blog

L’équivalent pour le contenu ROT d’un régime associé à de l’exercice physique est le déploiement d’une stratégie de nettoyage ou d’assainissement du contenu ROT :

  • Définir une stratégie de remédiation du contenu ROT
  • Spécifier des politiques qui définissent les caractéristiques du ROT et les actions à mener pour y remédier après l’avoir découvert
  • Déployer des outils de « File Analysis » ou « File Analytics »  pour trouver le contenu ROT et appliquer ou aider à appliquer les actions spécifiées par les politiques 
  • Mettre le contenu ROT hors ligne
  • Le mettre en quarantaine pendant un certain temps
  • Le supprimer directement
  • Etc.

La nécessité d’un outil de File Analytics adapté pour gérer votre contenu ROT

Le composant technologique File Analysis doit être en mesure de fournir les fonctionnalités suivantes :

  • Connexion à des sources de contenu variées au sein de l’infrastructure [partages de fichiers, SharePoint, systèmes de gestion de contenus d’entreprise (ECM), etc.]
  • Indexation des métadonnées et du contenu
  • Application d’une analyse sur cet index : caractéristiques des métadonnées, entités nommées, classifications, champs sémantiques, etc.
  • Identification du futur contenu ROT d’après les paramètres de configuration des politiques
  • Exécution par les utilisateurs autorisés des actions recommandées par les politiques pour ce contenu
  • Génération d’un journal d’audit à valeur légale concernant ces activités

Le nettoyage du contenu ROT n’est pas une opération ponctuelle. L’analyse des fichiers (File Analysis) doit être configurée pour nettoyer l’infrastructure régulièrement et traiter le delta ROT récurrent.

N’oubliez pas …

Pour conclure, j’aimerais souligner deux points importants :

Lors de la découverte de nombreux doublons d’un même document, l’un d’entre eux peut être d’une importance toute particulière pour l’activité de l’entreprise et valoir son pesant d’or en raison de son emplacement, de la nature de son dépositaire ou encore de son statut d’archive gelée pour des raisons légales, etc. Cette copie précieuse (Copie d’or ou Golden copy en anglais) n’est donc bien entendu pas du contenu ROT, même s’il s’agit d’un doublon. L’outil File Analysis doit participer à l’identification et au traitement de ces copies de grande valeur.

Ce même outil doit également contribuer à l’identification du contenu IPI, PCI et PHI au sein des documents, un élément indispensable pour se conformer aux réglementations sur la confidentialité, par exemple le règlement RGPD qui fera l’objet d’un prochain article sur mon blog.