Tech Tuesday : Premiers pas avec la classification

L’un des éléments les plus importants d’un programme de gouvernance des informations est la bonne classification de vos données. Il est essentiel de disposer d’un plan de classification central et formel, en particulier lorsque la majeure partie des informations (structurées et non structurées) est utilisée par différents services et équipes dans toute l’organisation. Si les données sont l’essence de votre organisation, un bon plan de classification vous garantit que chacun pourra trouver et utiliser les données dont il a besoin pour travailler au quotidien. Cela signifie aussi que vous devez disposer d’une stratégie éprouvée afin de gérer correctement ces données.

Les avantages de la classification

Imaginez devoir trouver un document parmi des milliers de documents répartis sur plusieurs partages de fichiers ou applications de partage de fichiers. Vous connaissez peut-être le nom du document, ou seulement ce qu’il contient. Il existe peut-être plusieurs versions du document ou plusieurs copies stockées par d’autres services. Vous trouvez ça frustrant ? C’est normal.

Non seulement vous devez passer d’un référentiel à l’autre pour tenter de trouver votre document, mais lorsque vous le cherchez dans des référentiels qui disposent d’une fonction de recherche, vous obtenez une multitude de résultats dont le tri vous prendra une éternité.

Pour vous aider, vous avez deux possibilités, et l’une d’entre elles consiste à disposer d’un plan de classification à l’échelle de l’entreprise. (Dans cet article, je m’intéresserai avant tout à la classification de vos documents et autres contenus non structurés.)

Avant d’aller plus loin, n’imaginez pas que j’attends de vous que vous laissiez toutes vos activités en plan pour vous lancer dans un projet d’un an pour documenter l’ensemble de la taxonomie de votre entreprise. Ça ne serait pas raisonnable, et cela pourrait aussi mettre un frein à vos efforts en matière de gouvernance de l’information.

Au lieu de cela, nous aimerions que vous suiviez en termes de planification de votre classification et de votre taxonomie les mêmes recommandations que pour la gouvernance de l’information : à savoir que vous les pensiez par phases ou par projets. Développez votre plan de classification comme vous développez votre programme de gouvernance : une étape après l’autre. En créant votre taxonomie de cette façon, vous pouvez ajouter de nouveaux types de contenu, ou développer les types de contenu déjà présents dans la taxonomie, et ainsi développer lentement et soigneusement un plan de classification qui conviendra à tous.

Revenons à notre sujet.

Une classification efficace de vos contenus offre de nombreux avantages, dont l’un des plus importants est une meilleure visibilité sur vos informations :

–       Identifiez les informations sensibles, telles que les données à caractère personnel et de paiement, et autres informations personnelles ;

–       Séparez les bonnes informations des contenus redondants, obsolètes ou inutiles ;

–       Répondez plus rapidement aux demandes d’informations ;

–       Attribuez des niveaux de stockage économiques ;

–       Appliquez des contrôles de sécurité adaptés pour empêcher la divulgation accidentelle ou le cyber-piratage des données.

Les avantages de la classification sont nombreux. En voici deux exemples :

  1. Le premier est le fait de répondre aux demandes de personnes fichées de la part de réglementations de confidentialité telles que le CCPA et le RGPD. Ces deux réglementations exigent que vous fournissiez à un individu toutes les informations que vous stockez sur lui, dans un certain délai (30 jours pour le RGPD, 45 pour le CCPA). Si vous stockez les informations des clients sur de nombreux référentiels différents, et que chaque référentiel utilise son propre plan de classification, il sera très difficile de trouver toutes les informations en peu de temps (à moins bien sûr d’affecter à cette tâche de nombreux employés, ce qui représente alors d’énormes dépenses en ressources pour chaque demande de personne fichée).
  2. Le second est le risque de cyber-piratage, et tout le monde s’accorde à dire que la question n’est pas « si » cela se produira, mais « quand ». Selon un sondage Harris réalisé pour Symantec en janvier 2018, 60 millions d’Américains ont été touchés par l’usurpation d’identité. La majeure partie des données nécessaires pour usurper une identité sont volées à des entreprises qui stockent ou protègent mal les informations client. Le même article explique que « On estime que les cybercriminels voleront 33 milliards d’archives en 2023, selon une étude réalisée en 2018 par Juniper Research. Et comparé aux 12 milliards d’archives dont le vol est attendu en 2018. » Si vous ne classez pas vos informations et que vous ne les protégez pas à l’aide de politiques de sécurité adaptées, vous pourriez bien être l’une des entreprises touchées par ces vols d’informations.

Premiers pas avec la classification

Certains pensent que la première étape de la classification est l’acquisition d’un outil. Mais c’est faux. La première étape consiste à rassembler les principales parties prenantes qui créent, stockent et travaillent avec les informations de votre organisation, afin d’avoir une vue d’ensemble exhaustive de la façon dont ces informations sont utilisées, non seulement dans un service ou une division, mais aussi dans d’autres services ou divisions. Gardez à l’esprit que vous pouvez le faire de manière itérative pendant que vous travaillez sur des projets de gouvernance.

En prenant le temps de parler avec toutes les personnes concernées, vous pourrez créer un plan de classification adapté aux besoins de chacun. Et c’est essentiel, car il n’est pas souhaitable que les différents services classent les contenus de façons différentes. Cela rendrait impossible le respect de réglementations telles que le CCPA. Cela ne plaira peut-être pas à tout le monde, mais ce n’est pas exactement le but d’une stratégie de classification centrale.

Une fois que vous aurez recueilli les opinions des principales parties prenantes vous pourrez commencer à définir des catégories de contenus (ou types de contenus) et les métadonnées correspondantes. Diffusez le plan de classification dans toute l’entreprise, et assurez-vous qu’il est respecté par tous.

Je ne dis pas que vous n’avez pas besoin d’outils pour commencer, mais il peut être avantageux d’investir dans des outils adaptés. Tout d’abord, lorsque vous définirez votre taxonomie, vous aurez besoin d’un emplacement où stocker cette taxonomie, qui indique où et comment elle est appliquée. Une solution telle qu’everteam.policy peut vous y aider.

Notre produit, everteam.discover, connecte la totalité de vos référentiels non structurés, indexe vos contenus et applique automatiquement votre plan de classification. Il s’intègre de façon transparente à everteam.policy pour extraire le plan de classification à appliquer.

everteam.discover vous permet de classer le contenu selon trois méthodes : manuellement, en utilisant des règles (correspondances de requêtes) ou au moyen de l’apprentissage automatique (en analysant le contenu d’un élément de contenu). Une classification automatique utilisant des règles ou l’apprentissage automatique est nécessaire lorsque la quantité de contenu à classer est très importante. Cela vous permettra de respecter les exigences réglementaires plus rapidement (et avec plus de précision) qu’avec une classification manuelle. Mais dans certains cas, une classification manuelle est nécessaire.

L’apprentissage automatique permet d’analyser des données non structurées de façon sémantique, afin de suggérer des classifications basées sur le texte trouvé. Vous pouvez ensuite ajouter ces classifications recommandées à everteam.policy.

Classification de contenu avec everteam.discover

Vous savez comment vous souhaitez classer vos informations, mais elles sont trop nombreuses pour les classer manuellement (un document après l’autre). C’est là qu’everteam.discover entre en jeu. everteam.discover connecte tous vos référentiels et en indexe le contenu. Vous pouvez ensuite consulter ce contenu depuis différents aspects ou vues, ou rechercher du contenu avec une gamme de paramètres. Pour classer manuellement un groupe de documents, vous les sélectionnez et appliquez une catégorie de classification ou un type de contenu à l’aide de la taxonomie que vous avez au préalable ajoutée à l’outil.

Une fois que vous avez identifié les règles de classification des documents, vous pouvez facilement définir des étapes et commencer leur automatisation. Ajoutez ces règles à un classifieur basé sur des règles everteam. Le classifieur s’exécute automatiquement chaque fois qu’un nouveau document est ajouté, et applique une catégorie à tous les documents qui correspondent aux règles. Tout nouveau document ajouté est automatiquement classé, éliminant le processus manuel.

L’apprentissage automatique est la troisième méthode de classification du contenu dans everteam.discover. Il vous permet d’analyser votre contenu, et vous suggère des classifications. Pour que l’apprentissage automatique fonctionne, vous devez fournir à everteam.discover des ensembles de documents d’apprentissage pour chaque classification, qui lui permettront d’apprendre. Plus il indexe et classe de contenus, mieux il parvient à attribuer la bonne classification à chaque document.

Voici un aperçu de la fonctionnalité de classifieur d’everteam.discover :

Il n’est pas toujours possible de laisser la machine appliquer vos classifications ; vous devez permettre à certains employés d’appliquer la classification manuellement. C’est important, par exemple, lors de l’identification et du traitement des contenus redondants, obsolètes ou inutiles. Vous pourrez peut-être commencer avec la classification automatique, mais vous devez prévoir une intervention humaine afin de vous assurer que vous ne vous débarrassez que d’informations dont vous n’avez plus besoin.

J’ai fait ici uniquement d’une présentation rapide de la façon dont everteam.discover peut vous aider à appliquer votre taxonomie à votre contenu. L’utilisation des classifieurs et la formation d’un classifieur à apprentissage automatique sont des sujets complexes, qui seront traités dans les prochains articles de blog. Alors inscrivez-vous à notre newsletter pour savoir quand nous publions de nouveaux articles de blog.

La classification n’est pas une tâche unique

Que vous la réalisiez en une seule fois (ce qui n’est pas conseillé si vous voulez continuer à travailler) ou en plusieurs phases, par des initiatives, la classification n’est pas une tâche unique. Vous ne pouvez pas la définir une fois, et supposer qu’elle fonctionnera indéfiniment. La gestion des classifications (la taxonomie) est un processus continu : vous ajoutez de nouveaux types de contenus à vos informations, d’autres contenus changent, et les règles de gestion de vos informations changent (nouvelles réglementations, modification des réglementations existantes). La façon dont vous souhaitez utiliser vos informations pour soutenir la prise de décision affectera également la façon dont vous classez vos informations.

everteam.policy peut vous aider à gérer votre taxonomie en continu. Il vous permet non seulement de définir et de gérer votre taxonomie actuelle, mais aussi de définir des règles de gestion de la conservation et du cycle de vie, d’identifier les autorisations d’accès et de partager toutes ces informations avec les collaborateurs et systèmes au sein de l’entreprise qui doivent connaître et respecter ces règles de classification.

Pour terminer, je souhaite faire une dernière remarque au sujet de la classification de vos informations. Un type de contenu de classification (ou une catégorie, selon le terme que vous utilisez) doit offrir les informations suivantes :

–     La description du type de contenu et de toutes les métadonnées et tous les attributs associés ;

–     Les règles de traitement de ces informations ;

–     Comment/où les stocker ;

–     Comment les supprimer lorsqu’elles ne sont plus utiles ;

–     Les autorisations/la sécurité à appliquer aux informations pour s’assurer que seules les personnes autorisées peuvent y accéder.

Si vous souhaitez en apprendre davantage sur comment everteam.discover peut vous aider à classer vos informations (y compris les 80 % de dark data cachés dans vos référentiels), contactez-vous pour demander une démonstration, ou téléchargez notre fiche produit everteam.discover.

Intégrer les données structurées et non structurées : en sommes-nous déjà là ?

“D’ici 2022, 50% des organisations incluront des données non structurées, semi-structurées et structurées dans le même programme de gouvernance, contre moins de 10% aujourd’hui.” Gartner File Analysis Market Guide

Combien d’entreprises disposent de solutions distinctes pour gérer les données structurées (base de données, données transactionnelles) et non ou semi-structurées (documents, textes, vidéos, images, emails, médias sociaux, etc.) ? Après tout, il s’agit de types d’information très différents, et ils exigent donc des approches distinctes en matière de technologie et de gouvernance. Barb en a touché un mot lorsqu’elle a mentionné innovations en matière de gouvernance de l’information pour 2019  et je vais tenter aujourd’hui d’élaborer un peu ce sujet…

Et si cette exigence de séparation des données structurées et non structurées n’était plus vraiment nécessaire ? Et si nous fusionnons les stratégies et les technologies liées à la gouvernance des données structurées (Data Governance) et celles liées à la gouvernance des données non structurées (Information Governance)? Pouvons-nous examiner les deux types de données au sein d’un seul programme de gouvernance commun ?

Le fait est que nous le faisons déjà aujourd’hui. Considérez un objet Salesforce avec une facture jointe. Ou des enregistrements dans un système SAP connectés à certains fichiers. Ou une base de données NoSQL avec des champs texte. La plupart des données que nous devons gérer aujourd’hui sont de toute manière non ou semi-structurées et ceci même au sein des systèmes décrits comment “structurés”, alors pourquoi avoir des solutions de gouvernance distinctes pour gérer chacune d’entre elles ?

Rendre les données non structurées, structurées

“80% des données sont non structurées.” Je suis sûr que vous avez déjà entendu cette statistique. Vous avez implémenté ou envisagez d’implémenter des solutions d’analyse de vos fichiers et de vos contenus pour vous aider à mieux gérer votre déluge informationnel. Dans vos efforts pour gérer vos données non structurées, saviez-vous que vous étiez, in fine, en train de structurer vos données non structurées ?

Les solutions d’analyse de fichiers et de contenu permettent d’analyser vos informations, de les enrichir et de les classer en leur attribuant des taxonomies et des métadonnées. Vous pouvez scanner vos informations à la recherche de données personnelles, d’expressions régulières, d’entités nommées, etc. afin précisément d’extraire un ensemble de métadonnées. Vos informations sont la plupart du temps sous forme de simple texte dans un document, une chaîne de caractères dans une base de données ou un tweet dans un réseau social. En étiquetant manuellement ou en extrayant automatiquement un ensemble de métadonnées  qualificatives et contextuelles à votre information, vous fournissez en fait de la structure à votre contenu non structuré.

Une fois que vous avez extrait ces métadonnées, vous pouvez alors les associer et les relier avec d’autres sources de données structurées. Il est donc logique que vous souhaitiez une solution d’analyse de fichiers qui puisse analyser des données structurées et non structurées en même temps, n’est-ce pas ?

Bien sûr, en raison des exigences de conformité et de sécurité, vous ne pouvez pas simplement fusionner toutes vos données et les fournir à tous les employés de l’entreprise dans un grand réservoir de données ; il vous faut gouverner ces données au préalable.

La fédération de données est votre nouveau référentiel de contenu

Il n’y a pas si longtemps, nous parlions encore de transférer l’ensemble des contenus d’entreprise au sein d’un seul référentiel, que ce dernier se nomme Documentum, FileNet ou un tout autre système.

Mais l’idée de transférer l’ensemble de votre corpus informationnel au sein d’un seul système n’est jamais devenu une réalité. La multiplication des systèmes, sur site ou dans le cloud, s’est au contraire accélérée ces dernières années. ll s’agit donc désormais de fédérer et de gouverner “sur place” vos données là où elles se trouvent. Vous avez des données dans vos systèmes ERP et CRM, du contenu dans vos disques réseaux partagés, au sein de vos sites SharePoint ou Office365, ainsi que dans vos nombreuses autres applications et référentiels de contenus. Et ces données sont bien là où elles se trouvent. Mais en même temps, vous devez vous assurer qu’elles sont gérées conformément aux cycles de vie réglementaires et autres politiques informationnelles que vous avez mis ou souhaitez mettre en oeuvre.

Vous ne voulez ainsi pas avoir affaire à des solutions distinctes pour gérer tantôt des données structurées, tantôt des contenus non structurées. Vous avez besoin d’une solution qui peut vous aider à examiner vos données dans leur ensemble et à les gouverner indistinctement de manière adéquate.

Un autre critère à conserver à l’esprit. Le RGPD, le CCPA (California Consumer Privacy Act) et les nouvelles réglementations à venir en matière de gestion des données personnelles ne font pas de distinction entre les données structurées et les contenus non structurés. Quelle qu’en soit la forme, vous devez être en mesure de gérer vos données personnelles, où qu’elles se trouvent, afin de  traiter les requêtes des ayant droits comme les demandes d’information ou leur droit à l’oubli.

Supprimer la frontière entre Gouvernance des Données et Gouvernance de l’Information

Nous distinguons souvent la gouvernance des données de la gouvernance de l’information. Mais les limites tendent de plus en plus à s’estomper entre les deux notions. Souvent, il s’agit désormais plutôt de savoir à quelle audience nous nous adressons plutôt que de savoir quel est le bon terme à utiliser. Ainsi, si vous parlez à la DSI, vous parlez le plus souvent de gouvernance des données, et si vous parlez aux lignes métier ou au management, vous appelez cela de la gouvernance de l’information.

En fin de compte, nous parlons tous de la même chose : fournir les capacités nécessaires pour se connecter à différents référentiels de données et de contenu, inventorier et analyser les données qu’ils contiennent, trouver comment les organiser, les enrichir et les classer, se débarrasser si nécessaire des données devenues obsolètes , et gérer les informations utiles conformément à vos politiques de conformité.

Les catalogues de données (Data Catalog en anglais) existent aujourd’hui pour gérer un inventaire de vos données structurées et les solutions d’analyse de fichiers pour fournir un catalogue de vos données non structurées. Existe-t-il une demande pour un inventaire unique des  actifs informationnels de votre organisation?

Dans le monde de la gestion documentaire et de l’archivistique traditionnel, la gestion des topologies informationnelles, des métadonnées et leurs règles de conservation, protection ou destruction, existent depuis des décennies. En les couplant avec des catalogues de données structurées et en y intégrant non seulement le périmètre traditionnellement lié aux documents engageants mais étendu à l’ensemble des informations de l’entreprise, nous obtenons alors un vrai inventaire de l’ensemble des actifs informationnels d’une organisation.

Fort de ce constat Everteam a déjà introduit dans sa feuille de route un ensemble d’évolution concernant sa suite de gouvernance de l’information (composée de everteam.discover, everteam.policy, et everteam.archive). La mise à disposition d’un connecteur de base de données structurées au sein de l’application everteam.discover principalement utilisé  pour le décommissionnement d’applications en est la première étape et démontre que l’on peut analyser des données structurées et non structurées côte à côte. Il reste encore du chemin pour réaliser l’ensemble de cette convergence attendue à l’orée des prochaines années mais nous sommes enthousiastes à l’idée de pouvoir toujours aller plus loin afin d’innover et de créer les solutions de gouvernance dont vous avez le besoin. Si vous souhaitez en savoir plus sur nos produits et notre feuille de route, n’hésitez pas à nous envoyer un message.

Le Big Data, pour un archivage nouvelle génération !

L’archivage numérique avait, à la base, pour simple mission de préserver les données. Depuis quelques années, et en particulier depuis l’irruption du Big Data dans nos quotidiens, il permet d’en faire plus, de donner une toute autre valeur au capital informationnel, et de gagner en efficacité. Le tout, en restant compatible avec le RGPD. Décryptage, en compagnie d’Éric Detang, responsable commercial chez Viveris Systèmes, un groupe de conseil et d’ingénierie informatique et partenaire intégrateur d’Everteam depuis de nombreuses années. 

Une nouvelle impulsion pour l’archivage avec le Big Data

L’archivage numérique existait avant le Big Data. Cette “révolution des données” a cependant permis de lui apporter de nouvelles fonctionnalités, estime le responsable commercial de Viveris Systèmes, Éric Detang : “Avant, l’archivage, on le faisait surtout pour répondre à des obligations de conservation, rappelle-t-il. La question de la mise à disposition du capital informationnel ne se posait pas vraiment. Un premier cap a été franchi avec les archives électroniques, mais celles-ci n’ont vraiment pu monter en puissance qu’une fois que l’on a parlé, compris et exploité le phénomène du Big Data. Il a ainsi offert une praticité inédite à l’archivage. Il permet par exemple de faire des recherches sur les métadonnées associées aux fichiers, de lancer une classification en activant ou en désactivant des facettes, de retrouver plus vite les données et l’information, de générer automatiquement les classifications les plus pertinentes… Bref, grâce au Big Data, on navigue sans requêtes complexes. Ce qui constitue un gain de temps et d’efficacité pour les entreprises.”

Un archivage numérique devenu modulaire

L’autre apport du Big Data à l’archivage numérique se trouve dans la souplesse des solutions existantes. “Avec le Big Data, l’archivage numérique devient “à la demande”. Certes, on s’appuie sur un socle unique, mais on peut ajouter des modules que l’on décide d’exploiter ou non, selon ses besoins et/ou son budget. On est bien loin des solutions d’archivage initiales, qui se concentraient sur 3 ou 4 critères primordiaux mais ne permettaient que peu de personnalisation, et se retrouvaient assez lourdes à l’usage.”

Un exemple concret des apports du Big Data dans l’archivage numérique ? “Un service d’expertise comptable dans un grand groupe d’assurance a déployé une solution d’archivage, tirant profit du Big Data. Elle lui permet d’exploiter l’ensemble des documents créés ou générés depuis plusieurs années, tant que ceux-ci doivent être légalement conservés. Ainsi, les comptables de cette entreprise peuvent très rapidement retrouver une ligne précise dans un bilan datant de plusieurs années, pour répondre à une injonction légale notamment. Il est aussi possible de présenter un extrait du grand livre des comptes où se trouve cette ligne. C’est un gage de confiance pour l’administration et pour les responsables, qui savent qu’en cas de demande particulière, ils pourront y répondre très vite.”

Le Big Data, l’allié du RGPD dans l’archivage numérique

Indexation rapide des documents, possibilité de retrouver une information très vite (et donc d’agir sur cette information), capacité renforcée à répondre aux contraintes d’audit… vous y voyez une réponse aux impératifs du RGPD ? Vous avez raison ! Avec le RGPD, les entreprises et institutions se doivent d’être en mesure d’accéder rapidement aux données personnelles des consommateurs et des particuliers, afin que ceux-ci exercent facilement l’ensemble de leurs nouveaux droits :

  • L’effacement des données ;
  • La correction d’informations erronées ou datées ;
  • La limitation de l’usage ;
  • L’anonymisation des informations…

Le Big Data constitue un apport réel s’agissant de l’archivage numérique. Vous souhaitez en savoir plus ? Contactez les équipes d’Everteam !

Qu’est-ce-que le contenu ROT et que devons-nous en faire ?

Tout le monde a déjà entendu parler du contenu “ROT” (ROT contents), c’est-à-dire le contenu redondant, obsolète ou inutile (en anglais « ROT », Redundant, Obsolete, Trivial) soit du contenu sans réel intérêt stratégique. Vous avez peut-être déjà entendu dire que ce dernier devait être identifié et assaini. Mais qu’est-ce au juste que le contenu ROT et pourquoi faut-il s’en soucier ? Comment le débusquer et qu’en faire ensuite ? 

Le ROT est du contenu superflu associé à l’infrastructure (partages de fichiers, SharePoint, etc.). Il s’agit de contenu inutile et qui peut être supprimé, mais de manière justifiée légalement. Voir aussi la définition de l’AIIM (Association for Information and Image Management) ici (http://community.aiim.org/blogs/kevin-parker/2016/05/05/defining-information-rot).

Qu’est-ce qui est ROT et qu’est-ce qui ne l’est pas ?

La définition de ce qui est et n’est pas du contenu ROT peut varier selon l’entreprise, mais pour faire court, ce contenu peut être défini comme suit :

  • Tout contenu réactif à un litige ou un processus d’e-discovery « Legal eDiscovery » (ESI) n’est pas du contenu ROT (par définition)
  • Parmi ce qu’il reste, le ROT est le contenu inutile pour l’activité de l’entreprise et pour le respect de la conformité, le contenu qui n’a pas été consulté depuis longtemps ou encore qui est un doublon exact ou presque, etc.

Souvent, l’entreprise sous-estime le volume de ROT qu’elle stocke. Certaines entreprises figurant dans le classement Fortune des 500 premières entreprises mondiales rapportent que plus de 30% de leur contenu (en volume) est du contenu ROT.

Qui se soucie réellement du contenu ROT ?

On peut aussi se demander pourquoi se soucier du contenu ROT. Le stockage n’est-il pas bon marché ?

Mais trop de contenu ROT, c’est un peu comme avoir un indice de masse corporelle (IMC) important avec les risques et problèmes que cela entraîne pour la santé :

  • Ce contenu ROT augmente les coûts de stockage… le coût total du stockage peut représenter plusieurs milliers d’euros /To par an dont les coûts de gestion, de sauvegarde, d’infrastructure, de DR, etc.
  • Le contenu ROT stocké sur des systèmes devenus obsolètes peut entraîner des dépenses d’exploitation et de maintenance élevées (ressources, renouvellement de licences, maintenance, etc.), et peut aussi interférer avec les stratégies de mise hors service d’applications planifiées par l’équipe IT
  • Le contenu ROT peut entraîner des risques au niveau juridique ainsi que des coûts d’e-discovery (« Legal e-Discovery ») indésirables et potentiellement élevés
  • Le contenu ROT peut aussi comporter des risques pour la conformité à la réglementation, dont les informations protégées par le règlement général sur la protection des données (RGPD) de l’Union Européenne, règlement que nous évoquons déjà sur notre blog

L’équivalent pour le contenu ROT d’un régime associé à de l’exercice physique est le déploiement d’une stratégie de nettoyage ou d’assainissement du contenu ROT :

  • Définir une stratégie de remédiation du contenu ROT
  • Spécifier des politiques qui définissent les caractéristiques du ROT et les actions à mener pour y remédier après l’avoir découvert
  • Déployer des outils de « File Analysis » ou « File Analytics »  pour trouver le contenu ROT et appliquer ou aider à appliquer les actions spécifiées par les politiques 
  • Mettre le contenu ROT hors ligne
  • Le mettre en quarantaine pendant un certain temps
  • Le supprimer directement
  • Etc.

La nécessité d’un outil de File Analytics adapté pour gérer votre contenu ROT

Le composant technologique File Analysis doit être en mesure de fournir les fonctionnalités suivantes :

  • Connexion à des sources de contenu variées au sein de l’infrastructure [partages de fichiers, SharePoint, systèmes de gestion de contenus d’entreprise (ECM), etc.]
  • Indexation des métadonnées et du contenu
  • Application d’une analyse sur cet index : caractéristiques des métadonnées, entités nommées, classifications, champs sémantiques, etc.
  • Identification du futur contenu ROT d’après les paramètres de configuration des politiques
  • Exécution par les utilisateurs autorisés des actions recommandées par les politiques pour ce contenu
  • Génération d’un journal d’audit à valeur légale concernant ces activités

Le nettoyage du contenu ROT n’est pas une opération ponctuelle. L’analyse des fichiers (File Analysis) doit être configurée pour nettoyer l’infrastructure régulièrement et traiter le delta ROT récurrent.

N’oubliez pas …

Pour conclure, j’aimerais souligner deux points importants :

Lors de la découverte de nombreux doublons d’un même document, l’un d’entre eux peut être d’une importance toute particulière pour l’activité de l’entreprise et valoir son pesant d’or en raison de son emplacement, de la nature de son dépositaire ou encore de son statut d’archive gelée pour des raisons légales, etc. Cette copie précieuse (Copie d’or ou Golden copy en anglais) n’est donc bien entendu pas du contenu ROT, même s’il s’agit d’un doublon. L’outil File Analysis doit participer à l’identification et au traitement de ces copies de grande valeur.

Ce même outil doit également contribuer à l’identification du contenu IPI, PCI et PHI au sein des documents, un élément indispensable pour se conformer aux réglementations sur la confidentialité, par exemple le règlement RGPD qui fera l’objet d’un prochain article sur mon blog.

B.A.-BA : le Machine Learning

Précieuses pour mettre en place une politique de gouvernance de l’information, les technologies de Machine Learning sont de plus en plus présentes dans notre quotidien. Il faut dire que la numérisation de celui-ci est une tendance de fond, qui n’est pas près de ralentir ! Il est donc temps de faire le point. Qu’est-ce que le Machine Learning ? Comment est-ce que ça fonctionne ? Que peut-on en attendre ? Où en est cet “art numérique”, donnant à l’intelligence artificielle une toute nouvelle dimension ? Voyons cela ensemble, en cinq questions/réponses !

Machine Learning, qu’est-ce que c’est ?

Le Machine Learning, ou apprentissage statistique dans notre langue, est une composante essentielle de l’Intelligence Artificielle. Cette appellation regroupe l’ensemble des technologies qui confèrent aux ordinateurs et aux logiciels la capacité d’apprendre par eux-mêmes, sans avoir besoin d’une intervention humaine via une programmation spécifique, de s’améliorer seuls et d’évoluer. Pour cela, le fonctionnement du Machine Learning va s’approcher de celui du Data Mining : une recherche de schémas récurrents dans les données à disposition va être effectuée, permettant d’en déduire un comportement à adopter, un ajustement du fonctionnement à opérer, ou une action à effectuer.

L’exemple le plus célèbre de Machine Learning dans la vie de tous les jours ? Le fil d’actualité de Facebook. Lorsque l’on interagit régulièrement avec un autre utilisateur (like des publications, commentaires, partages…), l’algorithme du réseau social le “voit” et adapte le newsfeed en conséquence. Il montrera alors plus souvent sur la page d’accueil les actualités de cet ami, au détriment de celles des personnes avec lesquelles les interactions sont plus réduites.

Le concept de Machine Learning peut sembler récent, et pourtant, il est théorisé dès 1959, par l’informaticien Arthur Samuel, qui le décrit comme “le champ d’étude qui donne aux ordinateurs la capacité d’apprendre sans être explicitement programmés à apprendre”. Ce n’est donc pas depuis hier que nous cherchons à confier aux algorithmes la capacité de faire évoluer les ordinateurs de manière autonome, en fonction des données dont il dispose !

Comment fonctionnent les algorithmes du Machine Learning ?

Les algorithmes du Machine Learning ont un fonctionnement assez proche du cerveau humain — certains parlent même d’approche neuronale. Ils apprennent par entraînement : à partir de données connues, il va faire des prédictions, puis comparer ses prédictions avec des résultats concrets. Plus il a l’occasion d’effectuer cette comparaison, mieux il arrive à “deviner” et à optimiser ses prédictions. De même, plus il a de données à disposition, plus vite il s’entraîne et est efficace !

Il existe ainsi de nombreux modèles d’algorithme en Machine Learning :

– Le Random Forest, qui repose sur de nombreux arbres de décision pour parvenir à une prédiction ;

– Les machines à vecteurs, qui classent des exemples pour créer des modèles et enrichir les données ;

– Les réseaux bayésiens, qui utilisent les probabilités pour analyser les données et créer des relations entre elles ;

– Le clustering, qui regroupe des sous-ensembles de documents par similarité…

Où en est-on de l’adoption des technologies de Machine Learning ?

Le Machine Learning se développe ces dernières années dans le monde professionnel grâce à un allié logique : le Big Data. En effet, quoi de plus normal que de voir l’apprentissage automatique gagner en efficacité par l’apport massif d’exemples et de données ? Résultat, les prédictions du Machine Learning s’améliorent, “touchent” de plus en plus de domaines, et font gagner un temps précieux aux utilisateurs. À condition, bien sûr, de trouver le juste équilibre entre une quantité d’exemples suffisante, et un temps de calcul raisonnable — la volumétrie des masses de données ne faisant qu’augmenter avec les technologies modernes.

Et demain, qu’attendre du Machine Learning ?

Aujourd’hui, le Machine Learning s’appuie sur des exemples, donc des données (décisions, actions…) déjà existantes. Nombre de spécialistes estiment que son futur s’appuiera sur des interactions avec l’environnement qui produit les données, c’est-à-dire sur des trajectoires, sur des phénomènes dynamiques et sur des interactions complexes. Le tout avec une meilleure compréhension du langage naturel (via les technologies de NLP, Natural Language Processing), pour une meilleure efficacité encore dans l’apprentissage dynamique !

Que peut apporter le Machine Learning à la gouvernance de l’information ?

Le Machine Learning constitue un allié précieux de la gouvernance de l’information. Ses technologies permettent en effet de mieux analyser, indexer, catégoriser et extraire les données. Il peut par exemple s’agir de repérer les fichiers les plus engageants, de donner du sens aux informations, de procéder à un nettoyage intelligent des doublons et fichiers obsolètes…

Plein de promesses à ses débuts, le Machine Learning s’enrichit de jour en jour de nouvelles fonctionnalités. À surveiller de près donc, y compris en matière de gouvernance de l’information !