Articles

Assainissement des File Systems : que devons-nous faire des archives métier ?

Dans mon article précédentje traitais du contenu ROT (contenu Redondant, Obsolète et Trivial) et j’expliquais de quoi il s’agit et pourquoi il est important d’y remédier (suppression, déplacement hors ligne, mise en quarantaine, etc.). Outre le contenu ROT, l’autre catégorie de contenu majeure à traiter concerne les archives métier. Il s’agit de contenu définis et spécifiés dans ISO 15489, ARMA, DoD 5015.2, NARA, etc. C’est ainsi que la norme ISO 15489 définit les archives métier, ou archives pour faire court, comme des « informations créées, reçues et conservées en tant que preuves et informations par une entreprise ou par une personne dans le cadre des obligations légales ou d’une transaction commerciale ».

business records / archives métier

Les archives métier doivent tout d’abord être identifiées en tant que telles, par exemple, un actif informationnel peut devenir une archive suite à sa publication comme version majeure, cet actif peut devenir une archive lorsque le processus métier impliqué atteint un certain statut, par exemple la signature d’un contrat ou la réalisation d’une mission, …

L’archive métier doit alors être classifiée :

  • Elle doit être associée à une série d’archives (ou classe d’archives) telle que définie dans le référentiel de conservation des archives de l’entreprise
  • Cette association identifie la nature métier de l’archive (exemple : un contrat)
  • Cette association permet aussi de déterminer le cycle de vie et le sort final à appliquer à l’archive
  • Les technologies d’auto classification peuvent faciliter l’automatisation de cette association. Cependant, la précision et, par conséquent, le taux de réussite de l’auto classification dépendra beaucoup du niveau de granularité du référentiel de conservation
  • Les stratégies « Big Bucket » planifiées (moins de 100 entrées par exemple) donnent de meilleurs résultats car le moteur d’auto classification ne doit faire la différence qu’entre un faible nombre de « buckets » (strates) bien distincts.

L’archive métier doit ensuite être soumise à un système d’archivage :

  • L’archive est rendue immuable
  • Son cycle de vie est géré (événement, durée, gel, etc.)
  • À l’issue de son cycle de vie, un sort final sera appliqué à l’archive selon les besoins, cette opération peut par exemple entraîner sa destruction  ou son transfert vers un autre système ou une autre entité

Sans le recours aux outils de File Analysis, les premières tâches d’identification et de classification seront réalisées manuellement, c’est-à-dire en mettant les utilisateurs finaux à contribution. Cependant, l’expérience a prouvé au cours de ces deux dernières décennies que les utilisateurs finaux détestent, et c’est peu dire, ces tâches. Il faut dire que ces derniers ne bénéficient pas de suffisamment de temps et de formation pour les réaliser.

Ceci a d’ailleurs été une source de tensions et l’une des principales raisons pour lesquelles de nombreuses initiatives de Records Management échouent.

Renforcer les compétences des responsables chargés des archives, améliorer leur capacité à communiquer avec l’équipe IT et consolider la formation des utilisateurs finaux peut contribuer à améliorer la situation. Cependant, ces mesures ne permettent pas de résoudre les problèmes de fond :

  • Souvent, les utilisateurs finaux n’aiment pas classifier les archives
  • Le volume d’archives croît de plus en plus et exige au de la de plus d’expertise en records management d’être accompagné par des technologies à forte valeur ajoutée des ressources de RM supplémentaires. Cependant, les ressources de RM sont réduites en raison d’un manque d’appréciation de leur valeur ajoutée

Les responsables chargés des archives doivent commencer à réfléchir autrement. Ils DOIVENT se mettre en quête de solutions qui soustraient davantage les utilisateurs finaux des contraintes liées à l’identification et à la classification des archives. Ces solutions devront intégrer des composants de File Analysis qui contribueront à automatiser et à simplifier le travail des records managers et des utilisateurs finaux.

Si ce sujet vous intéresse, nous vous proposons un webinar le 14 décembre, qui abordera les enjeux liés à la gouvernance de l’information, au RGPD, et les solutions pour y répondre. Cliquez ici pour plus d’information et pour accéder au formulaire d’inscription 

Qu’est-ce-que le contenu ROT et que devons-nous en faire ?

Tout le monde a déjà entendu parler du contenu « ROT » (ROT contents), c’est-à-dire le contenu redondant, obsolète ou inutile (en anglais « ROT », Redundant, Obsolete, Trivial) soit du contenu sans réel intérêt stratégique. Vous avez peut-être déjà entendu dire que ce dernier devait être identifié et assaini. Mais qu’est-ce au juste que le contenu ROT et pourquoi faut-il s’en soucier ? Comment le débusquer et qu’en faire ensuite ? 

Le ROT est du contenu superflu associé à l’infrastructure (partages de fichiers, SharePoint, etc.). Il s’agit de contenu inutile et qui peut être supprimé, mais de manière justifiée légalement. Voir aussi la définition de l’AIIM (Association for Information and Image Management) ici (http://community.aiim.org/blogs/kevin-parker/2016/05/05/defining-information-rot).

Qu’est-ce qui est ROT et qu’est-ce qui ne l’est pas ?

La définition de ce qui est et n’est pas du contenu ROT peut varier selon l’entreprise, mais pour faire court, ce contenu peut être défini comme suit :

  • Tout contenu réactif à un litige ou un processus d’e-discovery « Legal eDiscovery » (ESI) n’est pas du contenu ROT (par définition)
  • Parmi ce qu’il reste, le ROT est le contenu inutile pour l’activité de l’entreprise et pour le respect de la conformité, le contenu qui n’a pas été consulté depuis longtemps ou encore qui est un doublon exact ou presque, etc.

Souvent, l’entreprise sous-estime le volume de ROT qu’elle stocke. Certaines entreprises figurant dans le classement Fortune des 500 premières entreprises mondiales rapportent que plus de 30% de leur contenu (en volume) est du contenu ROT.

Qui se soucie réellement du contenu ROT ?

On peut aussi se demander pourquoi se soucier du contenu ROT. Le stockage n’est-il pas bon marché ?

Mais trop de contenu ROT, c’est un peu comme avoir un indice de masse corporelle (IMC) important avec les risques et problèmes que cela entraîne pour la santé :

  • Ce contenu ROT augmente les coûts de stockage… le coût total du stockage peut représenter plusieurs milliers d’euros /To par an dont les coûts de gestion, de sauvegarde, d’infrastructure, de DR, etc.
  • Le contenu ROT stocké sur des systèmes devenus obsolètes peut entraîner des dépenses d’exploitation et de maintenance élevées (ressources, renouvellement de licences, maintenance, etc.), et peut aussi interférer avec les stratégies de mise hors service d’applications planifiées par l’équipe IT
  • Le contenu ROT peut entraîner des risques au niveau juridique ainsi que des coûts d’e-discovery (« Legal e-Discovery ») indésirables et potentiellement élevés
  • Le contenu ROT peut aussi comporter des risques pour la conformité à la réglementation, dont les informations protégées par le règlement général sur la protection des données (RGPD) de l’Union Européenne, règlement que nous évoquons déjà sur notre blog

L’équivalent pour le contenu ROT d’un régime associé à de l’exercice physique est le déploiement d’une stratégie de nettoyage ou d’assainissement du contenu ROT :

  • Définir une stratégie de remédiation du contenu ROT
  • Spécifier des politiques qui définissent les caractéristiques du ROT et les actions à mener pour y remédier après l’avoir découvert
  • Déployer des outils de « File Analysis » ou « File Analytics »  pour trouver le contenu ROT et appliquer ou aider à appliquer les actions spécifiées par les politiques 
  • Mettre le contenu ROT hors ligne
  • Le mettre en quarantaine pendant un certain temps
  • Le supprimer directement
  • Etc.

La nécessité d’un outil de File Analytics adapté pour gérer votre contenu ROT

Le composant technologique File Analysis doit être en mesure de fournir les fonctionnalités suivantes :

  • Connexion à des sources de contenu variées au sein de l’infrastructure [partages de fichiers, SharePoint, systèmes de gestion de contenus d’entreprise (ECM), etc.]
  • Indexation des métadonnées et du contenu
  • Application d’une analyse sur cet index : caractéristiques des métadonnées, entités nommées, classifications, champs sémantiques, etc.
  • Identification du futur contenu ROT d’après les paramètres de configuration des politiques
  • Exécution par les utilisateurs autorisés des actions recommandées par les politiques pour ce contenu
  • Génération d’un journal d’audit à valeur légale concernant ces activités

Le nettoyage du contenu ROT n’est pas une opération ponctuelle. L’analyse des fichiers (File Analysis) doit être configurée pour nettoyer l’infrastructure régulièrement et traiter le delta ROT récurrent.

N’oubliez pas …

Pour conclure, j’aimerais souligner deux points importants :

Lors de la découverte de nombreux doublons d’un même document, l’un d’entre eux peut être d’une importance toute particulière pour l’activité de l’entreprise et valoir son pesant d’or en raison de son emplacement, de la nature de son dépositaire ou encore de son statut d’archive gelée pour des raisons légales, etc. Cette copie précieuse (Copie d’or ou Golden copy en anglais) n’est donc bien entendu pas du contenu ROT, même s’il s’agit d’un doublon. L’outil File Analysis doit participer à l’identification et au traitement de ces copies de grande valeur.

Ce même outil doit également contribuer à l’identification du contenu IPI, PCI et PHI au sein des documents, un élément indispensable pour se conformer aux réglementations sur la confidentialité, par exemple le règlement RGPD qui fera l’objet d’un prochain article sur mon blog.