Contenu ROT

Qu’est-ce-que le contenu ROT et que devons-nous en faire ?

Tout le monde a déjà entendu parler du contenu « ROT » (ROT contents), c’est-à-dire le contenu redondant, obsolète ou inutile (en anglais « ROT », Redundant, Obsolete, Trivial) soit du contenu sans réel intérêt stratégique. Vous avez peut-être déjà entendu dire que ce dernier devait être identifié et assaini. Mais qu’est-ce au juste que le contenu ROT et pourquoi faut-il s’en soucier ? Comment le débusquer et qu’en faire ensuite ? 

Le ROT est du contenu superflu associé à l’infrastructure (partages de fichiers, SharePoint, etc.). Il s’agit de contenu inutile et qui peut être supprimé, mais de manière justifiée légalement. Voir aussi la définition de l’AIIM (Association for Information and Image Management) ici (http://community.aiim.org/blogs/kevin-parker/2016/05/05/defining-information-rot).

Qu’est-ce qui est ROT et qu’est-ce qui ne l’est pas ?

La définition de ce qui est et n’est pas du contenu ROT peut varier selon l’entreprise, mais pour faire court, ce contenu peut être défini comme suit :

  • Tout contenu réactif à un litige ou un processus d’e-discovery « Legal eDiscovery » (ESI) n’est pas du contenu ROT (par définition)
  • Parmi ce qu’il reste, le ROT est le contenu inutile pour l’activité de l’entreprise et pour le respect de la conformité, le contenu qui n’a pas été consulté depuis longtemps ou encore qui est un doublon exact ou presque, etc.

Souvent, l’entreprise sous-estime le volume de ROT qu’elle stocke. Certaines entreprises figurant dans le classement Fortune des 500 premières entreprises mondiales rapportent que plus de 30% de leur contenu (en volume) est du contenu ROT.

Qui se soucie réellement du contenu ROT ?

On peut aussi se demander pourquoi se soucier du contenu ROT. Le stockage n’est-il pas bon marché ?

Mais trop de contenu ROT, c’est un peu comme avoir un indice de masse corporelle (IMC) important avec les risques et problèmes que cela entraîne pour la santé :

  • Ce contenu ROT augmente les coûts de stockage… le coût total du stockage peut représenter plusieurs milliers d’euros /To par an dont les coûts de gestion, de sauvegarde, d’infrastructure, de DR, etc.
  • Le contenu ROT stocké sur des systèmes devenus obsolètes peut entraîner des dépenses d’exploitation et de maintenance élevées (ressources, renouvellement de licences, maintenance, etc.), et peut aussi interférer avec les stratégies de mise hors service d’applications planifiées par l’équipe IT
  • Le contenu ROT peut entraîner des risques au niveau juridique ainsi que des coûts d’e-discovery (« Legal e-Discovery ») indésirables et potentiellement élevés
  • Le contenu ROT peut aussi comporter des risques pour la conformité à la réglementation, dont les informations protégées par le règlement général sur la protection des données (RGPD) de l’Union Européenne, règlement que nous évoquons déjà sur notre blog

L’équivalent pour le contenu ROT d’un régime associé à de l’exercice physique est le déploiement d’une stratégie de nettoyage ou d’assainissement du contenu ROT :

  • Définir une stratégie de remédiation du contenu ROT
  • Spécifier des politiques qui définissent les caractéristiques du ROT et les actions à mener pour y remédier après l’avoir découvert
  • Déployer des outils de « File Analysis » ou « File Analytics »  pour trouver le contenu ROT et appliquer ou aider à appliquer les actions spécifiées par les politiques 
  • Mettre le contenu ROT hors ligne
  • Le mettre en quarantaine pendant un certain temps
  • Le supprimer directement
  • Etc.

La nécessité d’un outil de File Analytics adapté pour gérer votre contenu ROT

Le composant technologique File Analysis doit être en mesure de fournir les fonctionnalités suivantes :

  • Connexion à des sources de contenu variées au sein de l’infrastructure [partages de fichiers, SharePoint, systèmes de gestion de contenus d’entreprise (ECM), etc.]
  • Indexation des métadonnées et du contenu
  • Application d’une analyse sur cet index : caractéristiques des métadonnées, entités nommées, classifications, champs sémantiques, etc.
  • Identification du futur contenu ROT d’après les paramètres de configuration des politiques
  • Exécution par les utilisateurs autorisés des actions recommandées par les politiques pour ce contenu
  • Génération d’un journal d’audit à valeur légale concernant ces activités

Le nettoyage du contenu ROT n’est pas une opération ponctuelle. L’analyse des fichiers (File Analysis) doit être configurée pour nettoyer l’infrastructure régulièrement et traiter le delta ROT récurrent.

N’oubliez pas …

Pour conclure, j’aimerais souligner deux points importants :

Lors de la découverte de nombreux doublons d’un même document, l’un d’entre eux peut être d’une importance toute particulière pour l’activité de l’entreprise et valoir son pesant d’or en raison de son emplacement, de la nature de son dépositaire ou encore de son statut d’archive gelée pour des raisons légales, etc. Cette copie précieuse (Copie d’or ou Golden copy en anglais) n’est donc bien entendu pas du contenu ROT, même s’il s’agit d’un doublon. L’outil File Analysis doit participer à l’identification et au traitement de ces copies de grande valeur.

Ce même outil doit également contribuer à l’identification du contenu IPI, PCI et PHI au sein des documents, un élément indispensable pour se conformer aux réglementations sur la confidentialité, par exemple le règlement RGPD qui fera l’objet d’un prochain article sur mon blog.