Articles

Qu’est-ce-que le contenu ROT et que devons-nous en faire ?

Tout le monde a déjà entendu parler du contenu “ROT” (ROT contents), c’est-à-dire le contenu redondant, obsolète ou inutile (en anglais « ROT », Redundant, Obsolete, Trivial) soit du contenu sans réel intérêt stratégique. Vous avez peut-être déjà entendu dire que ce dernier devait être identifié et assaini. Mais qu’est-ce au juste que le contenu ROT et pourquoi faut-il s’en soucier ? Comment le débusquer et qu’en faire ensuite ? 

Le ROT est du contenu superflu associé à l’infrastructure (partages de fichiers, SharePoint, etc.). Il s’agit de contenu inutile et qui peut être supprimé, mais de manière justifiée légalement. Voir aussi la définition de l’AIIM (Association for Information and Image Management) ici (http://community.aiim.org/blogs/kevin-parker/2016/05/05/defining-information-rot).

Qu’est-ce qui est ROT et qu’est-ce qui ne l’est pas ?

La définition de ce qui est et n’est pas du contenu ROT peut varier selon l’entreprise, mais pour faire court, ce contenu peut être défini comme suit :

  • Tout contenu réactif à un litige ou un processus d’e-discovery « Legal eDiscovery » (ESI) n’est pas du contenu ROT (par définition)
  • Parmi ce qu’il reste, le ROT est le contenu inutile pour l’activité de l’entreprise et pour le respect de la conformité, le contenu qui n’a pas été consulté depuis longtemps ou encore qui est un doublon exact ou presque, etc.

Souvent, l’entreprise sous-estime le volume de ROT qu’elle stocke. Certaines entreprises figurant dans le classement Fortune des 500 premières entreprises mondiales rapportent que plus de 30% de leur contenu (en volume) est du contenu ROT.

Qui se soucie réellement du contenu ROT ?

On peut aussi se demander pourquoi se soucier du contenu ROT. Le stockage n’est-il pas bon marché ?

Mais trop de contenu ROT, c’est un peu comme avoir un indice de masse corporelle (IMC) important avec les risques et problèmes que cela entraîne pour la santé :

  • Ce contenu ROT augmente les coûts de stockage… le coût total du stockage peut représenter plusieurs milliers d’euros /To par an dont les coûts de gestion, de sauvegarde, d’infrastructure, de DR, etc.
  • Le contenu ROT stocké sur des systèmes devenus obsolètes peut entraîner des dépenses d’exploitation et de maintenance élevées (ressources, renouvellement de licences, maintenance, etc.), et peut aussi interférer avec les stratégies de mise hors service d’applications planifiées par l’équipe IT
  • Le contenu ROT peut entraîner des risques au niveau juridique ainsi que des coûts d’e-discovery (« Legal e-Discovery ») indésirables et potentiellement élevés
  • Le contenu ROT peut aussi comporter des risques pour la conformité à la réglementation, dont les informations protégées par le règlement général sur la protection des données (RGPD) de l’Union Européenne, règlement que nous évoquons déjà sur notre blog

L’équivalent pour le contenu ROT d’un régime associé à de l’exercice physique est le déploiement d’une stratégie de nettoyage ou d’assainissement du contenu ROT :

  • Définir une stratégie de remédiation du contenu ROT
  • Spécifier des politiques qui définissent les caractéristiques du ROT et les actions à mener pour y remédier après l’avoir découvert
  • Déployer des outils de « File Analysis » ou « File Analytics »  pour trouver le contenu ROT et appliquer ou aider à appliquer les actions spécifiées par les politiques 
  • Mettre le contenu ROT hors ligne
  • Le mettre en quarantaine pendant un certain temps
  • Le supprimer directement
  • Etc.

La nécessité d’un outil de File Analytics adapté pour gérer votre contenu ROT

Le composant technologique File Analysis doit être en mesure de fournir les fonctionnalités suivantes :

  • Connexion à des sources de contenu variées au sein de l’infrastructure [partages de fichiers, SharePoint, systèmes de gestion de contenus d’entreprise (ECM), etc.]
  • Indexation des métadonnées et du contenu
  • Application d’une analyse sur cet index : caractéristiques des métadonnées, entités nommées, classifications, champs sémantiques, etc.
  • Identification du futur contenu ROT d’après les paramètres de configuration des politiques
  • Exécution par les utilisateurs autorisés des actions recommandées par les politiques pour ce contenu
  • Génération d’un journal d’audit à valeur légale concernant ces activités

Le nettoyage du contenu ROT n’est pas une opération ponctuelle. L’analyse des fichiers (File Analysis) doit être configurée pour nettoyer l’infrastructure régulièrement et traiter le delta ROT récurrent.

N’oubliez pas …

Pour conclure, j’aimerais souligner deux points importants :

Lors de la découverte de nombreux doublons d’un même document, l’un d’entre eux peut être d’une importance toute particulière pour l’activité de l’entreprise et valoir son pesant d’or en raison de son emplacement, de la nature de son dépositaire ou encore de son statut d’archive gelée pour des raisons légales, etc. Cette copie précieuse (Copie d’or ou Golden copy en anglais) n’est donc bien entendu pas du contenu ROT, même s’il s’agit d’un doublon. L’outil File Analysis doit participer à l’identification et au traitement de ces copies de grande valeur.

Ce même outil doit également contribuer à l’identification du contenu IPI, PCI et PHI au sein des documents, un élément indispensable pour se conformer aux réglementations sur la confidentialité, par exemple le règlement RGPD qui fera l’objet d’un prochain article sur mon blog.

Peut-on sérieusement faire de la gouvernance de l’information avec les drives ?

La réponse est (presque) dans la question : non, il n’est pas possible de faire SÉRIEUSEMENT de la gouvernance de l’information avec les drives grand public. Et ce pour 7 raisons, qui sont autant de fonctionnalités que Google Drive, Microsoft OneDrive ou encore Dropbox ne sont pas en mesure d’offrir.

 

Non, parce que la gouvernance de l’information impose un tri dynamique dans les données

Dans toute entreprise, des données sont créées en continu. En se contentant de passer par un Drive, on stocke toute cette data sans aucune différenciation. Or, faire de la gouvernance de l’information, c’est appréhender ces flux de manière intelligente, selon la nature des données (factures, plans stratégiques, rapports…), le support (papier ou électronique) de celles-ci, ou encore leur valeur (confidentialité, engagement, patrimoine…). C’est également avoir conscience que toutes les informations ne sont pas utiles, que certaines peuvent être supprimées alors que d’autres doivent être protégées.

 

Non, parce que les drives sont limités en interopérabilité

Les drives présentent un défaut majeur : ils “enferment” les entreprises dans un outil, et limitent les possibilités de réversibilité et les migrations massives. Or, la gouvernance de l’information implique une réelle souplesse dans l’archivage des données. Que les drives ne peuvent par conséquent pas offrir.

 

Non, parce que la gouvernance de l’information repose sur une prise en compte de toutes les sources d’information

La gouvernance de l’information implique de prendre en compte diverses sources de données : les différentes solutions de l’entreprise, les anciens systèmes de fichiers, les différents espaces disques… Il faut donc pouvoir chercher les fichiers là où ils sont stockés, de manière transversale. Or, les drives ne peuvent prendre en compte l’information dans tous les espaces où elle se trouve. Limitant, de fait, leur efficacité.

 

Non, parce que les drives ne permettent pas de maîtriser les coûts

Les données s’ajoutant aux données, sans tri intelligent et sans suppression, les besoins en stockage grandissent chaque jour. Entraînant une réelle augmentation des coûts pour les entreprises. Or, faire de la gouvernance de l’information, ce n’est pas empiler les données : c’est en maîtriser le volume pour réduire le budget à consacrer à l’archivage !

 

Non, parce que la gouvernance de l’information impose une véritable sécurisation de l’information

La valeur des données peut changer avec le temps : une information insignifiante hier peut aujourd’hui être incontournable, alors qu’un document référence aujourd’hui peut devenir obsolète. Faire de la gouvernance de l’information efficacement, c’est donc prendre en compte la valeur des données en temps réel et les sécuriser complètement, via un cryptage et un contrôle d’accès réellement efficacement. Autant d’impératifs que les drives ne peuvent véritablement assurer.

 

Non, parce que les drives ne font “que” du stockage de données

Les solutions de gouvernance de l’information dépassent le simple stockage des données. Elles permettent :

– D’analyser et de nettoyer les file sharing ;

– De repérer les documents les plus engageants et de donner du sens aux informations, via le Machine Learning ;

– De réduire les délais et coûts de migration ;

– De respecter les obligations de conservation et/ou de destruction ;

– De maîtriser le capital informationnel…

Bref, faire de la gouvernance de l’information, c’est aller plus loin que l’archivage. C’est apporter une valeur ajoutée aux données exploitées !

 

Non, parce que la gouvernance de l’information repose sur la proactivité

Le capital informationnel de l’entreprise peut constituer un avantage compétitif… à condition que les données soient actualisées et pondérées en fonction de leur valeur et de leurs usages. Ainsi, une gouvernance de l’information s’appuyant sur des outils plus avancés que les drives permettra d’être plus réactif face aux évolutions du marché !

 

Les drives classiques constituent une bonne option pour stocker des fichiers et les partager. Or, ils ne permettent pas d’aller plus loin et de faire de la gouvernance de l’information !