Le Big Data, pour un archivage nouvelle génération !

L’archivage numérique avait, à la base, pour simple mission de préserver les données. Depuis quelques années, et en particulier depuis l’irruption du Big Data dans nos quotidiens, il permet d’en faire plus, de donner une toute autre valeur au capital informationnel, et de gagner en efficacité. Le tout, en restant compatible avec le RGPD. Décryptage, en compagnie d’Éric Detang, responsable commercial chez Viveris Systèmes, un groupe de conseil et d’ingénierie informatique et partenaire intégrateur d’Everteam depuis de nombreuses années. 

Une nouvelle impulsion pour l’archivage avec le Big Data

L’archivage numérique existait avant le Big Data. Cette « révolution des données » a cependant permis de lui apporter de nouvelles fonctionnalités, estime le responsable commercial de Viveris Systèmes, Éric Detang : « Avant, l’archivage, on le faisait surtout pour répondre à des obligations de conservation, rappelle-t-il. La question de la mise à disposition du capital informationnel ne se posait pas vraiment. Un premier cap a été franchi avec les archives électroniques, mais celles-ci n’ont vraiment pu monter en puissance qu’une fois que l’on a parlé, compris et exploité le phénomène du Big Data. Il a ainsi offert une praticité inédite à l’archivage. Il permet par exemple de faire des recherches sur les métadonnées associées aux fichiers, de lancer une classification en activant ou en désactivant des facettes, de retrouver plus vite les données et l’information, de générer automatiquement les classifications les plus pertinentes… Bref, grâce au Big Data, on navigue sans requêtes complexes. Ce qui constitue un gain de temps et d’efficacité pour les entreprises. »

Un archivage numérique devenu modulaire

L’autre apport du Big Data à l’archivage numérique se trouve dans la souplesse des solutions existantes. « Avec le Big Data, l’archivage numérique devient « à la demande ». Certes, on s’appuie sur un socle unique, mais on peut ajouter des modules que l’on décide d’exploiter ou non, selon ses besoins et/ou son budget. On est bien loin des solutions d’archivage initiales, qui se concentraient sur 3 ou 4 critères primordiaux mais ne permettaient que peu de personnalisation, et se retrouvaient assez lourdes à l’usage. »

Un exemple concret des apports du Big Data dans l’archivage numérique ? « Un service d’expertise comptable dans un grand groupe d’assurance a déployé une solution d’archivage, tirant profit du Big Data. Elle lui permet d’exploiter l’ensemble des documents créés ou générés depuis plusieurs années, tant que ceux-ci doivent être légalement conservés. Ainsi, les comptables de cette entreprise peuvent très rapidement retrouver une ligne précise dans un bilan datant de plusieurs années, pour répondre à une injonction légale notamment. Il est aussi possible de présenter un extrait du grand livre des comptes où se trouve cette ligne. C’est un gage de confiance pour l’administration et pour les responsables, qui savent qu’en cas de demande particulière, ils pourront y répondre très vite. »

Le Big Data, l’allié du RGPD dans l’archivage numérique

Indexation rapide des documents, possibilité de retrouver une information très vite (et donc d’agir sur cette information), capacité renforcée à répondre aux contraintes d’audit… vous y voyez une réponse aux impératifs du RGPD ? Vous avez raison ! Avec le RGPD, les entreprises et institutions se doivent d’être en mesure d’accéder rapidement aux données personnelles des consommateurs et des particuliers, afin que ceux-ci exercent facilement l’ensemble de leurs nouveaux droits :

  • L’effacement des données ;
  • La correction d’informations erronées ou datées ;
  • La limitation de l’usage ;
  • L’anonymisation des informations…

Le Big Data constitue un apport réel s’agissant de l’archivage numérique. Vous souhaitez en savoir plus ? Contactez les équipes d’Everteam !

Assainissement des File Systems : que devons-nous faire des archives métier ?

Dans mon article précédentje traitais du contenu ROT (contenu Redondant, Obsolète et Trivial) et j’expliquais de quoi il s’agit et pourquoi il est important d’y remédier (suppression, déplacement hors ligne, mise en quarantaine, etc.). Outre le contenu ROT, l’autre catégorie de contenu majeure à traiter concerne les archives métier. Il s’agit de contenu définis et spécifiés dans ISO 15489, ARMA, DoD 5015.2, NARA, etc. C’est ainsi que la norme ISO 15489 définit les archives métier, ou archives pour faire court, comme des « informations créées, reçues et conservées en tant que preuves et informations par une entreprise ou par une personne dans le cadre des obligations légales ou d’une transaction commerciale ».

business records / archives métier

Les archives métier doivent tout d’abord être identifiées en tant que telles, par exemple, un actif informationnel peut devenir une archive suite à sa publication comme version majeure, cet actif peut devenir une archive lorsque le processus métier impliqué atteint un certain statut, par exemple la signature d’un contrat ou la réalisation d’une mission, …

L’archive métier doit alors être classifiée :

  • Elle doit être associée à une série d’archives (ou classe d’archives) telle que définie dans le référentiel de conservation des archives de l’entreprise
  • Cette association identifie la nature métier de l’archive (exemple : un contrat)
  • Cette association permet aussi de déterminer le cycle de vie et le sort final à appliquer à l’archive
  • Les technologies d’auto classification peuvent faciliter l’automatisation de cette association. Cependant, la précision et, par conséquent, le taux de réussite de l’auto classification dépendra beaucoup du niveau de granularité du référentiel de conservation
  • Les stratégies « Big Bucket » planifiées (moins de 100 entrées par exemple) donnent de meilleurs résultats car le moteur d’auto classification ne doit faire la différence qu’entre un faible nombre de « buckets » (strates) bien distincts.

L’archive métier doit ensuite être soumise à un système d’archivage :

  • L’archive est rendue immuable
  • Son cycle de vie est géré (événement, durée, gel, etc.)
  • À l’issue de son cycle de vie, un sort final sera appliqué à l’archive selon les besoins, cette opération peut par exemple entraîner sa destruction  ou son transfert vers un autre système ou une autre entité

Sans le recours aux outils de File Analysis, les premières tâches d’identification et de classification seront réalisées manuellement, c’est-à-dire en mettant les utilisateurs finaux à contribution. Cependant, l’expérience a prouvé au cours de ces deux dernières décennies que les utilisateurs finaux détestent, et c’est peu dire, ces tâches. Il faut dire que ces derniers ne bénéficient pas de suffisamment de temps et de formation pour les réaliser.

Ceci a d’ailleurs été une source de tensions et l’une des principales raisons pour lesquelles de nombreuses initiatives de Records Management échouent.

Renforcer les compétences des responsables chargés des archives, améliorer leur capacité à communiquer avec l’équipe IT et consolider la formation des utilisateurs finaux peut contribuer à améliorer la situation. Cependant, ces mesures ne permettent pas de résoudre les problèmes de fond :

  • Souvent, les utilisateurs finaux n’aiment pas classifier les archives
  • Le volume d’archives croît de plus en plus et exige au de la de plus d’expertise en records management d’être accompagné par des technologies à forte valeur ajoutée des ressources de RM supplémentaires. Cependant, les ressources de RM sont réduites en raison d’un manque d’appréciation de leur valeur ajoutée

Les responsables chargés des archives doivent commencer à réfléchir autrement. Ils DOIVENT se mettre en quête de solutions qui soustraient davantage les utilisateurs finaux des contraintes liées à l’identification et à la classification des archives. Ces solutions devront intégrer des composants de File Analysis qui contribueront à automatiser et à simplifier le travail des records managers et des utilisateurs finaux.

Si ce sujet vous intéresse, nous vous proposons un webinar le 14 décembre, qui abordera les enjeux liés à la gouvernance de l’information, au RGPD, et les solutions pour y répondre. Cliquez ici pour plus d’information et pour accéder au formulaire d’inscription 

Qu’est-ce-que le contenu ROT et que devons-nous en faire ?

Tout le monde a déjà entendu parler du contenu « ROT » (ROT contents), c’est-à-dire le contenu redondant, obsolète ou inutile (en anglais « ROT », Redundant, Obsolete, Trivial) soit du contenu sans réel intérêt stratégique. Vous avez peut-être déjà entendu dire que ce dernier devait être identifié et assaini. Mais qu’est-ce au juste que le contenu ROT et pourquoi faut-il s’en soucier ? Comment le débusquer et qu’en faire ensuite ? 

Le ROT est du contenu superflu associé à l’infrastructure (partages de fichiers, SharePoint, etc.). Il s’agit de contenu inutile et qui peut être supprimé, mais de manière justifiée légalement. Voir aussi la définition de l’AIIM (Association for Information and Image Management) ici (http://community.aiim.org/blogs/kevin-parker/2016/05/05/defining-information-rot).

Qu’est-ce qui est ROT et qu’est-ce qui ne l’est pas ?

La définition de ce qui est et n’est pas du contenu ROT peut varier selon l’entreprise, mais pour faire court, ce contenu peut être défini comme suit :

  • Tout contenu réactif à un litige ou un processus d’e-discovery « Legal eDiscovery » (ESI) n’est pas du contenu ROT (par définition)
  • Parmi ce qu’il reste, le ROT est le contenu inutile pour l’activité de l’entreprise et pour le respect de la conformité, le contenu qui n’a pas été consulté depuis longtemps ou encore qui est un doublon exact ou presque, etc.

Souvent, l’entreprise sous-estime le volume de ROT qu’elle stocke. Certaines entreprises figurant dans le classement Fortune des 500 premières entreprises mondiales rapportent que plus de 30% de leur contenu (en volume) est du contenu ROT.

Qui se soucie réellement du contenu ROT ?

On peut aussi se demander pourquoi se soucier du contenu ROT. Le stockage n’est-il pas bon marché ?

Mais trop de contenu ROT, c’est un peu comme avoir un indice de masse corporelle (IMC) important avec les risques et problèmes que cela entraîne pour la santé :

  • Ce contenu ROT augmente les coûts de stockage… le coût total du stockage peut représenter plusieurs milliers d’euros /To par an dont les coûts de gestion, de sauvegarde, d’infrastructure, de DR, etc.
  • Le contenu ROT stocké sur des systèmes devenus obsolètes peut entraîner des dépenses d’exploitation et de maintenance élevées (ressources, renouvellement de licences, maintenance, etc.), et peut aussi interférer avec les stratégies de mise hors service d’applications planifiées par l’équipe IT
  • Le contenu ROT peut entraîner des risques au niveau juridique ainsi que des coûts d’e-discovery (« Legal e-Discovery ») indésirables et potentiellement élevés
  • Le contenu ROT peut aussi comporter des risques pour la conformité à la réglementation, dont les informations protégées par le règlement général sur la protection des données (RGPD) de l’Union Européenne, règlement que nous évoquons déjà sur notre blog

L’équivalent pour le contenu ROT d’un régime associé à de l’exercice physique est le déploiement d’une stratégie de nettoyage ou d’assainissement du contenu ROT :

  • Définir une stratégie de remédiation du contenu ROT
  • Spécifier des politiques qui définissent les caractéristiques du ROT et les actions à mener pour y remédier après l’avoir découvert
  • Déployer des outils de « File Analysis » ou « File Analytics »  pour trouver le contenu ROT et appliquer ou aider à appliquer les actions spécifiées par les politiques 
  • Mettre le contenu ROT hors ligne
  • Le mettre en quarantaine pendant un certain temps
  • Le supprimer directement
  • Etc.

La nécessité d’un outil de File Analytics adapté pour gérer votre contenu ROT

Le composant technologique File Analysis doit être en mesure de fournir les fonctionnalités suivantes :

  • Connexion à des sources de contenu variées au sein de l’infrastructure [partages de fichiers, SharePoint, systèmes de gestion de contenus d’entreprise (ECM), etc.]
  • Indexation des métadonnées et du contenu
  • Application d’une analyse sur cet index : caractéristiques des métadonnées, entités nommées, classifications, champs sémantiques, etc.
  • Identification du futur contenu ROT d’après les paramètres de configuration des politiques
  • Exécution par les utilisateurs autorisés des actions recommandées par les politiques pour ce contenu
  • Génération d’un journal d’audit à valeur légale concernant ces activités

Le nettoyage du contenu ROT n’est pas une opération ponctuelle. L’analyse des fichiers (File Analysis) doit être configurée pour nettoyer l’infrastructure régulièrement et traiter le delta ROT récurrent.

N’oubliez pas …

Pour conclure, j’aimerais souligner deux points importants :

Lors de la découverte de nombreux doublons d’un même document, l’un d’entre eux peut être d’une importance toute particulière pour l’activité de l’entreprise et valoir son pesant d’or en raison de son emplacement, de la nature de son dépositaire ou encore de son statut d’archive gelée pour des raisons légales, etc. Cette copie précieuse (Copie d’or ou Golden copy en anglais) n’est donc bien entendu pas du contenu ROT, même s’il s’agit d’un doublon. L’outil File Analysis doit participer à l’identification et au traitement de ces copies de grande valeur.

Ce même outil doit également contribuer à l’identification du contenu IPI, PCI et PHI au sein des documents, un élément indispensable pour se conformer aux réglementations sur la confidentialité, par exemple le règlement RGPD qui fera l’objet d’un prochain article sur mon blog.

Nettoyage des systèmes de partage de fichiers | Définir le processus d’exécution de nettoyage (Phase 2)

Dans de précédents articles, j’ai décrit une procédure que les entreprises peuvent suivre pour leurs projets d’assainissement ou de nettoyage de leurs systèmes de partage de fichiers (ou EFSS). Dans le présent article, je vais approfondir la phase 2 de ce processus, à savoir la définition du processus d’exécution de ce nettoyage.

File Remediation Process

Une fois les politiques de nettoyage définies (règles définissant les différentes classes d’actifs informationnels et les actions associées à chacune d’entre elles), l’étape suivante consiste à définir en détails le processus de nettoyage au niveau de son exécution :

Activité

Description

Remarques

Interroger et inventorier  les partages de fichiers Identifier et générer un inventaire des partages de fichiers au sein de l’entreprise Les fondements de la carte
Estimer les volumes de données Évaluer le volume de contenu stocké dans les différents partages de fichiers Estimation approximative ?
Identifier la nature métier du contenu Identifier la nature métier du contenu dans chaque partage de fichiers
Définir l’état final de chaque partage de fichiers Déterminer l’état final souhaité de chaque partage de fichiers (ou groupe de partages) :

  • Passer en mode hors ligne
  • Mettre hors service
  • Continuer d’utiliser pour le contenu propriétaire
  • Limiter l’utilisation au seul nouveau contenu
Tenir compte de la stratégie globale de l’entreprise en matière de transformation numérique et d’informatique
Définir un processus de nettoyage en mode batch Définir un processus d’exécution du nettoyage en mode batch :

  • Définir des batches distincts
  • Définir des groupes de batches
  • Définir une procédure de traitement des exceptions
Dimensionner la solution File Analytics pour le travail de nettoyage requis Dimensionner la solution File Analytics selon le travail de nettoyage des partages de fichiers

Évaluer les besoins d’infrastructure pour la solution et dimensionner cette infrastructure :

  • Serveurs
  • Base de données
  • Journal d’audit
  • Tableau de bord
Hiérarchiser le traitement des batches Hiérarchiser le traitement des batches et groupes de batches :

  • Considérations budgétaires
  • Considérations en matière de risques (matrice des risques)
  • Considérations légales
  • Considérations de valeur
  • Considérations chronologiques et de délais
  • Considérations liées à des événements contraignants
Exemple : partages de fichiers abandonnés pour des projets terminés ou partages de fichiers d’employés ayant quitté l’entreprise.
Définir le traitement des exceptions Définir ce qui constitue une exception aux règles de traitement ainsi que le mode de traitement de ces exceptions :

  • Appliquer une politique/règle fiable
  • Déplacer vers une autre piste pour traitement manuel
Exemple : élément de métadonnées manquant mais indispensable pour classifier une archive
Définir la supervision et le reporting Définir l’infrastructure de supervision et de reporting :

  • Identifier le destinataire du rapport Tableau de bord ?
  • Quelles informations inclure dans le rapport ?
  • À qui envoyer des notifications et quels sont les seuils ?
Définir un modèle RACI Définir un modèle RACI pour les tâches de nettoyage à exécuter. RACI = Responsable, ComptAble, Consulté, Informé
Obtenir les approbations internes Obtenir les approbations internes nécessaires pour les politiques et le lancement des tâches de nettoyage :

  • BOD (selon les cas)
  • Juridique
  • Métier
  • IT
  • Risques

Comme indiqué dans l’article précédent, gérer des informations ESI (Electronically Stored Information du Legal eDiscovery) ne fait pas forcément partie du processus d’assainissement ou de nettoyage des systèmes de partage de fichiers. CEPENDANT, il s’agit d’une étape qui DOIT précéder toute tâche effective d’exécution du nettoyage.

Dans mon prochain article, j’explorerai la définition du contenu ROT et les problèmes associés.

Suivez tous nos articles autour du thème File Analytics, incluant notamment N’attendez plus, votre Capital Informationnel doit être maîtrisé ! , 4 étapes pour le nettoyage de vos systèmes de partage de fichiers ,

 

Nettoyage des systèmes de partage de fichiers | Définir les politiques et règles de nettoyage (Phase 1)

Dans mon article précédent, je proposais une méthodologie que les entreprises peuvent suivre pour leurs projets de nettoyage / assainissement de leurs systèmes de partages de fichiers (EFSS – Entreprise file sync-and-share). Cette méthodologie n’a rien de révolutionnaire et je proposais simplement une procédure logique faisant appel au bon sens. Et pourtant, trop nombreux sont les clients qui ne savent pas comment faire, par où s’y prendre et quels outils utiliser.

Dans le présent article, j’approfondis donc la phase 1 de ce processus, à savoir la définition des politiques et des règles de nettoyage.

Pour commencer, l’entreprise toute entière doit avoir conscience que son capital informationnel est réparti dans au moins quatre classes générales, à savoir les archives métier, le contenu métier, le contenu ROT et les informations ESI (voir les définitions ci-dessous).

Ensuite, il est important de définir les politiques et règles pour les caractéristiques des actifs informationnels relevant de chacune de ces classes ainsi que les actions à réaliser sur ces mêmes actifs :

Classe d’actifs
informationnels
Définition Actions
Archives métier Ce sont les « Business Records ». À quel moment un actif informationnel devient-il une archive métier ?

  • D’après son emplacement
  • D’après un processus métier
  • D’après un numéro de version
  • D’après une identification manuelle par un utilisateur
  • Identifier les exigences en matière de pré-approbation
  • La déclarer en tant qu’archive dans un système de Records Management (RM) et la classer selon le référentiel de gestion des archives de l’entreprise
  • La faire migrer vers un référentiel système de RM pour y gérer le cycle de vie (avec immutabilité)
  • Idem, mais copier vers un système de RM pour y gérer le cycle de vie des copies
  • La maintenir à sa place et gérer son cycle de vie au sein du système de RM (pas d’immutabilité)
Contenu métier Généralement défini par ce qui reste APRÈS identification des archives métier, du contenu redondant, obsolète et trivial (ROT) et des informations stockées sur des supports électroniques (ESI)

Certaines entreprises définissent parfois des sous-classes de contenu métier

  • Identifier les exigences en matière de pré-approbation
  • Laisser en place
  • Le faire migrer vers un nouveau référentiel : SharePoint, système EFSS dans le Cloud, etc.
  • Surveiller son statut  car pourra se transformer en archive métier ou en contenu ROT
Contenu ROT Redondant : informations dupliquées stockées dans plusieurs endroits

Obsolète : informations « qui ne sont plus largement utilisées » ou bien « supprimées », « remplacées » ou « désuètes »

Trivial : informations n’offrant que très peu de valeur, le contenu ne correspondant pas à la définition d’une archive, d’une connaissance de l’entreprise, d’une information métier utile  ou de tout autre catégorie ayant de la valeur

D’après les définitions de l’AIIM (Association for Information and Image Management).

  • Identifier les exigences en matière de pré-approbation
  • Le supprimer
  • Le déplacer dans l’espace de quarantaine pour suppression ultérieure
ESI (Electronically Stored Information) Capital informationnel appartenant à l’une des classes ci-dessus mais réactif à un litige actif ou à venir (processus d’e-découverte ou « Legal eDiscovery » typique)
  • Identifier les exigences en matière de pré-approbation
  • Identifier, Collecter, Préserver (EDRM.net)
  • Mettre en attente

 

Remarque importante : gérer des informations ESI ne fait pas forcément partie du processus de nettoyage des partages de fichiers. CEPENDANT, gérer les informations ESI est une étape qui DOIT précéder toute tâche effective d’exécution du nettoyage.

Dans mon prochain article, j’explorerai la phase 2 de la méthodologie de nettoyage des systèmes de partage de fichiers, à savoir la définition du processus d’exécution du nettoyage. Pour conclure, j’aimerais rappeler que l’outil de nettoyage des partages de fichiers et d’analyse des fichiers (File Analytics) utilisé s’inscrira très certainement dans les efforts que fera l’entreprise pour se conformer au nouveau règlement européen sur la protection des données ou RGPD, qui entrera en vigueur en mai 2018.

Suivez tous nos articles autour du thème File Analytics, incluant notamment N’attendez plus, votre Capital Informationnel doit être maîtrisé ! et 4 étapes pour le nettoyage de vos systèmes de partage de fichiers.

 

B.A.-BA : le Machine Learning

Précieuses pour mettre en place une politique de gouvernance de l’information, les technologies de Machine Learning sont de plus en plus présentes dans notre quotidien. Il faut dire que la numérisation de celui-ci est une tendance de fond, qui n’est pas près de ralentir ! Il est donc temps de faire le point. Qu’est-ce que le Machine Learning ? Comment est-ce que ça fonctionne ? Que peut-on en attendre ? Où en est cet « art numérique », donnant à l’intelligence artificielle une toute nouvelle dimension ? Voyons cela ensemble, en cinq questions/réponses !

Machine Learning, qu’est-ce que c’est ?

Le Machine Learning, ou apprentissage statistique dans notre langue, est une composante essentielle de l’Intelligence Artificielle. Cette appellation regroupe l’ensemble des technologies qui confèrent aux ordinateurs et aux logiciels la capacité d’apprendre par eux-mêmes, sans avoir besoin d’une intervention humaine via une programmation spécifique, de s’améliorer seuls et d’évoluer. Pour cela, le fonctionnement du Machine Learning va s’approcher de celui du Data Mining : une recherche de schémas récurrents dans les données à disposition va être effectuée, permettant d’en déduire un comportement à adopter, un ajustement du fonctionnement à opérer, ou une action à effectuer.

L’exemple le plus célèbre de Machine Learning dans la vie de tous les jours ? Le fil d’actualité de Facebook. Lorsque l’on interagit régulièrement avec un autre utilisateur (like des publications, commentaires, partages…), l’algorithme du réseau social le « voit » et adapte le newsfeed en conséquence. Il montrera alors plus souvent sur la page d’accueil les actualités de cet ami, au détriment de celles des personnes avec lesquelles les interactions sont plus réduites.

Le concept de Machine Learning peut sembler récent, et pourtant, il est théorisé dès 1959, par l’informaticien Arthur Samuel, qui le décrit comme « le champ d’étude qui donne aux ordinateurs la capacité d’apprendre sans être explicitement programmés à apprendre ». Ce n’est donc pas depuis hier que nous cherchons à confier aux algorithmes la capacité de faire évoluer les ordinateurs de manière autonome, en fonction des données dont il dispose !

Comment fonctionnent les algorithmes du Machine Learning ?

Les algorithmes du Machine Learning ont un fonctionnement assez proche du cerveau humain — certains parlent même d’approche neuronale. Ils apprennent par entraînement : à partir de données connues, il va faire des prédictions, puis comparer ses prédictions avec des résultats concrets. Plus il a l’occasion d’effectuer cette comparaison, mieux il arrive à « deviner » et à optimiser ses prédictions. De même, plus il a de données à disposition, plus vite il s’entraîne et est efficace !

Il existe ainsi de nombreux modèles d’algorithme en Machine Learning :

– Le Random Forest, qui repose sur de nombreux arbres de décision pour parvenir à une prédiction ;

– Les machines à vecteurs, qui classent des exemples pour créer des modèles et enrichir les données ;

– Les réseaux bayésiens, qui utilisent les probabilités pour analyser les données et créer des relations entre elles ;

– Le clustering, qui regroupe des sous-ensembles de documents par similarité…

Où en est-on de l’adoption des technologies de Machine Learning ?

Le Machine Learning se développe ces dernières années dans le monde professionnel grâce à un allié logique : le Big Data. En effet, quoi de plus normal que de voir l’apprentissage automatique gagner en efficacité par l’apport massif d’exemples et de données ? Résultat, les prédictions du Machine Learning s’améliorent, « touchent » de plus en plus de domaines, et font gagner un temps précieux aux utilisateurs. À condition, bien sûr, de trouver le juste équilibre entre une quantité d’exemples suffisante, et un temps de calcul raisonnable — la volumétrie des masses de données ne faisant qu’augmenter avec les technologies modernes.

Et demain, qu’attendre du Machine Learning ?

Aujourd’hui, le Machine Learning s’appuie sur des exemples, donc des données (décisions, actions…) déjà existantes. Nombre de spécialistes estiment que son futur s’appuiera sur des interactions avec l’environnement qui produit les données, c’est-à-dire sur des trajectoires, sur des phénomènes dynamiques et sur des interactions complexes. Le tout avec une meilleure compréhension du langage naturel (via les technologies de NLP, Natural Language Processing), pour une meilleure efficacité encore dans l’apprentissage dynamique !

Que peut apporter le Machine Learning à la gouvernance de l’information ?

Le Machine Learning constitue un allié précieux de la gouvernance de l’information. Ses technologies permettent en effet de mieux analyser, indexer, catégoriser et extraire les données. Il peut par exemple s’agir de repérer les fichiers les plus engageants, de donner du sens aux informations, de procéder à un nettoyage intelligent des doublons et fichiers obsolètes…

Plein de promesses à ses débuts, le Machine Learning s’enrichit de jour en jour de nouvelles fonctionnalités. À surveiller de près donc, y compris en matière de gouvernance de l’information !

 

 

N’attendez plus, votre Capital Informationnel doit être maîtrisé !

La vie était plus simple à l’époque. La grande majorité du contenu de l’entreprise était au format papier. Nous savions “plus ou moins” ce que nous avions à notre disposition (c’est à dire pas grand chose). Nous savions aussi où se trouvait le contenu … Un dossier quelque part sur le bureau de quelqu’un, dans un placard, ou bien dans la salle des archives sur-site ou hors-site.

Le processus de digitalisation de l’entreprise au cours des deux dernières décennies a amené d’importants bénéfices aux organisations. Les outils utilisés à cet égard (CRM, ERP, MS-Office, workflow, systèmes de GED, messagerie électronique, réseaux sociaux, etc.) ont abouti à une explosion incontrôlable des volumes de contenus de l’entreprise (pour ne pas mentionner d’autres termes associés au Big Data et commençant par la lettre « v » comme variété, vitesse, véracité, valeur, etc.) :

  • Le contenu (électronique) est dispersé au travers de nombreux systèmes, emplacements physiques, plateformes et juridictions.
  • Parfois, le contenu est stocké de telle manière que son propriétaire, et la personne qui le manipule tout au long de son cycle de vie, ne sont pas clairement identifiés.

Prenons par exemple le contenu stocké dans un serveur de partage de fichiers ayant été affecté à un projet ou à un employé. Qu’adviendrait-il de ce contenu lorsque le projet sera terminé ou lorsque l’employé partira de l’entreprise ? Qui deviendrait le nouveau propriétaire de ce contenu ? Qui assurerait son contrôle ? Et par dessus tout, qui dans l’organisation, disposera de la connaissance relative aux informations clés détenues dans ce contenu ?

Pendant longtemps, les responsables (métier, IT, juridique, opérationnel, etc) n’ont pas suffisamment pris en compte la nécessité d’assurer la maîtrise du contenu qu’ils avaient à leur disposition. Non seulement concernant l’emplacement du contenu dans l’entreprise, l’information qu’il détient, ainsi que le coût lié à sa conservation et à son cycle de vie (peut-on le supprimer légalement et sans risque ?).

Avec la transformation fondamentale des business models (Saas …) et les changements radicaux inhérents aux infrastructures IT (migration vers le cloud), un sentiment d’urgence grandissant s’est développé quant au besoin de disposer d’une vision globale sur le patrimoine informationnel de l’entreprise (Information Asset) :

  • Les métiers veulent accéder à l’information pour améliorer leurs processus, en extraire le maximum de valeur et améliorer leur efficacité.
  • L’IT souhaite se débarrasser du contenu indésirable (information obsolète, doublons, etc.) pour décommissionner les anciennes applications et le stockage redondant, tout en réduisant les coûts opérationnels.
  • Le département juridique veut minimiser les risques, optimiser sa capacité à répondre aux litiges et réduire les frais juridiques.

Un jour, Dr. Peter Drucker a dit : “l’information est une donnée dotée de pertinence et d’un but” (Harvard Business Review 1988). Les termes “pertinence” et “but” portent sur une notion de marché émergente qui soutient que l’information d’une entreprise est son Capital Informationnel contribuant à son bien-être, à sa valorisation et à sa performance. Par conséquent, ce capital nécessite d’être maîtrisé (géré et pris en charge correctement).

La problématique de maîtrise du patrimoine informationnel de l’entreprise est belle et bien réelle et il est impossible de la contourner.

Les entreprises doivent donc prendre les mesures nécessaires pour :

  • Établir des stratégies de gouvernance de l’information au sein de leur organisation.
  • Mettre en place des programmes de gouvernance pour exécuter ces stratégies.
  • Mettre en oeuvre des solutions technologiques pour assister à l’exécution de ces programmes et résoudre des problèmes spécifiques à la gouvernance de l’information auxquels font face de nombreuses organisations.

Dans mon prochain article, j’aborderai un cas d’usage relatif aux solutions de File Analytics (IG) appliquées au contenu présent dans les serveurs de partage de fichiers :

  • Une quantité significative du contenu de l’entreprise (peut être > à 40%) est dispersée à travers les différents serveurs de partage de fichiers qui ne sont pas contrôlés et mal gérés (coûts élevés, risques élevés, perte de valeur).
  • Les solutions de File Analytics peuvent aider les entreprises à réduire les risques, à établir et renforcer les politiques de gouvernance de l’information, et à optimiser l’infrastructure IT.

Les atouts de l’analytics pour exploiter l’information répartie en silos

Les atouts de l’analytics pour exploiter l’information répartie en silos

Les risques de l’organisation en silos de données

Au fil du temps, les entreprises ont amassé d’importants volumes de données au sein de différents systèmes et outils, créant des silos. Ce type d’organisation est également un moyen pour les entreprises de gérer l’accès partagé à l’information, et de contrôler cette dernière. Au cœur d’un fonctionnement en silo, on trouve la gestion du « document » avec ses deux niveaux d’informations complémentaires, solidaires et indissociables : le fichier, et ses métadonnées qui facilitent l’accès à l’information, servent au classement, protègent et authentifient le document, et permettent l’interopérabilité.

Mais la saisie de ces métadonnées est souvent vécue comme fastidieuse et complexe par les collaborateurs en interne. Les entreprises abandonnent donc cette procédure qui est pourtant essentielle dès lors qu’il s’agit de retrouver un document via les moteurs de recherche et d’organiser l’information. Dans cette situation, les documents sont uniquement indexés par fichier, ce qui conduit à une perte de contrôle sur l’information avec des risques majeurs pour l’entreprise et l’organisation :

  • la dilution de l’information à forte valeur ajoutée, le Digital Asset de l’Entreprise
  • l’augmentation des risques de non identification des documents engageants
  • le non respect des obligations réglementaires de conservation et de destruction des documents
  • la hausse continue des volumes stockés sur des supports onéreux et non adaptés

Et ce, même si l’éventail de solutions pour gérer ces silos de documents s’est élargi, y compris fonctionnellement avec FileSystem, SharePoint, Box.com, Google Drive, Alfresco, Everteam.Document,…).

La réponse analytics

Les technologies d’analytics permettent par nature de combiner les innovations nées du Big Data et du Machine Learning. En d’autres termes, il est possible d’analyser d’importants volumes de données grâce à la puissance d’analyse du contenu des fichiers – c’est-à-dire les informations non structurées – pour en dégager du sens – des métadonnées – automatiquement. L’analytique repose donc sur la recherche de données structurées et non structurées.

Les bénéfices que les entreprises peuvent tirer de tels outils analytics reconfigurent totalement l’exploitation de l’information, et ce à plusieurs niveaux : D’un point de vue opérationnel, les Divisions Métiers peuvent :

o Accéder rapidement à l’information pertinente, y compris dans des contextes multisources et multilingues

o Expurger les informations de ses doublons ou de ses documents obsolètes

o Identifier rapidement tous les documents engageants de l’entreprise

o Capitaliser efficacement sur le référentiel de conservation de l’entreprise

Les technologies analytics permettent également de contrôler un certain nombre de risques liés à l’indisponibilité ou à la péremption de l’information. Elles mettent donc la Direction Générale en capacité de répondre aux obligations réglementaires inhérentes à son métier et à son secteur d’activité. Et elles concourent à la bonne activité de l’entreprise en apportant un service efficace et performant aux clients internes, mieux à même de respecter les référentiels de leur métier.

Enfin, les Directions informatiques voient leur travail facilité et leurs coûts informatiques diminuer par la maîtrise des budgets de stockage et de sauvegarde, la réduction des charges et délais de migration d’un silo à l’autre et enfin, par la pérennisation des formats stockés.

Les défis du content analytics

Les défis du content analytics

Tandis que les progrès technologiques ont fait exploser la quantité de données recueillies à chaque instant, l’enjeu majeur pour toute entreprise est la gestion et l’optimisation de ces informations à grande échelle. C’est dans ce cadre que le content analytics (analyse de contenus) offre des approches puissantes. Elle ouvre l’espace à de nouvelles opportunités, notamment économiques, en termes d’analyse et d’exploitation des données.

Informatique décisionnelle (Business Intelligence) et Content Analytics

Piloter efficacement une organisation ou une entreprise nécessite de disposer d’informations pour identifier les problèmes, repérer les opportunités, anticiper les tendances, connaître les évolutions fines du marché, etc. L’informatique décisionnelle fournit une partie de ces informations, celle basée sur des données structurées.

Mais à l’intérieur et à l’extérieur de l’entreprise les volumes d’information explosent. Notamment sous la forme de contenus non-structurés et semi-structurés, c’est-à-dire des formulaires, des emails, des mémos, des avis clients, des commentaires prospects après tests, des réclamations, des posts sur les médias sociaux… Et c’est le Content analytics qui va permettre d’analyser et exploiter ces contenus non structurés.

Le Content analytics complète donc l’informatique décisionnelle pour mettre à disposition du décideur l’ensemble du contexte de l’activité.

Les réseaux sociaux : un nouveau type de contenu à gérer

Les interactions entre les individus sont en effet devenues une source majeure de données électroniques grâce à la tendance des utilisateurs à partager sur les réseaux sociaux. Ces millions d’interactions générées chaque jour laissent une trace numérique qui est publiée et stockée. Mais quelles que soient la quantité et la qualité des données accessibles à une entreprise, l’information n’a que peu de valeur sans un véritable traitement analytique. Pour exploiter et identifier la façon dont le contenu de ces interactions peut affecter l’entreprise, les outils analytiques entrent en action. Ils permettent de percevoir des schémas cachés, de nouvelles corrélations, des signes avant-coureurs à partir de la subtilité des mots contenus dans les données non structurées et des signaux faibles. Une solution technique d’analyse de contenus va permettre par exemple :

  • D’identifier les auteurs et sources des conversations ;
  • D’organiser les contenus selon le sujet abordé ;
  • D’associer un sentiment ou une opinion à un commentaire.

Objectif : comprendre les interactions sociales, les comportements, l’environnement et guider les décideurs dans leurs actions.

Les 4V du Big Data

L’objectif du Big Data est de traiter un gros volume d’informations pour détecter le plus rapidement possible les schémas et tendances qui échappent aux outils classiques de gestion de base de données.

Cette masse de données se caractérise par :

  • Son Volume bien sûr
  • Sa Variété : la diversité des données (non structurées, semi-structurées ou structurées, externes ou internes), les sources dont elles proviennent, (smartphones, capteurs, tablettes, médias sociaux, objets connectés, fichiers multimédia, textes non structurés etc.), leur diversité d’organisation et l’hétérogénéité des critères (métadonnées) les qualifiant.
  • Sa Vélocité car elles sont générées sur un temps court, ce qui nécessite de les collecter et analyser en temps réel, afin d’en tirer le maximum de valeur
  • Sa Valeur qui sera extraite de ce matériau brut qu’est la donnée collectée en analysant ces informations non structurées

Sources : Michael Stonebraker & Alex Popescu.

Volonté d’accroître la performance opérationnelle et la connaissance clients, nécessité de se conformer à un cadre réglementaire exigeant et d’appréhender les nouvelles configurations liées aux marchés mondialisés, ce sont toutes ces motivations et bien d’autres qui amènent les entreprises à se pencher sur les sujets Big Data & Analytics. Et tous les métiers de l’organisation sont impactés par ces enjeux  de transformation…