Aller au contenu

Intégrer les données structurées et non structurées : en sommes-nous déjà là ?

« D’ici 2022, 50% des organisations incluront des données non structurées, semi-structurées et structurées dans le même programme de gouvernance, contre moins de 10% aujourd’hui. » Gartner File Analysis Market Guide

Combien d’entreprises disposent de solutions distinctes pour gérer les données structurées (base de données, données transactionnelles) et non ou semi-structurées (documents, textes, vidéos, images, emails, médias sociaux, etc.) ? Après tout, il s’agit de types d’information très différents, et ils exigent donc des approches distinctes en matière de technologie et de gouvernance. Barb en a touché un mot lorsqu’elle a mentionné innovations en matière de gouvernance de l’information pour 2019  et je vais tenter aujourd’hui d’élaborer un peu ce sujet…

Et si cette exigence de séparation des données structurées et non structurées n’était plus vraiment nécessaire ? Et si nous fusionnons les stratégies et les technologies liées à la gouvernance des données structurées (Data Governance) et celles liées à la gouvernance des données non structurées (Information Governance)? Pouvons-nous examiner les deux types de données au sein d’un seul programme de gouvernance commun ?

Le fait est que nous le faisons déjà aujourd’hui. Considérez un objet Salesforce avec une facture jointe. Ou des enregistrements dans un système SAP connectés à certains fichiers. Ou une base de données NoSQL avec des champs texte. La plupart des données que nous devons gérer aujourd’hui sont de toute manière non ou semi-structurées et ceci même au sein des systèmes décrits comment “structurés”, alors pourquoi avoir des solutions de gouvernance distinctes pour gérer chacune d’entre elles ?

Rendre les données non structurées, structurées

« 80% des données sont non structurées. » Je suis sûr que vous avez déjà entendu cette statistique. Vous avez implémenté ou envisagez d’implémenter des solutions d’analyse de vos fichiers et de vos contenus pour vous aider à mieux gérer votre déluge informationnel. Dans vos efforts pour gérer vos données non structurées, saviez-vous que vous étiez, in fine, en train de structurer vos données non structurées ?

Les solutions d’analyse de fichiers et de contenu permettent d’analyser vos informations, de les enrichir et de les classer en leur attribuant des taxonomies et des métadonnées. Vous pouvez scanner vos informations à la recherche de données personnelles, d’expressions régulières, d’entités nommées, etc. afin précisément d’extraire un ensemble de métadonnées. Vos informations sont la plupart du temps sous forme de simple texte dans un document, une chaîne de caractères dans une base de données ou un tweet dans un réseau social. En étiquetant manuellement ou en extrayant automatiquement un ensemble de métadonnées  qualificatives et contextuelles à votre information, vous fournissez en fait de la structure à votre contenu non structuré.

Une fois que vous avez extrait ces métadonnées, vous pouvez alors les associer et les relier avec d’autres sources de données structurées. Il est donc logique que vous souhaitiez une solution d’analyse de fichiers qui puisse analyser des données structurées et non structurées en même temps, n’est-ce pas ?

Bien sûr, en raison des exigences de conformité et de sécurité, vous ne pouvez pas simplement fusionner toutes vos données et les fournir à tous les employés de l’entreprise dans un grand réservoir de données ; il vous faut gouverner ces données au préalable.

La fédération de données est votre nouveau référentiel de contenu

Il n’y a pas si longtemps, nous parlions encore de transférer l’ensemble des contenus d’entreprise au sein d’un seul référentiel, que ce dernier se nomme Documentum, FileNet ou un tout autre système.

Mais l’idée de transférer l’ensemble de votre corpus informationnel au sein d’un seul système n’est jamais devenu une réalité. La multiplication des systèmes, sur site ou dans le cloud, s’est au contraire accélérée ces dernières années. ll s’agit donc désormais de fédérer et de gouverner « sur place » vos données là où elles se trouvent.  

Vous avez des données dans vos systèmes ERP et CRM, du contenu dans vos disques réseaux partagés, au sein de vos sites SharePoint ou Office365, ainsi que dans vos nombreuses autres applications et référentiels de contenus. Et ces données sont bien là où elles se trouvent. Mais en même temps, vous devez vous assurer qu’elles sont gérées conformément aux cycles de vie réglementaires et autres politiques informationnelles que vous avez mis ou souhaitez mettre en oeuvre.

Vous ne voulez ainsi pas avoir affaire à des solutions distinctes pour gérer tantôt des données structurées, tantôt des contenus non structurées. Vous avez besoin d’une solution qui peut vous aider à examiner vos données dans leur ensemble et à les gouverner indistinctement de manière adéquate.


Un autre critère à conserver à l’esprit. Le RGPD, le CCPA (California Consumer Privacy Act) et les nouvelles réglementations à venir en matière de gestion des données personnelles ne font pas de distinction entre les données structurées et les contenus non structurés. Quelle qu’en soit la forme, vous devez être en mesure de gérer vos données personnelles, où qu’elles se trouvent, afin de  traiter les requêtes des ayant droits comme les demandes d’information ou leur droit à l’oubli.

Supprimer la frontière entre Gouvernance des Données et Gouvernance de l’Information

Nous distinguons souvent la gouvernance des données de la gouvernance de l’information. Mais les limites tendent de plus en plus à s’estomper entre les deux notions. Souvent, il s’agit désormais plutôt de savoir à quelle audience nous nous adressons plutôt que de savoir quel est le bon terme à utiliser. Ainsi, si vous parlez à la DSI, vous parlez le plus souvent de gouvernance des données, et si vous parlez aux lignes métier ou au management, vous appelez cela de la gouvernance de l’information.

En fin de compte, nous parlons tous de la même chose : fournir les capacités nécessaires pour se connecter à différents référentiels de données et de contenu, inventorier et analyser les données qu’ils contiennent, trouver comment les organiser, les enrichir et les classer, se débarrasser si nécessaire des données devenues obsolètes , et gérer les informations utiles conformément à vos politiques de conformité.

Les catalogues de données (Data Catalog en anglais) existent aujourd’hui pour gérer un inventaire de vos données structurées et les solutions d’analyse de fichiers pour fournir un catalogue de vos données non structurées. Existe-t-il une demande pour un inventaire unique des  actifs informationnels de votre organisation?

Dans le monde de la gestion documentaire et de l’archivistique traditionnel, la gestion des topologies informationnelles, des métadonnées et leurs règles de conservation, protection ou destruction, existent depuis des décennies. En les couplant avec des catalogues de données structurées et en y intégrant non seulement le périmètre traditionnellement lié aux documents engageants mais étendu à l’ensemble des informations de l’entreprise, nous obtenons alors un vrai inventaire de l’ensemble des actifs informationnels d’une organisation.

Fort de ce constat Everteam a déjà introduit dans sa feuille de route un ensemble d’évolution concernant sa suite de gouvernance de l’information (composée de everteam.discover, everteam.policy, et everteam.archive). La mise à disposition d’un connecteur de base de données structurées au sein de l’application everteam.discover principalement utilisé  pour le décommissionnement d’applications en est la première étape et démontre que l’on peut analyser des données structurées et non structurées côte à côte. Il reste encore du chemin pour réaliser l’ensemble de cette convergence attendue à l’orée des prochaines années mais nous sommes enthousiastes à l’idée de pouvoir toujours aller plus loin afin d’innover et de créer les solutions de gouvernance dont vous avez le besoin. Si vous souhaitez en savoir plus sur nos produits et notre feuille de route, n’hésitez pas à nous envoyer un message.