Analytics & Big Data, Gouvernance de l'Information

Tech Tuesday : Premiers pas avec la classification

Web Master

16 avril 2019

L’un des éléments les plus importants d’un programme de gouvernance des informations est la bonne classification de vos données. Il est essentiel de disposer d’un plan de classification central et formel, en particulier lorsque la majeure partie des informations (structurées et non structurées) est utilisée par différents services et équipes dans toute l’organisation. Si les données sont l’essence de votre organisation, un bon plan de classification vous garantit que chacun pourra trouver et utiliser les données dont il a besoin pour travailler au quotidien. Cela signifie aussi que vous devez disposer d’une stratégie éprouvée afin de gérer correctement ces données.

Les avantages de la classification

Imaginez devoir trouver un document parmi des milliers de documents répartis sur plusieurs partages de fichiers ou applications de partage de fichiers. Vous connaissez peut-être le nom du document, ou seulement ce qu’il contient. Il existe peut-être plusieurs versions du document ou plusieurs copies stockées par d’autres services. Vous trouvez ça frustrant ? C’est normal.

Non seulement vous devez passer d’un référentiel à l’autre pour tenter de trouver votre document, mais lorsque vous le cherchez dans des référentiels qui disposent d’une fonction de recherche, vous obtenez une multitude de résultats dont le tri vous prendra une éternité.

Pour vous aider, vous avez deux possibilités, et l’une d’entre elles consiste à disposer d’un plan de classification à l’échelle de l’entreprise. (Dans cet article, je m’intéresserai avant tout à la classification de vos documents et autres contenus non structurés.)

Avant d’aller plus loin, n’imaginez pas que j’attends de vous que vous laissiez toutes vos activités en plan pour vous lancer dans un projet d’un an pour documenter l’ensemble de la taxonomie de votre entreprise. Ça ne serait pas raisonnable, et cela pourrait aussi mettre un frein à vos efforts en matière de gouvernance de l’information.

Au lieu de cela, nous aimerions que vous suiviez en termes de planification de votre classification et de votre taxonomie les mêmes recommandations que pour la gouvernance de l’information : à savoir que vous les pensiez par phases ou par projets. Développez votre plan de classification comme vous développez votre programme de gouvernance : une étape après l’autre. En créant votre taxonomie de cette façon, vous pouvez ajouter de nouveaux types de contenu, ou développer les types de contenu déjà présents dans la taxonomie, et ainsi développer lentement et soigneusement un plan de classification qui conviendra à tous.

Revenons à notre sujet.

Une classification efficace de vos contenus offre de nombreux avantages, dont l’un des plus importants est une meilleure visibilité sur vos informations :

– Identifiez les informations sensibles, telles que les données à caractère personnel et de paiement, et autres informations personnelles ;

– Séparez les bonnes informations des contenus redondants, obsolètes ou inutiles ;

– Répondez plus rapidement aux demandes d’informations ;

– Attribuez des niveaux de stockage économiques ;

– Appliquez des contrôles de sécurité adaptés pour empêcher la divulgation accidentelle ou le cyber-piratage des données.

Les avantages de la classification sont nombreux. En voici deux exemples :

Le premier est le fait de répondre aux demandes de personnes fichées de la part de réglementations de confidentialité telles que le CCPA et le RGPD. Ces deux réglementations exigent que vous fournissiez à un individu toutes les informations que vous stockez sur lui, dans un certain délai (30 jours pour le RGPD, 45 pour le CCPA). Si vous stockez les informations des clients sur de nombreux référentiels différents, et que chaque référentiel utilise son propre plan de classification, il sera très difficile de trouver toutes les informations en peu de temps (à moins bien sûr d’affecter à cette tâche de nombreux employés, ce qui représente alors d’énormes dépenses en ressources pour chaque demande de personne fichée).
Le second est le risque de cyber-piratage, et tout le monde s’accorde à dire que la question n’est pas « si » cela se produira, mais « quand ». Selon un sondage Harris réalisé pour Symantec en janvier 2018, 60 millions d’Américains ont été touchés par l’usurpation d’identité. La majeure partie des données nécessaires pour usurper une identité sont volées à des entreprises qui stockent ou protègent mal les informations client. Le même article explique que « On estime que les cybercriminels voleront 33 milliards d’archives en 2023, selon une étude réalisée en 2018 par Juniper Research. Et comparé aux 12 milliards d’archives dont le vol est attendu en 2018. » Si vous ne classez pas vos informations et que vous ne les protégez pas à l’aide de politiques de sécurité adaptées, vous pourriez bien être l’une des entreprises touchées par ces vols d’informations.

Premiers pas avec la classification

Certains pensent que la première étape de la classification est l’acquisition d’un outil. Mais c’est faux. La première étape consiste à rassembler les principales parties prenantes qui créent, stockent et travaillent avec les informations de votre organisation, afin d’avoir une vue d’ensemble exhaustive de la façon dont ces informations sont utilisées, non seulement dans un service ou une division, mais aussi dans d’autres services ou divisions. Gardez à l’esprit que vous pouvez le faire de manière itérative pendant que vous travaillez sur des projets de gouvernance.

En prenant le temps de parler avec toutes les personnes concernées, vous pourrez créer un plan de classification adapté aux besoins de chacun. Et c’est essentiel, car il n’est pas souhaitable que les différents services classent les contenus de façons différentes. Cela rendrait impossible le respect de réglementations telles que le CCPA. Cela ne plaira peut-être pas à tout le monde, mais ce n’est pas exactement le but d’une stratégie de classification centrale.

Une fois que vous aurez recueilli les opinions des principales parties prenantes vous pourrez commencer à définir des catégories de contenus (ou types de contenus) et les métadonnées correspondantes. Diffusez le plan de classification dans toute l’entreprise, et assurez-vous qu’il est respecté par tous.

Je ne dis pas que vous n’avez pas besoin d’outils pour commencer, mais il peut être avantageux d’investir dans des outils adaptés. Tout d’abord, lorsque vous définirez votre taxonomie, vous aurez besoin d’un emplacement où stocker cette taxonomie, qui indique où et comment elle est appliquée. Une solution telle qu’everteam.policy peut vous y aider.

Notre produit, everteam.discover, connecte la totalité de vos référentiels non structurés, indexe vos contenus et applique automatiquement votre plan de classification. Il s’intègre de façon transparente à everteam.policy pour extraire le plan de classification à appliquer.

everteam.discover vous permet de classer le contenu selon trois méthodes : manuellement, en utilisant des règles (correspondances de requêtes) ou au moyen de l’apprentissage automatique (en analysant le contenu d’un élément de contenu). Une classification automatique utilisant des règles ou l’apprentissage automatique est nécessaire lorsque la quantité de contenu à classer est très importante. Cela vous permettra de respecter les exigences réglementaires plus rapidement (et avec plus de précision) qu’avec une classification manuelle. Mais dans certains cas, une classification manuelle est nécessaire.

L’apprentissage automatique permet d’analyser des données non structurées de façon sémantique, afin de suggérer des classifications basées sur le texte trouvé. Vous pouvez ensuite ajouter ces classifications recommandées à everteam.policy.

Classification de contenu avec everteam.discover

Vous savez comment vous souhaitez classer vos informations, mais elles sont trop nombreuses pour les classer manuellement (un document après l’autre). C’est là qu’everteam.discover entre en jeu. everteam.discover connecte tous vos référentiels et en indexe le contenu. Vous pouvez ensuite consulter ce contenu depuis différents aspects ou vues, ou rechercher du contenu avec une gamme de paramètres. Pour classer manuellement un groupe de documents, vous les sélectionnez et appliquez une catégorie de classification ou un type de contenu à l’aide de la taxonomie que vous avez au préalable ajoutée à l’outil.

Une fois que vous avez identifié les règles de classification des documents, vous pouvez facilement définir des étapes et commencer leur automatisation. Ajoutez ces règles à un classifieur basé sur des règles everteam. Le classifieur s’exécute automatiquement chaque fois qu’un nouveau document est ajouté, et applique une catégorie à tous les documents qui correspondent aux règles. Tout nouveau document ajouté est automatiquement classé, éliminant le processus manuel.

L’apprentissage automatique est la troisième méthode de classification du contenu dans everteam.discover. Il vous permet d’analyser votre contenu, et vous suggère des classifications. Pour que l’apprentissage automatique fonctionne, vous devez fournir à everteam.discover des ensembles de documents d’apprentissage pour chaque classification, qui lui permettront d’apprendre. Plus il indexe et classe de contenus, mieux il parvient à attribuer la bonne classification à chaque document.

Voici un aperçu de la fonctionnalité de classifieur d’everteam.discover :

Il n’est pas toujours possible de laisser la machine appliquer vos classifications ; vous devez permettre à certains employés d’appliquer la classification manuellement. C’est important, par exemple, lors de l’identification et du traitement des contenus redondants, obsolètes ou inutiles. Vous pourrez peut-être commencer avec la classification automatique, mais vous devez prévoir une intervention humaine afin de vous assurer que vous ne vous débarrassez que d’informations dont vous n’avez plus besoin.

J’ai fait ici uniquement d’une présentation rapide de la façon dont everteam.discover peut vous aider à appliquer votre taxonomie à votre contenu. L’utilisation des classifieurs et la formation d’un classifieur à apprentissage automatique sont des sujets complexes, qui seront traités dans les prochains articles de blog. Alors inscrivez-vous à notre newsletter pour savoir quand nous publions de nouveaux articles de blog.

La classification n’est pas une tâche unique

Que vous la réalisiez en une seule fois (ce qui n’est pas conseillé si vous voulez continuer à travailler) ou en plusieurs phases, par des initiatives, la classification n’est pas une tâche unique. Vous ne pouvez pas la définir une fois, et supposer qu’elle fonctionnera indéfiniment. La gestion des classifications (la taxonomie) est un processus continu : vous ajoutez de nouveaux types de contenus à vos informations, d’autres contenus changent, et les règles de gestion de vos informations changent (nouvelles réglementations, modification des réglementations existantes). La façon dont vous souhaitez utiliser vos informations pour soutenir la prise de décision affectera également la façon dont vous classez vos informations.

everteam.policy peut vous aider à gérer votre taxonomie en continu. Il vous permet non seulement de définir et de gérer votre taxonomie actuelle, mais aussi de définir des règles de gestion de la conservation et du cycle de vie, d’identifier les autorisations d’accès et de partager toutes ces informations avec les collaborateurs et systèmes au sein de l’entreprise qui doivent connaître et respecter ces règles de classification.

Pour terminer, je souhaite faire une dernière remarque au sujet de la classification de vos informations. Un type de contenu de classification (ou une catégorie, selon le terme que vous utilisez) doit offrir les informations suivantes :

– La description du type de contenu et de toutes les métadonnées et tous les attributs associés ;

– Les règles de traitement de ces informations ;

– Comment/où les stocker ;

– Comment les supprimer lorsqu’elles ne sont plus utiles ;

– Les autorisations/la sécurité à appliquer aux informations pour s’assurer que seules les personnes autorisées peuvent y accéder.

Si vous souhaitez en apprendre davantage sur comment everteam.discover peut vous aider à classer vos informations (y compris les 80 % de dark data cachés dans vos référentiels), contactez-vous pour demander une démonstration, ou téléchargez notre fiche produit everteam.discover.

everteam.discover

Cookie	Durée	Description
__cf_bm		Ce cookie, défini par Cloudflare, est utilisé pour prendre en charge Cloudflare Bot Management.
__cfruid		Cloudflare définit ce cookie pour identifier le trafic web de confiance.
__hssrc	session	Ce cookie est défini par Hubspot. Selon leur documentation, chaque fois que HubSpot modifie le cookie de session, ce cookie est également défini pour déterminer si le visiteur a redémarré son navigateur. Si ce cookie n'existe pas lorsque HubSpot gère les cookies, on considère qu'il s'agit d'une nouvelle session.
_GRECAPTCHA		Le service Google Recaptcha définit ce cookie pour identifier les robots afin de protéger le site web contre les attaques de spam malveillantes.
cli_user_preference	1 year	Enregistre l'état du consentement de l'utilisateur en matière de cookies.
cookielawinfo-checkbox-advertisement	1 day	Le cookie est défini par le GDPR cookie consent pour enregistrer le consentement de l'utilisateur pour les cookies dans la catégorie "Publicité".
cookielawinfo-checkbox-analytics	1 day	Ce cookie est défini par le plugin WordPress GDPR Cookie Consent. Le cookie est utilisé pour mémoriser le consentement de l'utilisateur pour les cookies de la catégorie "Analytics".
cookielawinfo-checkbox-functional	1 day	Le cookie est défini par le GDPR cookie consent pour enregistrer le consentement de l'utilisateur pour les cookies de la catégorie "Fonctionnel".
cookielawinfo-checkbox-necessary	1 day	Ce cookie est défini par le plugin GDPR Cookie Consent. Il est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Nécessaire".
cookielawinfo-checkbox-others	1 day	Ce cookie est défini par le plugin GDPR Cookie Consent. Il est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Autres".
cookielawinfo-checkbox-performance	1 day	Ce cookie est défini par le plugin GDPR Cookie Consent. Ce cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Performance".
CookieLawInfoConsent		CookieYes définit ce cookie pour enregistrer l'état du bouton par défaut de la catégorie correspondante et le statut de l'ACCP. Il ne fonctionne qu'en coordination avec le cookie principal.
elementor	never	Ce cookie est utilisé par le thème WordPress du site web. Il permet au propriétaire du site de mettre en œuvre ou de modifier le contenu du site en temps réel.
PHPSESSID		Ce cookie est natif des applications PHP. Il stocke et identifie l'identifiant de session unique d'un utilisateur afin de gérer les sessions des utilisateurs sur le site web. Il s'agit d'un cookie de session qui sera supprimé lorsque toutes les fenêtres du navigateur seront fermées.
pll_language	1 year	Ce cookie est défini par le plugin Polylang pour les sites web alimentés par WordPress. Ce cookie stocke le code de la langue de la dernière page consultée.
rc::a	never	Ce cookie est mis en place par le service Google recaptcha pour identifier les robots afin de protéger le site web contre les attaques de spam malveillantes.
rc::b	session	Ce cookie est mis en place par le service Google recaptcha pour identifier les robots afin de protéger le site web contre les attaques de spam malveillantes.
rc::c	session	Ce cookie est mis en place par le service Google recaptcha pour identifier les robots afin de protéger le site web contre les attaques de spam malveillantes.
rc::f	never	Ce cookie est mis en place par le service Google recaptcha pour identifier les robots afin de protéger le site web contre les attaques de spam malveillantes.
viewed_cookie_policy	1 year	Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour enregistrer si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.
wpEmojiSettingsSupports	session	WordPress place ce cookie lorsqu'un utilisateur interagit avec des emojis sur un site WordPress. Il permet de déterminer si le navigateur de l'utilisateur peut afficher correctement les emojis.

Cookie	Durée	Description
__hssc	30 minutes	Ce cookie est mis en place par HubSpot. Le but de ce cookie est de garder une trace des sessions. Il est utilisé pour déterminer si HubSpot doit incrémenter le numéro de session et les horodatages dans le cookie __hstc. Il contient le domaine, viewCount (incrémente chaque pageView dans une session), et l'horodatage du début de la session.
li_gc		Linkedin utilise ce cookie pour enregistrer le consentement du visiteur concernant l'utilisation de cookies à des fins non essentielles.
lidc		LinkedIn utilise le cookie lidc pour faciliter la sélection des centres de données.
UserMatchHistory		LinkedIn définit ce cookie pour la synchronisation de l'ID des annonces LinkedIn.
yt-player-headers-readable	never	Le cookie yt-player-headers-readable est utilisé par YouTube pour enregistrer les préférences de l'utilisateur en matière de lecture vidéo et d'interface, afin d'améliorer l'expérience de visionnage de l'utilisateur.
yt-remote-cast-available	session	Le cookie yt-remote-cast-available est utilisé pour stocker les préférences de l'utilisateur concernant la disponibilité de la diffusion sur son lecteur vidéo YouTube.
yt-remote-cast-installed	session	Le cookie yt-remote-cast-installed est utilisé pour stocker les préférences du lecteur vidéo de l'utilisateur lors de l'utilisation de vidéos YouTube intégrées.
yt-remote-fast-check-period	session	Le cookie yt-remote-fast-check-period est utilisé par YouTube pour stocker les préférences du lecteur vidéo de l'utilisateur pour les vidéos YouTube intégrées.
yt-remote-session-app	session	Le cookie yt-remote-session-app est utilisé par YouTube pour stocker les préférences de l'utilisateur et des informations sur l'interface du lecteur vidéo intégré de YouTube.
yt-remote-session-name	session	Le cookie yt-remote-session-name est utilisé par YouTube pour stocker les préférences du lecteur vidéo de l'utilisateur lors de l'utilisation de vidéos YouTube intégrées.
ytidb::LAST_RESULT_ENTRY_KEY	never	Le cookie ytidb::LAST_RESULT_ENTRY_KEY est utilisé par YouTube pour stocker le dernier résultat de recherche sur lequel l'utilisateur a cliqué. Cette information est utilisée pour améliorer l'expérience de l'utilisateur en fournissant des résultats de recherche plus pertinents à l'avenir.

Cookie	Durée	Description
_first_pageview		Il s'agit d'un cookie de session placé lors du premier affichage de la page à chaque visite. Ce cookie est utilisé pour activer certains codes lors du premier affichage de la page et pour améliorer la vitesse du site web.
AMCV_*AdobeOrg		Adobe-Dtm utilise ce cookie pour trouver l'identifiant unique qui permet de reconnaître l'utilisateur lors de ses prochaines visites.
AMCVS_*AdobeOrg		Adobe-Dtm utilise ce cookie pour stocker un identifiant unique permettant d'identifier un visiteur unique.

Cookie	Durée	Description
__hstc	1 year 24 days	Ce cookie est mis en place par Hubspot et est utilisé pour suivre les visiteurs. Il contient le domaine, l'utk, l'horodatage initial (première visite), le dernier horodatage (dernière visite), l'horodatage actuel (cette visite) et le numéro de session (incrémenté pour chaque session suivante).
_jsuid		Clicky utilise ce cookie pour stocker des informations sur la première visite d'un utilisateur sur le site.
_pk_ses.1.00ba		Permet le stockage temporaire de vos données de visite (si la mesure d’audience Piwik/Matomo est active)
AnalyticsSyncHistory		Linkedin utilise ce cookie pour stocker des informations sur l'heure à laquelle une synchronisation a eu lieu avec le cookie lms_analytics.
cluid	9 hours	Ce cookie est utilisé pour les sites web qui ont plusieurs domaines afin d'identifier le même visiteur à travers plusieurs domaines.
CONSENT	16 years 5 months 19 days 15 hours	Ces cookies sont installés via des vidéos youtube intégrées. Ils enregistrent des données statistiques anonymes sur, par exemple, le nombre de fois que la vidéo est affichée et les paramètres utilisés pour la lecture. Aucune donnée sensible n'est collectée, sauf si vous vous connectez à votre compte Google, auquel cas vos choix sont liés à votre compte, par exemple si vous cliquez sur "J'aime" sur une vidéo.
demdex		Le cookie demdex, placé sous le domaine demdex.net, est utilisé par Adobe Audience Manager pour aider à identifier un visiteur unique à travers les domaines.
hubspotutk	1 year 24 days	Ce cookie est utilisé par HubSpot pour garder une trace des visiteurs du site web. Ce cookie est transmis à Hubspot lors de la soumission d'un formulaire et utilisé lors de la déduplication des contacts.
s_cc		Adobe Analytics utilise ce cookie pour déterminer si les cookies sont activés dans le navigateur de l'utilisateur.
vuid	2 years	Le domaine de ce cookie est la propriété de Vimeo. Ce cookie est utilisé par Vimeo pour collecter des informations de suivi. Il définit un identifiant unique pour intégrer des vidéos sur le site web.

Cookie	Durée	Description
bcookie		LinkedIn met en place ce cookie à partir des boutons de partage LinkedIn et des balises publicitaires pour reconnaître les identifiants de navigateur.
bscookie		LinkedIn utilise ce cookie pour mémoriser les actions effectuées sur le site web.
li_sugr		LinkedIn utilise ce cookie pour collecter des données sur le comportement des utilisateurs afin d'optimiser le site web et de rendre les publicités sur le site web plus pertinentes.
PREF	8 months	Le cookie PREF est défini par Youtube pour stocker les préférences de l'utilisateur telles que la langue, le format des résultats de recherche et d'autres personnalisations pour les vidéos YouTube intégrées dans différents sites.
test_cookie	15 minutes	Ce cookie est mis en place par doubleclick.net. Le but de ce cookie est de déterminer si le navigateur de l'utilisateur accepte les cookies.
VISITOR_INFO1_LIVE	5 months 27 days	Ce cookie est mis en place par Youtube. Il est utilisé pour suivre les informations relatives aux vidéos YouTube intégrées sur un site web.
YSC	session	Ce cookie est mis en place par Youtube et est utilisé pour suivre les vues des vidéos intégrées.
yt.innertube::nextId		YouTube utilise ce cookie pour enregistrer un identifiant unique afin de stocker des données sur les vidéos de YouTube que l'utilisateur a vues.
yt.innertube::requests		YouTube utilise ce cookie pour enregistrer un identifiant unique afin de stocker des données sur les vidéos de YouTube que l'utilisateur a vues.