Le Big Data, pour un archivage nouvelle génération !

L’archivage numérique avait, à la base, pour simple mission de préserver les données. Depuis quelques années, et en particulier depuis l’irruption du Big Data dans nos quotidiens, il permet d’en faire plus, de donner une toute autre valeur au capital informationnel, et de gagner en efficacité. Le tout, en restant compatible avec le RGPD. Décryptage, en compagnie d’Éric Detang, responsable commercial chez Viveris Systèmes, un groupe de conseil et d’ingénierie informatique et partenaire intégrateur d’Everteam depuis de nombreuses années. 

Une nouvelle impulsion pour l’archivage avec le Big Data

L’archivage numérique existait avant le Big Data. Cette « révolution des données » a cependant permis de lui apporter de nouvelles fonctionnalités, estime le responsable commercial de Viveris Systèmes, Éric Detang : « Avant, l’archivage, on le faisait surtout pour répondre à des obligations de conservation, rappelle-t-il. La question de la mise à disposition du capital informationnel ne se posait pas vraiment. Un premier cap a été franchi avec les archives électroniques, mais celles-ci n’ont vraiment pu monter en puissance qu’une fois que l’on a parlé, compris et exploité le phénomène du Big Data. Il a ainsi offert une praticité inédite à l’archivage. Il permet par exemple de faire des recherches sur les métadonnées associées aux fichiers, de lancer une classification en activant ou en désactivant des facettes, de retrouver plus vite les données et l’information, de générer automatiquement les classifications les plus pertinentes… Bref, grâce au Big Data, on navigue sans requêtes complexes. Ce qui constitue un gain de temps et d’efficacité pour les entreprises. »

Un archivage numérique devenu modulaire

L’autre apport du Big Data à l’archivage numérique se trouve dans la souplesse des solutions existantes. « Avec le Big Data, l’archivage numérique devient « à la demande ». Certes, on s’appuie sur un socle unique, mais on peut ajouter des modules que l’on décide d’exploiter ou non, selon ses besoins et/ou son budget. On est bien loin des solutions d’archivage initiales, qui se concentraient sur 3 ou 4 critères primordiaux mais ne permettaient que peu de personnalisation, et se retrouvaient assez lourdes à l’usage. »

Un exemple concret des apports du Big Data dans l’archivage numérique ? « Un service d’expertise comptable dans un grand groupe d’assurance a déployé une solution d’archivage, tirant profit du Big Data. Elle lui permet d’exploiter l’ensemble des documents créés ou générés depuis plusieurs années, tant que ceux-ci doivent être légalement conservés. Ainsi, les comptables de cette entreprise peuvent très rapidement retrouver une ligne précise dans un bilan datant de plusieurs années, pour répondre à une injonction légale notamment. Il est aussi possible de présenter un extrait du grand livre des comptes où se trouve cette ligne. C’est un gage de confiance pour l’administration et pour les responsables, qui savent qu’en cas de demande particulière, ils pourront y répondre très vite. »

Le Big Data, l’allié du RGPD dans l’archivage numérique

Indexation rapide des documents, possibilité de retrouver une information très vite (et donc d’agir sur cette information), capacité renforcée à répondre aux contraintes d’audit… vous y voyez une réponse aux impératifs du RGPD ? Vous avez raison ! Avec le RGPD, les entreprises et institutions se doivent d’être en mesure d’accéder rapidement aux données personnelles des consommateurs et des particuliers, afin que ceux-ci exercent facilement l’ensemble de leurs nouveaux droits :

  • L’effacement des données ;
  • La correction d’informations erronées ou datées ;
  • La limitation de l’usage ;
  • L’anonymisation des informations…

Le Big Data constitue un apport réel s’agissant de l’archivage numérique. Vous souhaitez en savoir plus ? Contactez les équipes d’Everteam !

B.A.-BA : le Machine Learning

Précieuses pour mettre en place une politique de gouvernance de l’information, les technologies de Machine Learning sont de plus en plus présentes dans notre quotidien. Il faut dire que la numérisation de celui-ci est une tendance de fond, qui n’est pas près de ralentir ! Il est donc temps de faire le point. Qu’est-ce que le Machine Learning ? Comment est-ce que ça fonctionne ? Que peut-on en attendre ? Où en est cet « art numérique », donnant à l’intelligence artificielle une toute nouvelle dimension ? Voyons cela ensemble, en cinq questions/réponses !

Machine Learning, qu’est-ce que c’est ?

Le Machine Learning, ou apprentissage statistique dans notre langue, est une composante essentielle de l’Intelligence Artificielle. Cette appellation regroupe l’ensemble des technologies qui confèrent aux ordinateurs et aux logiciels la capacité d’apprendre par eux-mêmes, sans avoir besoin d’une intervention humaine via une programmation spécifique, de s’améliorer seuls et d’évoluer. Pour cela, le fonctionnement du Machine Learning va s’approcher de celui du Data Mining : une recherche de schémas récurrents dans les données à disposition va être effectuée, permettant d’en déduire un comportement à adopter, un ajustement du fonctionnement à opérer, ou une action à effectuer.

L’exemple le plus célèbre de Machine Learning dans la vie de tous les jours ? Le fil d’actualité de Facebook. Lorsque l’on interagit régulièrement avec un autre utilisateur (like des publications, commentaires, partages…), l’algorithme du réseau social le « voit » et adapte le newsfeed en conséquence. Il montrera alors plus souvent sur la page d’accueil les actualités de cet ami, au détriment de celles des personnes avec lesquelles les interactions sont plus réduites.

Le concept de Machine Learning peut sembler récent, et pourtant, il est théorisé dès 1959, par l’informaticien Arthur Samuel, qui le décrit comme « le champ d’étude qui donne aux ordinateurs la capacité d’apprendre sans être explicitement programmés à apprendre ». Ce n’est donc pas depuis hier que nous cherchons à confier aux algorithmes la capacité de faire évoluer les ordinateurs de manière autonome, en fonction des données dont il dispose !

Comment fonctionnent les algorithmes du Machine Learning ?

Les algorithmes du Machine Learning ont un fonctionnement assez proche du cerveau humain — certains parlent même d’approche neuronale. Ils apprennent par entraînement : à partir de données connues, il va faire des prédictions, puis comparer ses prédictions avec des résultats concrets. Plus il a l’occasion d’effectuer cette comparaison, mieux il arrive à « deviner » et à optimiser ses prédictions. De même, plus il a de données à disposition, plus vite il s’entraîne et est efficace !

Il existe ainsi de nombreux modèles d’algorithme en Machine Learning :

– Le Random Forest, qui repose sur de nombreux arbres de décision pour parvenir à une prédiction ;

– Les machines à vecteurs, qui classent des exemples pour créer des modèles et enrichir les données ;

– Les réseaux bayésiens, qui utilisent les probabilités pour analyser les données et créer des relations entre elles ;

– Le clustering, qui regroupe des sous-ensembles de documents par similarité…

Où en est-on de l’adoption des technologies de Machine Learning ?

Le Machine Learning se développe ces dernières années dans le monde professionnel grâce à un allié logique : le Big Data. En effet, quoi de plus normal que de voir l’apprentissage automatique gagner en efficacité par l’apport massif d’exemples et de données ? Résultat, les prédictions du Machine Learning s’améliorent, « touchent » de plus en plus de domaines, et font gagner un temps précieux aux utilisateurs. À condition, bien sûr, de trouver le juste équilibre entre une quantité d’exemples suffisante, et un temps de calcul raisonnable — la volumétrie des masses de données ne faisant qu’augmenter avec les technologies modernes.

Et demain, qu’attendre du Machine Learning ?

Aujourd’hui, le Machine Learning s’appuie sur des exemples, donc des données (décisions, actions…) déjà existantes. Nombre de spécialistes estiment que son futur s’appuiera sur des interactions avec l’environnement qui produit les données, c’est-à-dire sur des trajectoires, sur des phénomènes dynamiques et sur des interactions complexes. Le tout avec une meilleure compréhension du langage naturel (via les technologies de NLP, Natural Language Processing), pour une meilleure efficacité encore dans l’apprentissage dynamique !

Que peut apporter le Machine Learning à la gouvernance de l’information ?

Le Machine Learning constitue un allié précieux de la gouvernance de l’information. Ses technologies permettent en effet de mieux analyser, indexer, catégoriser et extraire les données. Il peut par exemple s’agir de repérer les fichiers les plus engageants, de donner du sens aux informations, de procéder à un nettoyage intelligent des doublons et fichiers obsolètes…

Plein de promesses à ses débuts, le Machine Learning s’enrichit de jour en jour de nouvelles fonctionnalités. À surveiller de près donc, y compris en matière de gouvernance de l’information !

 

 

Les atouts de l’analytics pour exploiter l’information répartie en silos

Les atouts de l’analytics pour exploiter l’information répartie en silos

Les risques de l’organisation en silos de données

Au fil du temps, les entreprises ont amassé d’importants volumes de données au sein de différents systèmes et outils, créant des silos. Ce type d’organisation est également un moyen pour les entreprises de gérer l’accès partagé à l’information, et de contrôler cette dernière. Au cœur d’un fonctionnement en silo, on trouve la gestion du « document » avec ses deux niveaux d’informations complémentaires, solidaires et indissociables : le fichier, et ses métadonnées qui facilitent l’accès à l’information, servent au classement, protègent et authentifient le document, et permettent l’interopérabilité.

Mais la saisie de ces métadonnées est souvent vécue comme fastidieuse et complexe par les collaborateurs en interne. Les entreprises abandonnent donc cette procédure qui est pourtant essentielle dès lors qu’il s’agit de retrouver un document via les moteurs de recherche et d’organiser l’information. Dans cette situation, les documents sont uniquement indexés par fichier, ce qui conduit à une perte de contrôle sur l’information avec des risques majeurs pour l’entreprise et l’organisation :

  • la dilution de l’information à forte valeur ajoutée, le Digital Asset de l’Entreprise
  • l’augmentation des risques de non identification des documents engageants
  • le non respect des obligations réglementaires de conservation et de destruction des documents
  • la hausse continue des volumes stockés sur des supports onéreux et non adaptés

Et ce, même si l’éventail de solutions pour gérer ces silos de documents s’est élargi, y compris fonctionnellement avec FileSystem, SharePoint, Box.com, Google Drive, Alfresco, Everteam.Document,…).

La réponse analytics

Les technologies d’analytics permettent par nature de combiner les innovations nées du Big Data et du Machine Learning. En d’autres termes, il est possible d’analyser d’importants volumes de données grâce à la puissance d’analyse du contenu des fichiers – c’est-à-dire les informations non structurées – pour en dégager du sens – des métadonnées – automatiquement. L’analytique repose donc sur la recherche de données structurées et non structurées.

Les bénéfices que les entreprises peuvent tirer de tels outils analytics reconfigurent totalement l’exploitation de l’information, et ce à plusieurs niveaux : D’un point de vue opérationnel, les Divisions Métiers peuvent :

o Accéder rapidement à l’information pertinente, y compris dans des contextes multisources et multilingues

o Expurger les informations de ses doublons ou de ses documents obsolètes

o Identifier rapidement tous les documents engageants de l’entreprise

o Capitaliser efficacement sur le référentiel de conservation de l’entreprise

Les technologies analytics permettent également de contrôler un certain nombre de risques liés à l’indisponibilité ou à la péremption de l’information. Elles mettent donc la Direction Générale en capacité de répondre aux obligations réglementaires inhérentes à son métier et à son secteur d’activité. Et elles concourent à la bonne activité de l’entreprise en apportant un service efficace et performant aux clients internes, mieux à même de respecter les référentiels de leur métier.

Enfin, les Directions informatiques voient leur travail facilité et leurs coûts informatiques diminuer par la maîtrise des budgets de stockage et de sauvegarde, la réduction des charges et délais de migration d’un silo à l’autre et enfin, par la pérennisation des formats stockés.

Les défis du content analytics

Les défis du content analytics

Tandis que les progrès technologiques ont fait exploser la quantité de données recueillies à chaque instant, l’enjeu majeur pour toute entreprise est la gestion et l’optimisation de ces informations à grande échelle. C’est dans ce cadre que le content analytics (analyse de contenus) offre des approches puissantes. Elle ouvre l’espace à de nouvelles opportunités, notamment économiques, en termes d’analyse et d’exploitation des données.

Informatique décisionnelle (Business Intelligence) et Content Analytics

Piloter efficacement une organisation ou une entreprise nécessite de disposer d’informations pour identifier les problèmes, repérer les opportunités, anticiper les tendances, connaître les évolutions fines du marché, etc. L’informatique décisionnelle fournit une partie de ces informations, celle basée sur des données structurées.

Mais à l’intérieur et à l’extérieur de l’entreprise les volumes d’information explosent. Notamment sous la forme de contenus non-structurés et semi-structurés, c’est-à-dire des formulaires, des emails, des mémos, des avis clients, des commentaires prospects après tests, des réclamations, des posts sur les médias sociaux… Et c’est le Content analytics qui va permettre d’analyser et exploiter ces contenus non structurés.

Le Content analytics complète donc l’informatique décisionnelle pour mettre à disposition du décideur l’ensemble du contexte de l’activité.

Les réseaux sociaux : un nouveau type de contenu à gérer

Les interactions entre les individus sont en effet devenues une source majeure de données électroniques grâce à la tendance des utilisateurs à partager sur les réseaux sociaux. Ces millions d’interactions générées chaque jour laissent une trace numérique qui est publiée et stockée. Mais quelles que soient la quantité et la qualité des données accessibles à une entreprise, l’information n’a que peu de valeur sans un véritable traitement analytique. Pour exploiter et identifier la façon dont le contenu de ces interactions peut affecter l’entreprise, les outils analytiques entrent en action. Ils permettent de percevoir des schémas cachés, de nouvelles corrélations, des signes avant-coureurs à partir de la subtilité des mots contenus dans les données non structurées et des signaux faibles. Une solution technique d’analyse de contenus va permettre par exemple :

  • D’identifier les auteurs et sources des conversations ;
  • D’organiser les contenus selon le sujet abordé ;
  • D’associer un sentiment ou une opinion à un commentaire.

Objectif : comprendre les interactions sociales, les comportements, l’environnement et guider les décideurs dans leurs actions.

Les 4V du Big Data

L’objectif du Big Data est de traiter un gros volume d’informations pour détecter le plus rapidement possible les schémas et tendances qui échappent aux outils classiques de gestion de base de données.

Cette masse de données se caractérise par :

  • Son Volume bien sûr
  • Sa Variété : la diversité des données (non structurées, semi-structurées ou structurées, externes ou internes), les sources dont elles proviennent, (smartphones, capteurs, tablettes, médias sociaux, objets connectés, fichiers multimédia, textes non structurés etc.), leur diversité d’organisation et l’hétérogénéité des critères (métadonnées) les qualifiant.
  • Sa Vélocité car elles sont générées sur un temps court, ce qui nécessite de les collecter et analyser en temps réel, afin d’en tirer le maximum de valeur
  • Sa Valeur qui sera extraite de ce matériau brut qu’est la donnée collectée en analysant ces informations non structurées

Sources : Michael Stonebraker & Alex Popescu.

Volonté d’accroître la performance opérationnelle et la connaissance clients, nécessité de se conformer à un cadre réglementaire exigeant et d’appréhender les nouvelles configurations liées aux marchés mondialisés, ce sont toutes ces motivations et bien d’autres qui amènent les entreprises à se pencher sur les sujets Big Data & Analytics. Et tous les métiers de l’organisation sont impactés par ces enjeux  de transformation…