Articles

B.A.-BA : le Machine Learning

Précieuses pour mettre en place une politique de gouvernance de l’information, les technologies de Machine Learning sont de plus en plus présentes dans notre quotidien. Il faut dire que la numérisation de celui-ci est une tendance de fond, qui n’est pas près de ralentir ! Il est donc temps de faire le point. Qu’est-ce que le Machine Learning ? Comment est-ce que ça fonctionne ? Que peut-on en attendre ? Où en est cet « art numérique », donnant à l’intelligence artificielle une toute nouvelle dimension ? Voyons cela ensemble, en cinq questions/réponses !

Machine Learning, qu’est-ce que c’est ?

Le Machine Learning, ou apprentissage statistique dans notre langue, est une composante essentielle de l’Intelligence Artificielle. Cette appellation regroupe l’ensemble des technologies qui confèrent aux ordinateurs et aux logiciels la capacité d’apprendre par eux-mêmes, sans avoir besoin d’une intervention humaine via une programmation spécifique, de s’améliorer seuls et d’évoluer. Pour cela, le fonctionnement du Machine Learning va s’approcher de celui du Data Mining : une recherche de schémas récurrents dans les données à disposition va être effectuée, permettant d’en déduire un comportement à adopter, un ajustement du fonctionnement à opérer, ou une action à effectuer.

L’exemple le plus célèbre de Machine Learning dans la vie de tous les jours ? Le fil d’actualité de Facebook. Lorsque l’on interagit régulièrement avec un autre utilisateur (like des publications, commentaires, partages…), l’algorithme du réseau social le « voit » et adapte le newsfeed en conséquence. Il montrera alors plus souvent sur la page d’accueil les actualités de cet ami, au détriment de celles des personnes avec lesquelles les interactions sont plus réduites.

Le concept de Machine Learning peut sembler récent, et pourtant, il est théorisé dès 1959, par l’informaticien Arthur Samuel, qui le décrit comme « le champ d’étude qui donne aux ordinateurs la capacité d’apprendre sans être explicitement programmés à apprendre ». Ce n’est donc pas depuis hier que nous cherchons à confier aux algorithmes la capacité de faire évoluer les ordinateurs de manière autonome, en fonction des données dont il dispose !

Comment fonctionnent les algorithmes du Machine Learning ?

Les algorithmes du Machine Learning ont un fonctionnement assez proche du cerveau humain — certains parlent même d’approche neuronale. Ils apprennent par entraînement : à partir de données connues, il va faire des prédictions, puis comparer ses prédictions avec des résultats concrets. Plus il a l’occasion d’effectuer cette comparaison, mieux il arrive à « deviner » et à optimiser ses prédictions. De même, plus il a de données à disposition, plus vite il s’entraîne et est efficace !

Il existe ainsi de nombreux modèles d’algorithme en Machine Learning :

– Le Random Forest, qui repose sur de nombreux arbres de décision pour parvenir à une prédiction ;

– Les machines à vecteurs, qui classent des exemples pour créer des modèles et enrichir les données ;

– Les réseaux bayésiens, qui utilisent les probabilités pour analyser les données et créer des relations entre elles ;

– Le clustering, qui regroupe des sous-ensembles de documents par similarité…

Où en est-on de l’adoption des technologies de Machine Learning ?

Le Machine Learning se développe ces dernières années dans le monde professionnel grâce à un allié logique : le Big Data. En effet, quoi de plus normal que de voir l’apprentissage automatique gagner en efficacité par l’apport massif d’exemples et de données ? Résultat, les prédictions du Machine Learning s’améliorent, « touchent » de plus en plus de domaines, et font gagner un temps précieux aux utilisateurs. À condition, bien sûr, de trouver le juste équilibre entre une quantité d’exemples suffisante, et un temps de calcul raisonnable — la volumétrie des masses de données ne faisant qu’augmenter avec les technologies modernes.

Et demain, qu’attendre du Machine Learning ?

Aujourd’hui, le Machine Learning s’appuie sur des exemples, donc des données (décisions, actions…) déjà existantes. Nombre de spécialistes estiment que son futur s’appuiera sur des interactions avec l’environnement qui produit les données, c’est-à-dire sur des trajectoires, sur des phénomènes dynamiques et sur des interactions complexes. Le tout avec une meilleure compréhension du langage naturel (via les technologies de NLP, Natural Language Processing), pour une meilleure efficacité encore dans l’apprentissage dynamique !

Que peut apporter le Machine Learning à la gouvernance de l’information ?

Le Machine Learning constitue un allié précieux de la gouvernance de l’information. Ses technologies permettent en effet de mieux analyser, indexer, catégoriser et extraire les données. Il peut par exemple s’agir de repérer les fichiers les plus engageants, de donner du sens aux informations, de procéder à un nettoyage intelligent des doublons et fichiers obsolètes…

Plein de promesses à ses débuts, le Machine Learning s’enrichit de jour en jour de nouvelles fonctionnalités. À surveiller de près donc, y compris en matière de gouvernance de l’information !

 

 

Le machine learning et NLP, les alliés d’une mise en conformité au RGPD facilitée

Le nouveau Règlement Général sur la Protection des Données (RGPD) va considérablement modifier l’organisation des entreprises et leurs rapports aux données générées notamment par les interactions avec les consommateurs. Applicable dès le mois de mai 2018, le RGPD s’appuie en effet sur la nomination d’un « référent », sur la tenue d’un référentiel de traitement, et sur un accès direct et aisé aux données sur chaque consommateur. Autant de dimensions qui peuvent être facilitées par les technologies de machine learning. Explications.

Un nouveau rôle dans l’entreprise : le DPO

La gouvernance de l’information est déjà un sujet majeur pour les entreprises. Chaque donnée peut en effet constituer la « clé » de la différenciation, que ce soit face à la concurrence, pour aider à la prise de décision, ou encore pour une meilleure maîtrise des risques. Or, avec le RGPD, entré en vigueur à l’été 2016 et applicable en mai 2018, un nouvel enjeu va accompagner cette dimension incontournable de la stratégie de l’entreprise : être en mesure de redonner le contrôle de leurs données à ceux qu’elles concernent directement.

C’est pour cela que le RGPD exige des entreprises la nomination d’un Délégué à la Protection de la Donnée (ou DPO, pour Data Privacy Officer, en anglais) dans les entreprises et les institutions européennes. C’est lui qui aura pour mission d’orchestrer la nouvelle politique relative aux données dans l’entité avec laquelle il collabore. Il devra notamment tenir un registre de toutes les opérations de traitement, comportant notamment :

  • La finalité du traitement des données (par exemple, « Données traitées pour communiquer mensuellement sur nos actualités d’entreprise ») ;
  • La description des personnes et des données personnelles utilisées (par exemple, « Clients ayant commandé au moins une fois un de nos produits », et « nom, prénom et email ») ;
  • Les différentes catégories de destinataires des données (par exemple, « envoi par logiciel emailing », « envoi par courrier » ou encore « appels téléphoniques ») ;
  • Les garanties de sécurité intégrées au traitement des données (certifications obtenues, résultats d’audits ou encore attestations des éditeurs de logiciels)…

De nouveaux droits à faire respecter

Si le DPO doit optimiser la gouvernance de l’information, c’est parce que la maîtrise de ce véritable patrimoine doit permettre de garantir le respect de certains droits des consommateurs via le RGPD. Ainsi, il doit être en mesure d’assurer l’effacement des données dès lors qu’une personne concernée en fait la demande. C’est ce que l’on appelle communément le « droit à l’oubli », institutionnalisé, donc, dans le RGPD. Les consommateurs doivent aussi pouvoir consulter les informations qu’une entreprise possède sur eux pour, au besoin, les modifier (une adresse incorrecte, un nom mal orthographié, une composition du foyer inexacte ou obsolète…). En limiter les usages également, et les anonymiser. Le tout dans un laps de temps assez court, les entreprises devant satisfaire les demandes « dans les meilleurs délais et, si possible, 72 heures au plus tard après en avoir pris connaissance », selon les textes officiels !

Toutes ces dimensions posent aussi la question de la portabilité des données. Le DPO doit en effet être en mesure de rendre les informations consultables dans un format couramment utilisé, et lisible par n’importe quel particulier. Sans imposer, donc, le recours à un logiciel peu courant et/ou payant !

Les apports du machine learning pour le RGPD

Autant dire que la tâche peut sembler bien fastidieuse avec des solutions « classiques » et non optimisées. C’est pour cela que le recours à des solutions de gouvernance de l’information intégrant une forte dimension « machine learning » constitue un impératif.

Ce que le machine learning va permettre de faire ? Identifier la donnée, de plus en plus rapidement au fur et à mesure de l’utilisation de la solution, et automatiser les process. Répondre avec plus d’efficacité aux demandes des consommateurs. Leur permettre d’exercer leurs différents droits (limitation, rectification, anonymisation, suppression) prévus dans le RGPD. Enrichir le registre de traitement, que la CNIL doit pouvoir consulter. Assurer, enfin, la portabilité des données, que ce soit en direction des personnes concernées par les données ou d’une autorité de contrôle !

Le machine learning est donc l’allié des futurs DPO (aujourd’hui, simples « correspondants informatique et libertés ») dans la mise en place d’une gouvernance de l’information en accord avec les principes de la nouvelle Réglementation Générale sur la Protection des données. Vous souhaitez en savoir plus sur cette technologie ? Comprendre en quoi une solution d’archivage numérique s’appuyant sur le machine learning peut vous aider à rendre l’utilisation des données plus transparente ? Contactez les experts Everteam !

 

 

Les atouts de l’analytics pour exploiter l’information répartie en silos

Les atouts de l’analytics pour exploiter l’information répartie en silos

Les risques de l’organisation en silos de données

Au fil du temps, les entreprises ont amassé d’importants volumes de données au sein de différents systèmes et outils, créant des silos. Ce type d’organisation est également un moyen pour les entreprises de gérer l’accès partagé à l’information, et de contrôler cette dernière. Au cœur d’un fonctionnement en silo, on trouve la gestion du « document » avec ses deux niveaux d’informations complémentaires, solidaires et indissociables : le fichier, et ses métadonnées qui facilitent l’accès à l’information, servent au classement, protègent et authentifient le document, et permettent l’interopérabilité.

Mais la saisie de ces métadonnées est souvent vécue comme fastidieuse et complexe par les collaborateurs en interne. Les entreprises abandonnent donc cette procédure qui est pourtant essentielle dès lors qu’il s’agit de retrouver un document via les moteurs de recherche et d’organiser l’information. Dans cette situation, les documents sont uniquement indexés par fichier, ce qui conduit à une perte de contrôle sur l’information avec des risques majeurs pour l’entreprise et l’organisation :

  • la dilution de l’information à forte valeur ajoutée, le Digital Asset de l’Entreprise
  • l’augmentation des risques de non identification des documents engageants
  • le non respect des obligations réglementaires de conservation et de destruction des documents
  • la hausse continue des volumes stockés sur des supports onéreux et non adaptés

Et ce, même si l’éventail de solutions pour gérer ces silos de documents s’est élargi, y compris fonctionnellement avec FileSystem, SharePoint, Box.com, Google Drive, Alfresco, Everteam.Document,…).

La réponse analytics

Les technologies d’analytics permettent par nature de combiner les innovations nées du Big Data et du Machine Learning. En d’autres termes, il est possible d’analyser d’importants volumes de données grâce à la puissance d’analyse du contenu des fichiers – c’est-à-dire les informations non structurées – pour en dégager du sens – des métadonnées – automatiquement. L’analytique repose donc sur la recherche de données structurées et non structurées.

Les bénéfices que les entreprises peuvent tirer de tels outils analytics reconfigurent totalement l’exploitation de l’information, et ce à plusieurs niveaux : D’un point de vue opérationnel, les Divisions Métiers peuvent :

o Accéder rapidement à l’information pertinente, y compris dans des contextes multisources et multilingues

o Expurger les informations de ses doublons ou de ses documents obsolètes

o Identifier rapidement tous les documents engageants de l’entreprise

o Capitaliser efficacement sur le référentiel de conservation de l’entreprise

Les technologies analytics permettent également de contrôler un certain nombre de risques liés à l’indisponibilité ou à la péremption de l’information. Elles mettent donc la Direction Générale en capacité de répondre aux obligations réglementaires inhérentes à son métier et à son secteur d’activité. Et elles concourent à la bonne activité de l’entreprise en apportant un service efficace et performant aux clients internes, mieux à même de respecter les référentiels de leur métier.

Enfin, les Directions informatiques voient leur travail facilité et leurs coûts informatiques diminuer par la maîtrise des budgets de stockage et de sauvegarde, la réduction des charges et délais de migration d’un silo à l’autre et enfin, par la pérennisation des formats stockés.