B.A.-BA : le Machine Learning

Précieuses pour mettre en place une politique de gouvernance de l’information, les technologies de Machine Learning sont de plus en plus présentes dans notre quotidien. Il faut dire que la numérisation de celui-ci est une tendance de fond, qui n’est pas près de ralentir ! Il est donc temps de faire le point. Qu’est-ce que le Machine Learning ? Comment est-ce que ça fonctionne ? Que peut-on en attendre ? Où en est cet « art numérique », donnant à l’intelligence artificielle une toute nouvelle dimension ? Voyons cela ensemble, en cinq questions/réponses !

Machine Learning, qu’est-ce que c’est ?

Le Machine Learning, ou apprentissage statistique dans notre langue, est une composante essentielle de l’Intelligence Artificielle. Cette appellation regroupe l’ensemble des technologies qui confèrent aux ordinateurs et aux logiciels la capacité d’apprendre par eux-mêmes, sans avoir besoin d’une intervention humaine via une programmation spécifique, de s’améliorer seuls et d’évoluer. Pour cela, le fonctionnement du Machine Learning va s’approcher de celui du Data Mining : une recherche de schémas récurrents dans les données à disposition va être effectuée, permettant d’en déduire un comportement à adopter, un ajustement du fonctionnement à opérer, ou une action à effectuer.

L’exemple le plus célèbre de Machine Learning dans la vie de tous les jours ? Le fil d’actualité de Facebook. Lorsque l’on interagit régulièrement avec un autre utilisateur (like des publications, commentaires, partages…), l’algorithme du réseau social le « voit » et adapte le newsfeed en conséquence. Il montrera alors plus souvent sur la page d’accueil les actualités de cet ami, au détriment de celles des personnes avec lesquelles les interactions sont plus réduites.

Le concept de Machine Learning peut sembler récent, et pourtant, il est théorisé dès 1959, par l’informaticien Arthur Samuel, qui le décrit comme « le champ d’étude qui donne aux ordinateurs la capacité d’apprendre sans être explicitement programmés à apprendre ». Ce n’est donc pas depuis hier que nous cherchons à confier aux algorithmes la capacité de faire évoluer les ordinateurs de manière autonome, en fonction des données dont il dispose !

Comment fonctionnent les algorithmes du Machine Learning ?

Les algorithmes du Machine Learning ont un fonctionnement assez proche du cerveau humain — certains parlent même d’approche neuronale. Ils apprennent par entraînement : à partir de données connues, il va faire des prédictions, puis comparer ses prédictions avec des résultats concrets. Plus il a l’occasion d’effectuer cette comparaison, mieux il arrive à « deviner » et à optimiser ses prédictions. De même, plus il a de données à disposition, plus vite il s’entraîne et est efficace !

Il existe ainsi de nombreux modèles d’algorithme en Machine Learning :

– Le Random Forest, qui repose sur de nombreux arbres de décision pour parvenir à une prédiction ;

– Les machines à vecteurs, qui classent des exemples pour créer des modèles et enrichir les données ;

– Les réseaux bayésiens, qui utilisent les probabilités pour analyser les données et créer des relations entre elles ;

– Le clustering, qui regroupe des sous-ensembles de documents par similarité…

Où en est-on de l’adoption des technologies de Machine Learning ?

Le Machine Learning se développe ces dernières années dans le monde professionnel grâce à un allié logique : le Big Data. En effet, quoi de plus normal que de voir l’apprentissage automatique gagner en efficacité par l’apport massif d’exemples et de données ? Résultat, les prédictions du Machine Learning s’améliorent, « touchent » de plus en plus de domaines, et font gagner un temps précieux aux utilisateurs. À condition, bien sûr, de trouver le juste équilibre entre une quantité d’exemples suffisante, et un temps de calcul raisonnable — la volumétrie des masses de données ne faisant qu’augmenter avec les technologies modernes.

Et demain, qu’attendre du Machine Learning ?

Aujourd’hui, le Machine Learning s’appuie sur des exemples, donc des données (décisions, actions…) déjà existantes. Nombre de spécialistes estiment que son futur s’appuiera sur des interactions avec l’environnement qui produit les données, c’est-à-dire sur des trajectoires, sur des phénomènes dynamiques et sur des interactions complexes. Le tout avec une meilleure compréhension du langage naturel (via les technologies de NLP, Natural Language Processing), pour une meilleure efficacité encore dans l’apprentissage dynamique !

Que peut apporter le Machine Learning à la gouvernance de l’information ?

Le Machine Learning constitue un allié précieux de la gouvernance de l’information. Ses technologies permettent en effet de mieux analyser, indexer, catégoriser et extraire les données. Il peut par exemple s’agir de repérer les fichiers les plus engageants, de donner du sens aux informations, de procéder à un nettoyage intelligent des doublons et fichiers obsolètes…

Plein de promesses à ses débuts, le Machine Learning s’enrichit de jour en jour de nouvelles fonctionnalités. À surveiller de près donc, y compris en matière de gouvernance de l’information !