Dans la peau d'un Data scientist

Le 07/12/2016 à 16:46

- - Pixabay

Evoquer l’exploitation des grandes masses de données est à la mode. Mais définir la méthode de travail d’un data scientist est moins évident. En fait, leur travail se déroule en quatre étapes. Récit.

Nombreuses sont les entreprises qui se targuent d’avoir recours au Big data. De l’agroalimentaire à la santé, en passant par l’agriculture, les secteurs y ayant déjà recours sont variés. Mais concrètement, comment travaille une équipe de data scientists, ces orfèvres de l'analyse de donnée que les entreprises – petites ou grandes- s’arrachent ?

Leur travail consiste surtout à se plonger dans de grands volumes de données pour en déduire des prédictions et répondre à des enjeux stratégiques. Ils sont donc familiers des statistiques, de la programmation informatique et de l’analyse. Chez eux, le travail est méthodique et l’exploitation des données s’opère en quatre étapes :

Etape 1- La collecte pour constituer des jeux de données

Il s’agit de constituer des bases de données en fonction de la problématique de départ. Les statisticiens appellent cela faire du "data mining" pour constituer des "data sets" ou jeux de données. Les sources possibles pour récupérer ces informations sont variées. Il peut s’agir de puiser dans des bases de données existantes, d’analyser des échanges de courriels ou des historiques de procédures, d’exploiter les données enregistrées par des capteurs ou des contenus publiés sur le Web, etc. Les données sont définies selon leur type, leur format, leur provenance.

Etape 2- L’étape cruciale de l'organisation, du classement et du stockage

Le data scientist doit choisir quel est le mode de stockage le plus adapté aux données qu’il s’apprête à exploiter. Le stockage peut se faire sous la forme classique d’un tableau Excel, mais aussi en graphique ou en arbre par exemple. "90% du temps de travail d’un data scientist est consacré à ces deux premières étapes : la collecte et l’organisation des grandes masses de données", considère Constance de Quatrebarbes, ingénieur de recherches au CNRS et ex-data scientist freelance.

Etape 3- Le calcul aujourd'hui facilité par le cloud et les supercalculateurs

Une fois les données collectées et organisées judicieusement, place à l’émission d’hypothèses et à leur test. Pour cela, des séries de calculs statistiques interviennent. Ces calculs complexes sont rendus possibles grâce à l’évolution technologique des capacités de stockage et des puissances de calculs. En informatique, c’est un serveur qui assure cette fonction. L’avènement du "cloud computing" et des supercalculateurs ont ainsi ouvert la voie au "Big data".

Etape 4 : la visualisation pour rendre les résultats accessibles à tous

La dernière étape vise à rendre intelligible les résultats obtenus. Pour pouvoir les montrer, les professionnels du big data ont recours à des solutions de data visualisation. Il s'agit d'une représentation visuelle de masses de données qui va permettre de montrer la tendance qui s’en dégage. Selon ce que l’on souhaite montrer, le résultat peut être traduit en cartographie, en chronologie, en camemberts, en diagrammes, en infographies (éventuellement interactives)…

Cette méthode d’exploitation des mégadonnées, c’est-à-dire des grandes quantités d’informations numériques, a quatre utilités : "Il s’agit de profiler, cibler, optimiser ou d’établir un retour sur investissement", résume Constance de Quatrebarbes. Une équipe marketing pourra par exemple choisir de cibler des offres promotionnelles en fonction des prévisions de comportement d’un groupe de consommateurs, quand une équipe de gestionnaires immobilier pourra optimiser la consommation énergétique d’un parc de bâtiments. Ces décisions sont prises grâce aux travail du data scientist.

Adeline Raynal