Se méfier des mauvais réflexes du big data

Le 09/02/2017 à 16:02

Le volume des données amassé ne garantit pas le succès d’un projet big data. Les entreprises doivent investir dans le traitement amont pour injecter dans leurs outils d’analyse des données de qualité. - Pixabay

Pour obtenir des résultats pertinents à partir de traitements analytiques, la qualité des données injectées dans les algorithmes doit être optimale. Ces derniers doivent par ailleurs évoluer avec nos façons de vivre et de travailler, au risque de produire des résultats erronés.

A seulement quelques mois d’intervalle, les résultats de deux votes ont fait mentir les sondages qui les sont précédés: la sortie du Royaume-Uni de l’Union Européenne et l’élection de Donald Trump. Dans le cas de la présidentielle américaine, le New York Times, le Huffington Post et le site FiveThirtyEight, estimaient respectivement la probabilité qu’Hillary Clinton l’emporte à 85%, 98% et 71%. Les traitements analytiques de grands volumes de données, sur lesquels ces médias se sont reposés pour réaliser leurs projections, ont montré ici leurs limites.

La qualité des données est primordiale

Le cas de cette élection a notamment mis en lumière deux mythes du big data. Tout d'abord, les data scientists émettent des probabilités et non des certitudes. Ensuite, "imaginer qu'il suffit d'amasser dans un énorme réservoir toutes les données dont on dispose pour qu’un algorithme ou une machine en déduise automatiquement des orientations ou des prédictions relève de la science fiction, assure Reda Gomery, associé responsable data et analytics chez Deloitte. C’est la qualité des données qui va définir l’intérêt et la pertinence des analyses". Autrement dit, c'est la variété des données, leur historique, le fait qu’elles représentent complètement le phénomène à analyser d’une part, et leur qualité intrinsèque (format, structuration, exploitabilité, etc.) d’autre part qui deviendront les garants d’analyses efficaces. "Ce travail de préparation en amont ne peut pas aujourd'hui être automatisé. C’est à l’humain d’intervenir à ce stade", précise l’expert.

Se méfier de la pertinence des algorithmes

Mais la qualité des données a elle seule ne fait pas tout. Les modèles algorithmiques doivent également rester pertinents. Leur longévité, voire les algorithmes eux-mêmes, doivent être constamment remis en question pour prendre en compte les changements de notre environnement politique, économie, sociétal, technologique… Il s’agit alors d’intégrer de nouvelles variables et de revoir la pondération des autres à mesure que leur impact sur la décision d’un consommateur, d’un citoyen ou d’une entreprise change.

Car les sources de données variées se multiplient à vitesse grand V, sous l’impulsion du développement des objets connectés, apportant aux algorithmes de la matière première pour affiner les analyses des organisations. "Les traitements analytiques vont permettre aux entreprises d’améliorer leurs process, leurs services et leurs produits, à condition qu’elles investissent en amont dans la capture et le stockage des données", insiste Reda Gomery.

Le big data n’anticipe pas les émotions

Toutefois, aussi bonne que puisse être la qualité des données collectées, la fiabilité du big data n’est pas pour autant garantie. "Les traitements analytiques sont des outils très puissants, mais qui deviennent bancales dans des domaines tels que la politique, où les émotions et les valeurs humaines sont déterminantes", explique John Elder, fondateur de la société de conseil en analyse prédictive Elder Research. Il s'agit d’ailleurs de l’un des défis que les entreprises doivent relever en matière de traitement de données. Les outils analytiques ne permettent en effet pas d’anticiper les émotions et les prises de décision qui en découlent.

Eddye Dibbar