Big Data, la prochaine révolution informatique

Le déluge informationnel crée de nouvelles opportunités business. Sous le terme Big Data se structure tout un nouveau secteur informatique.
C’est un marché particulièrement prometteur, une nouvelle ruée vers l’or. Cloudera, 10gen, Hadapt, Infochimps, Datastax, Mapr, Pervasive Datarush, Factual, Acunu, Apixio, Citrusleaf, Couchbase… toutes ces entreprises américaines ont été créées il y a moins de deux ans pour se positionner sur le Big Data. C’est-à-dire l’analyse et l’exploitation de grandes masses de données. Pour le cabinet McKinsey Global Institute, qui vient de publier une étude sur le sujet, ce ne serait rien de moins que « le prochain cap pour l’innovation, la compétitivité et la productivité » dans les pays occidentaux.
Des millions de données informatiques

« C’est un phénomène en rupture totale avec l’informatique traditionnelle », renchérit Georges Nahon, directeur d’Orange Silicon Valley. Pourquoi ? Parce que, sous les effets d’une interconnexion toujours plus grande et d’un coût de stockage de plus en plus bas, nous sommes entrés dans une ère de déluge informationnel. Chaque acteur économique (entreprise, particulier ou administration) génère et sauvegarde perpétuellement des données plus ou moins structurées : géolocalisation par smartphone, fichiers de santé, transactions marchandes en ligne, commentaires sur les réseaux sociaux, photos sur Flickr, microblogs, capteurs RFID/NFC (sans contact), communications machine to machine, etc.
McKinsey estime qu’en 2010, les entreprises auraient stocké 7 Eo (exaoctets) supplémentaires de données, et les particuliers 6 Eo. Un exaoctet représentant 4 000 fois le contenu de la Bibliothèque du Congrès des Etats-Unis. L’idée du Big Data est de transformer toutes ces données brutes en mine d’or. « Les informations sont là, il suffit de se baisser pour les ramasser, résume Henri Verdier, PDG de MFG Labs, start up française positionnée sur ce créneau. Leur analyse permettra d’optimiser des processus, de mieux prendre des décisions, de capter des tendances, d’analyser des opinions, de créer de nouvelles places de marché. » Parmi les projets de MFG Labs figurent, entre autres, la visualisation d’un réseau de 45 millions de blogs ou la création d’un graphe relationnel à partir du contenu des réseaux sociaux, afin d’étudier la propagation d’une épidémie.
Des marges fortement accrues

Selon McKinsey, tous les secteurs économiques pourraient profiter du Big Data. Les revendeurs seraient plus en phase avec les goûts des consommateurs et optimiseraient ainsi leurs stocks et accroîtraient leurs marges nettes de 60 %. En Europe, ces techniques d’analyse des données fluidifieraient les processus administratifs du service public avec, à la clé, une baisse des coûts de 15 à 20 %, soit de 150 à 300 milliards d’euros. Pour le secteur industriel, la productivité serait améliorée à tous les étages (design, production, qualité, marketing, distribution). En particulier, le temps de développement produit pourrait être réduit de 20 à 50 %.
Mais le chemin vers cet eldorado des données est semé d’embûches. L’obstacle le plus important étant, justement, la masse d’informations à gérer et à traiter. Au-delà de quelques dizaines de téraoctets, les technologies traditionnelles – bases de données relationnelles, algorithmes d’analyse décisionnelle, etc. – sont inadaptées. « Il faut alors raisonner différemment, voire changer de modèle. C’est pourquoi, durant les cinq dernières années, un énorme effort de recherche a été porté dans le domaine des bases de données », explique Julien Laugel, responsable R&D chez Europerformance, une société d’analyse des données de fonds d’investissement.
Les défis à relever dans les années à venir
Fini la prédominance des bases de données relationnelles et du langage SQL ! Les nouvelles bases sont orientées colonnes (Vertica), graphes (Neo4J), documents (MongoDB). Sans compter celles en mémoire (VoltDB) ou spécialisées dans le traitement d’événements complexes (Streambase). Un autre paradigme du Big Data est l’architecture distribuée, laquelle étale les traitements sur un grand nombre de machines. Les technologies Hadoop et Mapreduce sont particulièrement sollicitées. On les trouve, par exemple, chez les géants du web : Facebook, eBay, Linkedin, Twitter et Yahoo.
Les techniques de visualisation constituent un autre défi, qui retient l’attention de beaucoup de chercheurs. En effet, rien ne sert d’extraire la substantifique moelle d’une montagne de données si personne ne peut la comprendre et l’interpréter. Enfin, un manque général de compétences se fait ressentir. Pour les Etats-Unis, McKinsey prévoit un déficit de 140 000 à 190 000 spécialistes en analyse de données d’ici à 2018. En ce qui concerne les autres pays, la situation ne sera guère mieux. Or constituer ce vivier de compétences est un processus long et difficile.
-
tvallaud
Le big data se résume t'il à un pb de SGDB rolap sur indexé avec des processeurs massivemet paralèlles et des flux tendu de données analysé par des languages plus ou moins ouverts dans des tusyauteries plus ou moins sophistiquées. Je ne pense pas. Ce sont les éditeurs qui veulent nous le faire croire un peu comme le CRM, une autre lubie. En fait sans analyse de données et en général plus pertinentes sur des échantillons raisonnés pas de découvertes d'évemenents pertinents. C'est donc biens la connaissance statistiques et la connaissance métier qui fait le data scientist. A méditer...
-
pubs
Le SGBDR a sans doute écrasé le marché ces dernières années, mais aujourd'hui nous sommes confrontés à de nouveaux enjeux.
Dire qu'il n'y a pas de solution aujourd'hui et que Java ne s'y prête pas est une méconnaissance totale des dernières innovations.
Il suffit d'aller creuser du côté de MapReduce et de ses applications. Amazon offre d'ailleurs un service autour de cette technologie. Yahoo, Google l'utilisent à grande échelle (et c'est peu dire). -
Vlad UK
Ce me semble être n'importe quoi cette vision big data. On confond plusieurs éléments et marché en essayant de les réunir sans comprendre chaque segment technologique.
D'abord l'analyse de donnée s'est du data mining. Les acteurs du marché sont Oracle (rachat hyperion)et SAP (rachat de BO et autres). Ensuite il y a la technologie des bases de données. A vrai dire la SGBDR a tout écrasé devant elle depuis 20 ans maintenant. J'ai personnellemenrt travailler dans la base donnée objet qui était 10 fois meilleurs et plus rapide que la SGBDR. Résultat la meilleur technologie a perdu car trop complexe. Ce sera idem et la SGBDR restera comme support mais devra s'adapter.
Enfin la virtulaization des serveurs fait appel au developement multi tread c'est à dire que lors du developement d'un logiciel le developpeur se charge aussi de la repartition des charges et non pas juste du code. Le problème est que cela n'a jamais été fait au niveau dev mais parfois au niveau deploiement !! Je travail sous Eclipse et la technologie n'existe pas sous java pour le faire donc a p oublié (désolé j'ai mis un p devant le mot oublié :-) )
Ayant dit tout cela, il reste quoi au big data ? Je recommenderai aux entreprise de trouver une techno de niche et de la vendre au plus vite à un très gros qui a les moyens d'investir en masse pour faire bouger le marché comme ce qui se passe avec le cloud aujourd'hui.
Votre opinion