MapR sort Hadoop de sa logique asynchrone

[IT Press Tour Silicon Valley 2011]. Le framework Hadoop de la start up MapR s’appuie sur un système de fichiers maison facilitant l’intégration avec les applications d’entreprise.
De la vague de start up américaines positionnées sur les piles Hadoop (framework destiné aux traitements et au stockage distribués de très gros volume de données), MapR est sûrement celle dont la fibre commerciale est la plus prononcée. A la différence d’Hortonworks et de Cloudera, également visitées lors de l'IT Press Tour Silicon Valley 2011, sa distribution d’Hadoop n’est pas totalement open source. Si elle reprend la plupart des éléments de la pile tels que Hive (langage SQL), Pig (langage procédural pour la gestion de flux de données), Sqoop (SQL vers hadoop) et MapReduce (modèle de programmation distribué), MapR a remplacé ce qui fait communément le cœur d’Hadoop : son système de fichier, HDFS.
S’ouvrir aux environnements d’entreprise

Pourquoi ce changement ? Pour décloisonner les piles Hadoop du reste du système d'information, et plus précisément pour faciliter l’intégration avec les bases et applications transactionnelles existantes dans l’entreprise. « HDFS n’est pas adapté pour l’import et l’export de données. Pour l’alimenter, il requiert des processus batch », explique Jack Norris,vice-président marketing. Il insiste sur le fait que le mécanisme d’écriture dans HDFS et similaire à celui de la finalisation de cession lors de la gravure d’un CD. « La seule façon d’accéder aux fichiers est d’attendre que ces derniers soient physiquement clôturés. »
Pour lever cette limitation, MapR a bâti son propre système de fichiers (baptisé Lockless Storage Services). Accessible par le biais du protocole standardisé NFS, il autorise les écritures et les lectures simultanées. « Une application de streaming qui génère des fichiers de log peut ainsi directement écrire dans le cluster de MapR. Et les analyses sur ces données sont alors effectuée de manière continue. Bref, on élimine ici l’orientation batch de HDFS », détaille-t-il.
Un mécanisme de protection de données plus avancé

Autre manque de HDFS comblé par le système de fichiers de MapR : les fonctions avancées de protection de données. En l’occurrence les fonctions de snapshot et de mirroring. Ça n’est d’ailleurs pas un hasard si la pile Hadoop de la jeune pousse fait l’objet, depuis juin dernier, d’un accord OEM avec un géant des systèmes de stockage comme EMC.
Enfin, Lockless est également censé dépasser HDFS sur la volumétrie. D’après Jack Norris, il est limité à 70 millions de fichiers car la couche d’adressage du stockage (le Name Node, dans le jargon Hadoop) est centralisé. « Dans notre système, il est distribué sur chaque nœud. Ce faisant, nous pouvons stocker jusqu’à un milliard de fichiers », avance-t-il.
Reste à voir comment la distribution assurera la compatibilité avec les évolutions des différentes piles Hadoop. La start up assure qu’elle maintient les API de HDFS. Par conséquent, n’importe quelle application conçue pour ce système de fichiers pourra s’appuyer sur la couche de stockage propriétaire de MapR.
Votre opinion