Big data : Dataiku propose le Photoshop du data scientist

La startup parisienne Dataiku propose d'accompagner les data scientists dans l'intégration de leurs données et la construction de modèles prédictifs. Prochaine étape : se lancer aux Etats-Unis.
« Je travaille dans l’informatique autour de la donnée depuis une quinzaine d’années. Et, dans toutes mes expériences, j’ai vu des entreprises frustrées de ne pas pouvoir réellement faire quelque chose avec leurs données », raconte Florian Douetteau, PDG et cofondateur de Dataiku. De fait, pour exploiter correctement leurs données, les entreprises doivent faire faire face à de nombreux obstacles. Elles doivent, par exemple, travailler sur leur qualité et avoir des compétences en interne sur des technologies comme le machine learning ou le prédictif.
Fabriquer une application ou un flux de données utilisable par les métiers

C’est de ces constatations qu’est née la startup Dataiku. « Nous essayons de fabriquer le Photoshop du data scientist » résume Florian Douetteau qui ajoute « le data scientist est encore un profil flou dans l’entreprise. C’est parfois un analyste métier qui se dote de compétences plus techniques de statisticien, ou un ingénieur informaticien qui s’intéresse plus au fonctionnel, aux métiers ».
Dataiku s’adresse donc à des publics variés avec l’objectif de les aider à aller plus vite dans l’intégration de leurs données et à la construction de modèles prédictifs. Sa solution, le Data Science Studio (DSS) aide les data scientist, ou ceux qui en font office, à fabriquer une application ou un flux de données utilisable par les métiers comme le marketing.
En entrée, DSS récupère les données d’Hadoop, l’un des frameworks big data les plus connus, mais aussi de bases de données traditionnelles ou NoSQL. « Nous observons souvent une grande fragmentation du SI entre des nouvelles et des anciennes briques. Du coup, nous devons supporter différentes technologies pour pouvoir croiser des données anciennes et d'autres, plus nouvelles », complète Florian Douetteau. L’outil aide à charger, nettoyer, et préparer les données à analyser.

À la sortie, DSS fournit un tableau de bord sur la qualité des connexions aux différentes bases de données et un flux de données qui permet d’avoir des prédictions à jour et utilisables opérationnellement. Il aide à construire des graphes et des diagrammes qui sont ensuite partagés entre plusieurs collaborateurs. En mode automatisé, le flux est réinjecté dans n’importe quel outil du SI (Système d’information) des clients.

Utiliser les analyses prédictives réalisées par le Data Science Studio
Concrètement, l’outil sert, par exemple, à suggérer un montant à miser sur telle campagne publicitaire ou à corriger telle entrée d’une base de données. « Nos clients veulent mieux placer leurs produits sur leur site, mieux comprendre quel est le coût d’un client, être capable de l’anticiper, ou encore extraire de nouvelles variables pour optimiser leur moteur d’analyse de risques », énumère Florian Douetteau.
Un client comme Parkeon utilise les données collectées quotidiennement par les parcmètres pour faire des prédictions de stationnement en fonction des habitudes des automobilistes. L’objectif est d’optimiser le plan de stationnement des villes et de proposer des applications aux citadins pour les aider à trouver une place où se garer.
Dataiku a été fondée en janvier 2013 par Florian Douetteau, Marc Batty, Thomas Cabrol et Clément Stenac. Son nom vient de la concaténation des mots « data » et « haiku » (courts poèmes japonais). Elle compte 16 employés et vise entre 1 million et 1,5 million de chiffre d’affaires cette année. Elle revendique une quinzaine de clients comme Vente-privee.com, PagesJaunes, Parkeon, Blablacar et une paire de clients du CAC40.
La solution, disponible sous forme d’application web, s’installe sur les serveurs de la société et est facturée sous forme de souscription annuelle en fonction des tailles de cluster Hadoop et du nombre d’utilisateurs. La tarification commence à 3000 euros par mois. Dataiku travaille avec des partenaires intégrateurs comme Capgemini qui aident leur client à analyser leurs données.
En route vers les États-Unis
L’avenir de la startup se dessine à l’international en commençant par l’Amérique du Nord. « Pour être pertinent sur le marché de la data, il est important de se confronter le plus tôt possible à la logique du marché américain très en avance dans le secteur. Nous n’avons pas de concurrents directs en Europe, mais beaucoup de sociétés américaines se positionnent sur le même segment que Dataiku » assure Florian Douetteau. La structure espère ouvrir un bureau en début d’année prochaine à San Francisco ou Boston. « L’un de nos points forts c’est de proposer un outil visuel et connecté à l’univers open source », ajoute Florian Douetteau.