Les faits
Annoncée à la mi-octobre à Las Vegas, la version 9.5 de DB2 Warehouse stocke et interprète des contenus textuels. La prochaine mouture de la plate-forme Clementine, de SPSS, ainsi que les recherches conjointes de Temis, KXEN, et Eptica travaillent aussi à rapprocher données structurées et non structurées.L'analyse
' Ma connexion à internet est rompue depuis des semaines, j'ai essayé de vous joindre dix fois, je résilie mon contrat. ' Panne, qualité de service, défection de client... ce message posté sur le site d'un opérateur contient ces trois sujets. Ils ne seront pourtant pas exploités à des fins d'analyse. Celles-ci ne s'applique qu'aux données structurées stockées dans un entrepôt : référence client, nom, type d'équipement... Les entreprises gagneraient pourtant à ordonner et exploiter ce gisement d'informations et à le rapprocher des données historisées. Souhaitée depuis longtemps, cette convergence se concrétise avec la dernière version de DB2 Warehouse. L'entrepôt d'IBM s'ouvre en effet aux textes courts : saisis en ligne ou envoyés par courrier électronique. Il embarque nativement deux annotateurs des modules d'analyse de texte. L'un importe des dictionnaires (de produits, de clients, de lieux...), l'autre reconnaît des formes (numéro de téléphone, référence client...). Tous deux reposent sur UIMA (Unstructured Information Management Architecture), framework open source lancé par IBM en 2005 et récemment standardisé par l'Oasis. UIMA présente un environnement de modélisation d'annotateurs et spécifie le format des métadonnées issues d'un traitement textuel : indexation, catégorisation, traduction... Résultat, tous les éditeurs qui reconnaissent UIMA, tels Arisem, Temis, ou Nstein, peuvent incorporer leurs annotateurs dans le nouveau datawarehouse d'IBM.Les métadonnées issues de ces traitements (taux de satisfaction, de défection, type de panne) viennent ensuite peupler les champs de l'entrepôt. Elles sont dès lors traitées comme tout enregistrement d'une base de données. Les outils de requêtage, de datamining ou les frontaux des centres de contacts les exploitent pour générer des alertes, dresser des profils ou déceler les principales thématiques des courriers envoyés par un client. SPSS, spécialiste du datamining, est aussi sur ce terrain depuis l'acquisition en 2002 du Français Lexiquest. Fin 2005, avec la version 10 de sa plate-forme Clementine, l'éditeur parvient à faire fonctionner datamining et textmining au sein d'un même processus. La prochaine mouture V12, disponible début 2008, fera la part belle à la modélisation d'annotateurs et à l'ajout de bibliothèques.Les Français aussi sur le coup
Notons également l'initiative conjointe de KXEN (datamining), Temis (textmining), et Eptica (relation client), assistés par le Laboratoire informatique Paris-VI et le Laboratoire informatique de Paris-Nord. Soutenu par l'ANR (Agence nationale de la recherche), leur projet Septia vise à automatiser les traitements des courriels dans les centres de contacts. Il s'agira notamment d'identifier des concepts (avec Temis) et de les rapprocher de catégories thématiques (grâce à KXEN) pour un meilleur routage des messages vers les agents compétents. Ou encore de relancer le processus de catégorisation thématique (assuré par Temis) sur la base d'alertes générées par le système de prévision des courriers reçus (fourni par KXEN).Si avec IBM, SPPS, le trio KXEN-Temis-Eptica, ou encore SAS Text Miner et Teradata (via un partenariat avec l'éditeur Attensity), les technologies gagnent en maturité, les clients manquent encore à l'appel. Chacun de ces éditeurs n'en compte au mieux que quelques dizaines. ' Certes 80 % des informations disponibles en entreprise proviennent du non-structuré, reconnaît Jean-Marc Bonnet, de Teradata. Mais la priorité porte encore sur lanalyse des 20 % de données stockées dans des bases. '
Votre opinion