Inscrivez-vous gratuitement à la Newsletter BFM Business
Outre Nepomuk, un projet de poste de travail intelligent, les tentatives pour ajouter une couche sémantique au web se multiplient. Les premières applications émergent.
IBM, SAP, HP, Mandriva, pour ne citer qu'eux, viennent de s'engager dans le projet Nepomuk. Un acronyme pour Networked Environment for Personalized, Ontologybased Management of Unified Knowledge. Planifié sur trois ans, ce projet veut
définir le poste de travail sémantique de demain. Les 17 millions d'euros du projet dont plus de 11 millions sont apportés par l'Europe doivent servir concrètement à ' définir les standards et développer des API pour
l'indexation, la recherche, le partage et la visualisation des métadonnées ', explique Stéphane Laurière, chef de projet pour Mandriva. Nepomuk est un projet neuf... pour des besoins qui ne datent pas d'hier ! En
2000, l'inventeur du web, Tim Berners-Lee, donnait déjà une définition adoptée par la majorité : ' Le web sémantique est une extension du web classique où l'information reçoit une signification bien définie améliorant les
possibilités de travail collaboratif entre les ordinateurs et les machines. ' En d'autres termes, si le web est une grande bibliothèque, il est plus facile de consulter son catalogue que de parcourir toutes ses allées. Pour
répondre à ce besoin, un groupe de travail a planché, dès 99, sur la standardisation de métadonnées. Validé aujourd'hui, le RDF, pour Resource Description Framework, définit la logique et les balises permettant de décrire les métadonnées. Le W3C a,
depuis, ajouté une déclinaison OWL (Ontology Web Language) pour représenter les ontologies. Des ontologies qui ne sont rien d'autre que des sortes de dictionnaires étendus où les liens entre les concepts sont précisés : synonymes, équivalents,
liens vers un concept de sens plus large, plus précis, etc. Problème : ces standards ne définissent pas le contenu lui-même, c'est-à-dire les différents mots ou expressions utilisés pour parler de la même chose.
Première mise en ?"uvre d'ici à un an
Un constat s'impose : ' Le web sémantique universel n'existe pas. Ce qui est logique puisqu'aucun dictionnaire universel ne peut voir le jour. En revanche, les projets métier
avancent ', assure Jean Delahousse, PDG de Mondeca, éditeur spécialisé dans ce domaine. Le seul moyen reste la création d'une ontologie commune à un secteur d'activité ou à une communauté. En France, le réseau national des
technologies logicielles recense plusieurs projets de ce type comme Web-Content, e-wok-hub ou Eiffel. Des projets qui sortent des labos pour trouver leur marché. Sur le thème du tourisme, Eiffel a démarré sur le terrain avec la mise au point d'une
ontologie. ' L'ontologie du tourisme multilingue peut être utilisée par un site de promotion du tourisme régional. Une demande d'hébergement à la campagne formulée en anglais sera renvoyée vers les gîtes ruraux ou les
campings, afin d'apporter des pistes de recherche pertinentes à l'internaute ', illustre Fabrice Lacroix, PDG de l'éditeur Antidot. En complément de la sémantique, les services web permettent de ne ramener que les
hébergements disponibles. La mise en production est prévue dans un an. En dehors de ces projets, ' la demande des entreprises reste faible. Et porte, pour l'instant, presque exclusivement sur la mise en ?"uvre de flux
RSS ', constate Xavier Lecot, consultant chez Clever Age.Une fois une ontologie définie, encore faut-il indexer les sites. Une tâche impossible à réaliser manuellement au vu du nombre d'indexeurs nécessaires. Les API indexant avec génération de tags RDF et OWL étant encore inexistantes, des
moteurs sémantiques prennent en charge cette indexation. Le moteur de Synomia a ainsi été utilisé pour créer une ontologie de Vumef (Vocabulaire unifié médical français). Dans un domaine plus commercial, la solution de Lingway extrait toutes les
données d'un document Word, un CV par exemple, pour les placer dans des champs structurés. ' Cela répond à une préoccupation des agences d'intérim qui estiment que les candidats remplissant les formulaires sur leur site sont
souvent les moins intéressants et préfèrent ceux qui envoient leur CV sous forme de fichier bureautique ', explique Hugues de Mazancourt, directeur technique de l'éditeur.
Le tag, version grand public de l'ontologie
Portés par la vague du web 2.0, dont le web sémantique peut n'apparaître que comme une composante, des sites comme del.icio.us ont adopté une démarche plus radicale pour constituer et maintenir des ontologies. En complément d'Ajax et
de XML, les ontologies prennent la forme de tags, des mots choisis par les internautes. Un système de vote fait ressortir les mots les plus adéquats pour en décrire d'autres. Un algorithme finalise cette organisation. Déjà utilisées sur Wikipédia,
ces ' folksonomies ' présentent l'intérêt de la gratuité et évitent le formalisme lourd de RDF et d'OWL. Mais, si ces tags fonctionnent bien pour décrire, par exemple, des objets, ils pourraient ne pas
être du tout adaptés à nombre de cas. La règle du ' ranking ', sur la base de la popularité, aboutit à ignorer les mots les plus rares. Dans le cas du tourisme, ' gîtes
d'étape ' pourrait disparaître des réponses au profit d'' hôtels ', par exemple. Une certitude toutefois : chez les éditeurs, internautes ou laboratoires, le web sémantique
émerge.
Votre opinion