L'objectif d'un portail, qu'il soit utilisé dans un contexte Internet ou intranet, consiste à agréger diverses sources d'information afin de les présenter de façon homogène. Il fournit ainsi les informations
dont les utilisateurs ont besoin, en leur évitant une recherche fastidieuse sur la Toile. Doté de nombreuses possibilités de paramétrage, un portail permet à toute personne de personnaliser le service offert et ainsi de construire son propre Web, à
une échelle qu'il peut appréhender.Mais automatiser l'extraction du contenu du Net s'avère difficile car la plupart de l'information disponible est au format HTML et change très fréquemment ! En attendant la généralisation des sources
d'information au format XML (
eXtensible Markup Language), les portails qui exploitent les données disponibles en ligne filtrent les pages HTML. Ils en extraient l'information utile et offrent ainsi des possibilités
de réactualisation des sources d'information suffisamment flexibles pour permettre de suivre le rythme de changement du contenu du Web.Cette approche est aujourd'hui offerte par le produit Net.Portal de Mediapps, disponible sur Lotus Domino et en version Java. En utilisant une définition des canaux et sources d'information au format XML, Net.Portal
simplifie la mise à jour de la description des informations extraites et autorise l'importation de nouvelles sources, offrant ainsi aux utilisateurs un contenu réactualisé en permanence.
1) Préparez votre contenu
Si vous souhaitez mettre l'information de votre site à la disposition d'utilisateurs d'un portail tel que Net.Portal, il peut s'avérer utile de faciliter le travail de recherche et d'extraction des
données diffusées. La solution la plus simple consiste à ajouter des balises dans votre contenu HTML ; le moteur d'extraction du portail est ainsi en mesure de trouver l'information clé. Dans le code A, les balises
...
< /actu> ont été ajoutées à la page HTML afin de repérer les liens vers les informations d'actualité qui doivent être extraites par le portail, excepté le dernier lien qui ne sera pas retenu. Bien entendu, ces balises seront ignorées
par le navigateur et ne seront donc pas présentées aux utilisateurs.2) Définissez une source d'information
La fonction "Gestion des sources" de l'interface d'administration de Net.Portal sert à définir ou à mettre à jour les caractéristiques d'une source d'information. Pour récupérer les liens
d'actualité de la page précédente, vous devez fournir les renseignements suivants : les données générales sur le site contenant la source d'information (voir écran 1
), puis celles de connexion vers la
page HTML renfermant l'actualité (voir écran 2
) et enfin, celles d'analyse permettant de filtrer l'information. Le formulaire de l'écran 3 in-dique au moteur
d'extraction de Net.Portal que les informations d'actualité sont encadrées par les balises ... < /actu>, suivies de la définition d'un champ qui contient le lien vers l'information d'actualité à
l'aide de l'onglet "Champs". Le lien à extraire est repéré par une balise HTML de début (< a href=) et de fin (). Il permettra à l'utilisateur du portail d'atteindre les articles qui
l'intéressent. Enfin, cette nouvelle source d'information doit être référencée par un canal (une chaîne d'information) auquel pourront souscrire les utilisateurs. Pour définir ce canal, utilisez la fonction "Gestion des
canaux" de l'interface d'administration. Il convient d'inclure "channel='ActuXML'" dans les critères de recherche afin de faire référence à la source d'information que vous venez de
déclarer.3) Récupérez ou actualisez le contenu d'une source
Net.Portal recourt à un certain nombre de programmes, les agents, pour autoriser la mise à jour des informations issues des sources. Ces agents doivent être exécutés à intervalle régulier (par exemple toutes les heures) afin
d'actualiser les données du portail. L'exécution de l'agent "initportal" collecte l'information contenue dans la source déclarée précédemment.4) Échangez une source d'information en XML
L'importation et l'exportation des sources d'information et des canaux de Net.Portal au format XML facilitent l'échange de sources d'information et la réactualisation du portail. L'éditeur
Mediapps propose en standard un grand nombre de sources intégrées au portail, incluant les cours de la Bourse, la météo... Le mécanisme d'import/export des sources au format XML autorise tout fournisseur de contenu à préparer une description
de son site dans un format directement utilisable par Net.Portal, et donc d'enrichir l'offre proposée en standard. L'exportation au format XML de la source d'information définie précédemment s'effectue depuis
l'interface d'administration et génère le document "actuXML.xml" (voir encadré code B). Ce dernier reprend l'ensemble des caractéristiques de la source ; il peut être réimporté depuis Net.Portal en exécutant
l'agent d'import "runagent nportal XmlImport actuXML.xml". Vous pouvez appliquer cette opération au canal diffusant les souscriptions possibles pour les utilisateurs.5) Pour aller plus loin
En version Java, Net.Portal fonctionne avec les principaux serveurs d'application J2EE (Java 2 Enterprise Edition), incluant BEA WebLogic et IBM Web-Sphere. Outre des fonctions d'échange des sources
d'information à l'aide de XML, Net.Portal propose une interface de programmation sous la forme de packages Java, destinés à personnaliser les fonctions offertes par le portail. Aisément utilisable depuis des pages JSP (Java
Server Pages), cette interface de programmation offre la possibilité de gérer les profils des utilisateurs, ainsi que l'affichage des informations pour un profil donné. La présentation par défaut proposée par Net.Portal est ainsi
entièrement personnalisée et de nouveaux services exploitant les canaux d'information (info boursières et météorologiques collectées en standard) sont utilisés afin d'enrichir le contenu du site.