Inscrivez-vous gratuitement à la Newsletter BFM Business
Les entreprises s'arment contre les risques de destruction de leur informatique. Elles créent un site de secours, et mobilisent des solutions adaptées à la criticité des applications, aux contraintes budgétaires et à la configuration géographique.
On assiste à une véritable prise de conscience, de la part des entreprises, du risque de destruction de leur informatique. Pour se protéger du pire, elles déploient un site de secours et des solutions élaborées de poursuite d'activité. ETO, société spécialisée dans les stratégies de marketing client, a opté pour la virtualisation. Elle emploie cent vingt personnes à Roubaix. Ses bases de données doivent être accessibles 24 heures sur 24, sa clientèle étant mondiale. Selon les clients, la disponibilité du service doit atteindre 99,6 %.
Tout ce qui est critique est doublé
Le DSI d'ETO, François Xavier Ousselin, a choisi la virtualisation, tant des serveurs que du stockage, et un réseau SAN. Un site de secours est ouvert à 500 m du site principal, et lui est relié par de la fibre optique, louée chez Completel. Deux logiciels clés interviennent : ESX de VMware et SANsymphony de DataCore Software. La mise en cluster des serveurs SQL de Microsoft est aussi sollicitée. Le SAN repose sur des baies DS4300 d'IBM et des commutateurs McData. Tout ce qui est critique est doublé. VMware crée des couples de serveurs en secours l'un de l'autre. DataCore réplique les données de façon synchrone entre les deux sites. ' Pour ne pas perdre en performances, SANsymphony travaille en serveur de cache avec 10 Go de mémoire sur chaque site. De plus, les données sont copiées des deux côtés en même temps, et les serveurs protégés électriquement. Il faut 15 s pour relancer un serveur virtuel sur le site de secours, explique le DSI. Si on veut 100 % de disponibilité, nous créons un cluster de bases de données. Le premier serveur SQL tourne dans une machine virtuelle sur le premier site, et le second s'exécute dans une autre machine virtuelle sur le second site. Le relais est immédiat. ' Au quotidien, les serveurs sous VMware du site de secours équilibrent la charge des serveurs du site principal (serveurs bi-Xeon et Blade Center, d'IBM). Mais la virtualisation peut être écartée car jugée trop coûteuse. ' Si on ne veut pas de baisse de performances en mode secours, il faut des serveurs plus puissants pour y héberger plusieurs applications ', estime Yann Jouveneaux, DSI de Sakata, entreprise de production de semences pour l'agriculture qui emploie trois cent cinquante personnes en Europe. Le DSI a opté pour une réplication par Double-Take, de NSI Software, adapté aux environnements Windows. Le site français de Sakata héberge le PGI, la messagerie, l'extranet et la comptabilité. Le tout est accessible depuis sept pays via le web, par client léger Citrix, et un portail SharePoint de Microsoft. Une salle de secours, bâtie à 1 km de la première, contient des serveurs identiques (10 lames biprocesseurs Xeon dans un BladeCenter 1855 de Dell et un commutateur fibre channel) et une baie de disques semblable (CLA-RiiON CX300 de 3 To). Les deux salles sont reliées en fibre optique pour les transmissions Ethernet et fibre channel. Chaque lame gère son application sous Windows 2003 : serveur Citrix, PGI, comptabilité, portail, etc. La haute disponibilité est assurée par les mécanismes de partage de charge de Citrix ou de cluster de Lotus Notes.
Ne perdre aucune transaction
Quant au PGI, les dispositifs de réplication de ses bases Progress étant trop chers, le DSI de Sakata s'est tourné vers Double-Take. Un agent Double-Take par lame recopie les transactions, en asynchrone, vers le site de secours. En cas de crash, le délai de reprise pourrait être immédiat, mais a été fixé à 30 min afin de filtrer les fausses pannes. L'objectif est aussi de ne perdre aucune transaction. Ce qui a été vérifié lors des tests.Par ailleurs, en matière de plan de reprise d'activité (PRA), on recourt souvent à la réplication entre baies. C'est le cas aux Ressources Mutuelles. Ce GIE gère le back-office de plusieurs mutuelles pour de l'assurance de personnes. Il possède deux sites (à Nantes et Orléans, distants de trois cents km). Le PGI et les serveurs Citrix sont hébergés sur le premier (sur une machine Risc 6000 P5 550Q quadriprocesseur) ; l'entrepôt de données, la gestion commerciale et d'autres serveurs Citrix sur le second (machine Risc identique). Chaque site possède une baie haut de gamme, NSC55 de HDS (12 To à Nantes, 7 To à Orléans). Cinq cents utilisateurs se connectent simultanément.
Un surplus de puissance de 30 %
Laurent Lucas, responsable de la production, a retenu cette solution pour la réplication asynchrone Hitachi Universal Replicator de HDS entre ses baies. ' Elle garantit l'intégrité de nos bases Oracle (6 à Nantes et 2 à Orléans), souligne-t-il. La réplication par journalisation est adaptée aux petits tuyaux télécoms. La réplication synchrone coûte cher et convient aux sites rapprochés. ' Les deux sites sont reliés en Ethernet à 10 Mbit/s, loué auprès de France Télécom. La liaison achemine le trafic transactionnel IP (2 Mbit/s) et le flux de réplication, sous forme de trafic fibre channel encapsulé dans IP (7 Mbit/s). La bande passante pour la réplication est dopée par une paire de boîtiers Streamcore System, qui compresse le trafic jusqu'à 75 %. Enfin, chaque serveur Risc a un surplus de puissance de 30 % afin de reprendre les applications de l'autre site. ' En cas de crash, un doublement des temps de réponse est accepté, poursuit le responsable. Au mieux, nous redémarrons en deux ou trois heures. Mais nos engagements sont de deux jours pour les applications et d'une journée de données perdue, au pire. ' En parallèle, un plan de secours informatique protège des pannes non exceptionnelles (arrêt d'une baie). Les délais sont plus courts : deux heures de reprise, et quatre heures de pertes de données.Chez Socomec, fabricant d'onduleurs et de systèmes de protection basse tension, qui emploie deux mille personnes dans le monde, dont mille en France, la prise de conscience des risques est venue d'un audit de sécurité, il y a un an et demi. ' Nous avons réalisé qu'il nous faudrait des mois pour redémarrer, en cas d'incendie de notre salle informatique ', se souvient Michel Bordes, responsable système et réseau de Socomec. Une seconde salle a été construite à 300 m de la première. Un délai de reprise d'une heure et un point de reprise d'une heure ont été fixés sur le PGI, les processus commerciaux ou la messagerie. ' Mais nos architectures permettent de basculer en moins de 15 min, et de perdre moins de 5 min de données, précise Michel Bordes. Toute l'infrastructure des processus critiques est doublée. '
Les atouts de la réplication synchrone
Socomec exploite quatre serveurs HP Itanium quadriprocesseurs sous HP UX, deux baies CLARiiON CX500 (7 To) et un SAN reposant sur deux commutateurs McData. Le PGI Baan est protégé en cluster en s'appuyant sur la solution de HP, MCServiceGuard, et Veritas File System. Les services de fichiers sont répliqués entre les baies par SAN Copy d'EMC. La duplication des bases Exchange est assurée par Replication Manager SE, d'EMC. Les bases Oracle sont protégées en asynchrone par Oracle Data Guard. ' Une protection synchrone coûte assez cher chez Oracle, explique Michel Bordes. Oracle Data Guard est livré en standard et nous avons une heure pour redémarrer. De plus, je ne suis pas partisan de la réplication synchrone, cela évite de dupliquer les erreurs. ' Dans d'autres cas, on privilégiera les atouts de la réplication synchrone : délai de reprise immédiat et aucune transaction perdue entre les deux sites. C'est la solution retenue au CHU d'Amiens pour protéger la gestion des soins et les résultats de laboratoire. Deux clusters de serveurs HP sont répartis entre deux salles distantes de 200 m. Ces serveurs sont raccordés à des baies HP, répliquées de façon synchrone et en Raid 1 entre les deux salles, via le mécanisme LVM (Logical volume manager).
Votre opinion