L'académie de Rouen traque les contenus pornographiques
En tant que site pilote, l'académie de Rouen a développé une solution de filtrage de contenu web précise et évoluée en améliorant les composants open source utilisés. Grâce à elle, les élèves se trouvent protégés des sites à caractère pornographique.
Les rectorats ont la charge d'accompagner techniquement les établissements scolaires du primaire et du secondaire d'une académie. Ils doivent notamment leur proposer une solution de filtrage de contenu, en particulier pour
empêcher que les élèves ne se retrouvent sur des sites à caractère pornographique. Dans ce cadre, l'académie de Rouen a agi en tant que site pilote pour le compte du ministère de l'Éducation nationale. Cédric Foll, responsable du projet et RSSI de
l'académie, a analysé diverses solutions propriétaires ou à base de logiciels libres. Le cahier des charges explicitait plusieurs critères. Le système devait pouvoir fonctionner par liste noire adaptative, c'est-à-dire ajouter automatiquement à la
liste les sites interdits visités et non encore répertoriés. Il doit pouvoir filtrer ce que renvoie l'outil de recherche Google Image. Le filtrage en temps réel des sites pornographiques par une analyse du contenu des pages HTML doit également
pouvoir s'opérer à la volée. Ajoutons à cela la possibilité d'un enrichissement du système avec les propres listes noires de l'académie de façon simple, via des scripts. Enfin, le filtrage antivirus est jugé optionnel.
L'académie de Rouen a étudié plusieurs solutions propriétaires, estimées très onéreuses ou pas assez souples dans l'enrichissement de la liste noire. Elle s'est alors tournée vers des solutions open source à base du pare-feu
Amon, développé spécialement pour l'Éducation nationale, du proxy cache Squid, du filtrage de contenu DansGuardian et de l'antivirus ClamAV. Au-delà du paramétrage soigné des logiciels, l'intérêt de ce choix réside dans le
développement, réalisé en interne, qui permet de redéfinir les catégories des sites web et de corriger les erreurs de ' répertoriation '. Chaque soir, le programme récupère les fichiers de
journalisation (logs) de tous les proxies et télécharge une page des sites inconnus. Grâce à une analyse bayésienne ?" une dizaine de minutes suffisent pour scruter des milliers de pages ?", tout
site web interdit sera automatiquement répertorié en liste noire. De plus, un système d'analyse en temps réel a été développé pour DansGuardian en s'appuyant sur l'analyse des champs Meta des balises HTML et sur le titre du site.