Inscrivez-vous gratuitement à la Newsletter BFM Business
Depuis juin, les publications françaises sur internet, blogs compris, sont soumises au régime du dépôt légal. Comme la presse écrite, la télévision ou la radio. A la Bibliothèque nationale de France et à l'Institut national de
l'audiovisuel, les conservateurs du XXIe siècle se préparent à aspirer le web...
Des centaines de colloques et d'articles, des milliers de blogs, et des débats ponctués de nombreux éclats de voix ont accompagné l'élaboration du projet de loi relatif aux droits d'auteur et aux droits voisins dans la société de
l'information (DADVSI). Les parlementaires français ont adopté le texte définitif à la fin du mois de juin 2006. Tandis que les tenants de la copie privée s'opposaient aux sociétés d'auteurs qui, de leur côté, dénonçaient le principe de la licence
globale, il est une courte disposition de la loi qui n'a jamais fait l'objet de polémique. Et a été accepté sans barguigner par les différents protagonistes. De quoi s'agit-il ? Tout simplement d'appliquer à internet le principe du dépôt légal
instauré en France par une ordonnance royale de 1537. C'est-à-dire l'envoi à la Bibliothèque nationale de France (BNF) d'exemplaires de toute publication littéraire ou périodique lors de sa parution. Et, plus récemment, à l'Institut national de
l'audiovisuel (INA) pour les ?"uvres audiovisuelles. En à peine trente mots, l'article 21 de la nouvelle loi stipule donc que ' sont soumis au dépôt légal les signes, signaux, écrits, images, sons ou messages de toute nature
faisant l'objet d'une communication au public par voie électronique '. Ce dispositif juridique devrait désormais apparaître dans l'article L-131-2 du code du patrimoine. Mais si le législateur fixe en quelques phrases
lapidaires ses exigences, la mise en pratique a de quoi laisser perplexe. Enregistrer le contenu de la Toile, fort bien. Mais comment s'y prend-on ? Avec quels moyens, et à partir de quels critères techniques et éditoriaux ? C'est à
l'ensemble de ces interrogations que devront répondre dans l'année à venir les auteurs des décrets d'application qui établiront les modalités d'exercice de cet ambitieux projet.
En attendant les décrets, la collecte s'organise
' Nous avons commencé les expérimentations en 2001, en explorant les techniques de sauvegarde de données, raconte Catherine Lupovici, directrice du département de la bibliothèque numérique à la BNF.
Nous souhaitions savoir si nous pourrions gérer des volumes aussi importants. ' Ainsi, en 2001 et en 2002, la BNF a signé des conventions avec une quarantaine de sites. Notamment ceux d'entreprises de presse, des
webzines et autres banques d'images en ligne. Ce dispositif lui vaut de détenir 80 teraoctets (soit 240 octets) de données numérisées. Une autre collecte menée par la bibliothèque publique dans le domaine français, du
15 décembre 2004 au 30 janvier 2005, a débouché sur la compilation de 3 teraoctets de documents. Soit 118 380 000 fichiers au total, identifiés par une adresse internet, parmi lesquels on trouve des textes, des photographies, des
enregistrements sonores, des vidéos...L'objectif de la BNF est de disposer en 2014 d'un fonds documentaire de 800 teraoctets. Même si les décrets précisant par le détail les modalités de cet archivage hors normes devraient être finalisés au mieux d'ici à l'été 2007, pas
question de chômer entre-temps. Pendant la réflexion juridique, l'aspiration se pousuit... Même son de cloche du côté de l'INA, à qui le législateur a attribué la compétence pour les sites de radio et de télévision dont le contenu s'organise
selon une logique éditoriale proche d'une grille de programme. Cela concerne, par exemple, les sites comme celui de la chaîne d'information en continu LCI, ou ceux des antennes de Radio France. Idem pour les télévisions et radios présentes
exclusivement sur la Toile. L'Institut doit également enregistrer les sites liés à des programmes diffusés sur des chaînes de télévision ou de radio classiques. Ce qui inclut les sites des animateurs, des héros de séries, et les diverses
déclinaisons d'une émission sur le réseau des réseaux.
À la BNF, comme une idée de l'infini...
Viennent ensuite les sites jugés en relation directe ou indirecte avec l'activité des télévisions et des radios. C'est le cas du site web du Conseil supérieur de l'audiovisuel (CSA). Enfin, l'INA conservera un ?"il sur les sites à
vocation documentaires qui proposent des annuaires spécialisés, des guides web, des portails de bouquets de télévision ou des listes de programmes radio. Et sur les sites comme
www.series-onair.com, spécialisé dans les séries télévisées. Soit un total d'environ 20 000 adresses à surveiller pour l'ensemble de ces thématiques . ' Le consensus
existe pour convenir qu'il faut se doter d'une mémoire collective afin de conserver ce patrimoine créatif ', reconnaît Jean-Michel Rodes, directeur du dépôt légal à l'INA. Il prévoit un fonctionnement à pleine puissance de la
politique de stockage dans les trois ans à venir. Un sentiment partagé par les autorités qui prendront la plume pour finaliser les décrets fixant les modalités d'enregistrement : la BNF, l'INA, la Direction du livre et de la lecture (ministère
de la Culture), et la Direction du développement des médias (un service qui dépend du Premier ministre).Si le champ embrassé par la nouvelle compétence attribuée à l'INA semble déjà très vaste, celui confié à la BNF donne une idée de l'infini . Puisqu'il recouvre l'ensemble des sites français d'internet, moins évidemment les thèmes
traités par l'Institut national de l'audiovisuel, ainsi que les blogs. ' Nous ne pouvons nous restreindre aux seuls sites dudomaine.fr, explique Sophie Sepetjan, chef du service juridique de la BNF. Alors nous recherchons les sites qui sont produits en France ou bien par des éditeurs français, et qui sont
consultables à partir du territoire français. ' Bien décidés à faire preuve de pragmatisme, ces conservateurs version XXIe siècle optent pour une approche au cas par cas. ' Il ne
devrait pas y avoir de politique de collecte uniforme, analyse Geneviève Piéjut, chef de projet à l'Inathèque, et chargée de mission sur la question du dépôt légal pour internet. Certains sites seront suivis au plus près de
leurs évolutions, tandis que, pour d'autres, on se contentera d'un échantillonnage dans le temps et sur le fond. ' Cette façon de faire est en vigueur depuis 1992 pour la télévision et la radio. Ainsi, les émissions de jeux,
considérées comme trop répétitives, ne sont pas, pour la plupart, conservées dans leur intégralité. Autant d'entorses au principe originel d'un archivage exhaustif de la production intellectuelle du pays.
Souci numéro un, maintenir la lisibilité des documents
Une fois bien identifié l'enjeu de la conservation, reste à en définir le mode opératoire. Pour commencer, quelques principes simples : la collecte ne doit rien coûter aux sites concernés et l'aspiration de leurs pages doit être
indolore. Cela signifie que l'opération ne doit pas déranger la consultation des sites par les autres internautes. ' A priori, les éditeurs de sites nous perçoivent avec bienveillance, car ils savent que nous allons conserver
pour le futur une trace de leurs travaux ', rapporte Jean-Michel Rodes. Contrairement aux producteurs de films de cinéma, qui rechignaient toujours à fournir gracieusement une copie de leur film dont le prix unitaire était
élevé, il n'en est rien dans le monde numérique. Parmi les fournisseurs de contenu sur la Toile, certains reconnaissent volontiers apprécier qu'il subsiste ainsi une trace de leurs créations.D'un point de vue technique, la question de la gestion dans le temps des technologies informatiques, qui évoluent constamment, voit cohabiter deux écoles. Dans un souci bien compris de toujours rester en mesure de lire les documents
ainsi préservés. On trouve d'un côté les tenants de la migration systématique. Avec l'adoption, dès qu'elles paraissent, des nouvelles versions des solutions utilisées : HTML, XML, Flash... Et un autre courant de pensée plaidant plutôt
pour l'émulation. En empilant les versions successives : chaque enregistrement conservant la technologie employée par le site au moment de son archivage. ' C'est la pratique qui va nous obliger à trancher, confie
Jean-Michel Rodes. Et ce ne sera pas tellement une question de budget, plutôt un souci de facilité d'usage dans l'exploitation de ces fichiers. 'De la même manière, on refuse par avance à la BNF d'être contraint par la technologie. D'où une volonté partagée de combiner émulation et migration. Côté opérationnel, la BNF sollicite une vingtaine de ses départements thématiques,
qui transmettent à l'équipe en charge du dépôt légal pour internet la liste des sites qu'ils souhaitent voir pris en compte. Cela représente environ cinq mille adresses chaque année. Et l'aspiration des sites est effectuée par un moteur (ou
crawler), baptisé HT Track, qui a été développé en France. En outre, la bibliothèque publique collabore avec un collectif rassemblant onze de ses homologues dans le monde : le Consortium international pour la préservation d'internet (IIPC).
L'association de ces compétences a rendu possible l'élaboration d'outils communs de compilation de données (ceux-ci sont disponibles à l'adresse
www.netpreserve.org.). Un collaborateur de la direction informatique de la BNF est d'ailleurs chargé à plein-temps de travailler avec ces partenaires étrangers, parmi lesquels figurent les
représentants de grands pays anglophones comme les Etats-Unis, le Canada, l'Australie ou le Royaume-Uni.A l'INA, une cellule de veille composée de documentalistes a pour mission de détecter les sites pertinents, de les indexer ainsi que de déterminer les niveaux et les fréquences d'aspiration. Le moteur utilisé, Webcollecte, a été
développé en interne par les équipes tehniques. Dans tous les cas, il est prévu que le moteur d'archivage signale son passage sur le site. Ce qui signifie que les éditeurs seront informés qu'ils ont fait l'objet d'un recensement. Les responsables
des sites cryptés, ou dont l'accès est protégé par un code secret, seront contactés afin qu'ils autorisent l'entrée des moteurs de l'INA et de la BNF. ' Selon l'article L-133-1 du code du patrimoine, le fait pour toute
personne de se soustraire volontairement à l'obligation du dépôt légal est puni d'une amende de 75 000 euros avec, en outre, le prononcé possible d'une astreinte pour le forcer à s'exécuter, rappelle Me Etienne Drouard, avocat au
cabinet Gide-Loyrette-Nouel. Toutefois, le législateur a prévu un délai de trois ans à partir de l'entrée en vigueur de sa loi avant que des sanctions pénales soient applicables. '
Une mémoire collective pour un coût modique
L'INA se déclare a priori très intéressé par les éditeurs de sites relevant de son domaine qui viendraient lui proposer spontanément leurs contenus. Alors que la BNF se montre davantage favorable à un ramassage par ses propres soins.
' Ainsi, nous sommes sûrs que ce que nous enregistrons est bien ce qui était accessible à l'ensemble des internautes, insiste Catherine Lupovici. Et que la version n'a pas été remaniée. ' Pour les
blogs, la perspective de cette conservation semble plutôt convenir au besoin de reconnaissance des auteurs de ces pages personnelles. ' Si je publie mes textes, je sais ainsi qu'il en restera quelque
chose ', se réjouit François Nonnenmacher, auteur du livre Blogueur d'entreprise.Fait notable pour un chantier de cette ampleur, les sommes en jeu semblent à ce jour bien raisonnables. A la BNF, on estime qu'il faut compter un budget d'environ 200 000 euros, pour les investissements informatiques et le
fonctionnement. En effet, l'équipe est restreinte : trois documentalistes pour la sélection manuelle d'une dizaine de milliers de sites, deux informaticiens pour le développement et la gestion du moteur, et trois bibliothécaires. A l'INA, on
table sur l'emploi d'une trentaine de collaborateurs sur ce projet. Soit une enveloppe d'un million d'euros, à laquelle s'ajouteront 500 000 euros pour les investissements technologiques et immobiliers. Des sommes modiques pour bâtir une
mémoire numérique collective.
Votre opinion