Inscrivez-vous gratuitement à la Newsletter BFM Business
Pour son premier projet interne de numérisation, l'établissement s'est appuyé sur le prestataire de numérisation Diadeis, et sur le Cines pour l'archivage pérenne. Plus de 1 100 ouvrages sont appelés à être numérisés d'ici à la fin de l'année.
“ La démarche de numérisation de Google incite les bibliothèques à se replier sur des niches. ” Ainsi s'exprime Mathieu Andro, chef de projet numérisation à la bibliothèque Sainte-Geneviève (BSG). Car le choix des ouvrages à numériser, selon des critères d'unicité, d'intérêt patrimonial…, constitue la première étape d'un projet de numérisation. Pour éviter les problèmes de droits d'auteur, la BSG ne numérise que des ouvrages antérieurs à 1880. La sélection s'effectue par élimination. “ Nous avons sélectionné les documents pas encore scannés par d'autres bibliothèques ou ceux dont les notices n'existent nulle part ailleurs. ” Pour des ouvrages anciens comme les incunables, chaque exemplaire dispose en effet d'une documentation associée.
Prendre l'archivage en compte dès le début
De nombreux documents étant déjà disponibles dans Gallica ou dans Google Books, l'existence d'une version électronique a été vérifiée manuellement, car les tentatives pour développer un outil automatisant la vérification se sont avérées infructueuses. Pour les ouvrages plus récents du XIXe siècle, une liste d'unica a été générée à partir du catalogue national des bibliothèques de l'enseignement supérieur (Sudoc).Au final, t trois types d'ouvrages ont été sélectionnés : des incunables, des livres de voyages nordiques et 600 unica sur 15 000 éligibles à la numérisation. En tout, plus de 1 100 ouvrages. L'appel d'offres concernait à la fois la numérisation et le versement à l'archivage des fichiers. La BSG a reçu huit réponses : “ Diadeis a fait la différence au niveau technique en acceptant de gérer l'archivage avec le Centre informatique national de l'enseignement supérieur (Cines), se souvient Mathieu Andro. C'était le seul prestataire qui accepte la livraison de fichiers par transfert FTP et l'envoi de fichiers XML au format demandé. ” Plus globalement, trois critères ont servi à départager les prestataires : la qualité du mémoire technique (50 % de la note), le prix (30 %) et le calendrier (20 %). Diadeis a fourni un bon mémoire technique et proposé un tarif très concurrentiel. Des critères comme le manque de références en matière d'incunables n'étaient pas censés rentrer en considération.“ Nous avons commencé par tester le processus sur deux ouvrages, pour nous assurer que nous étions d'accord avec le cahier des charges ”, se souvient Mathieu Andro. Le poste de numérisation est installé au sein de la BSG. Un coffre-fort protège les ouvrages sortis des réserves le temps de leur traitement. Et la bibliothèque a souscrit une assurance d'un montant conséquent. Les scanners à tourne-page automatique sont bannis des ateliers. François Papart, chef de projet chez Diadeis, explique : “ La plupart des ouvrages sont trop fragiles pour être traités de manière automatique. ” Incunables et livres de voyages nordiques sont numérisés à l'aide d'un scanner à balayage (Zeutschel), avec un angle d'ouverture de 90° à 120°. Les unica, eux, le sont à l'aide d'un dispositif s'appuyant sur un appareil photo (Book Drive Pro d'Atiz), à une résolution d'environ 300 dpi (points par pouce).
Une numérisation adaptée à chaque ouvrage
“ Nous sommes contre la course aux dpi, explique Jean-Charles Morisseau, PDG de Diadeis. Certains fabricants de scanners font d'ailleurs de fausses annonces sur les capacités de résolution de leurs appareils. ” Le nombre de dpi choisi dépend de l'usage qu'il sera fait du fichier numérique final. Si beaucoup de détails sont requis, ainsi que la possibilité d'effectuer des zooms, il est préférable d'opter pour 400 dpi, voire 600, comme c'est le cas pour les incunables. “ En zoomant puis en analysant les formes des caractères et la couleur des encres employées, les historiens du livre déterminent de quel atelier provient l'ouvrage, précise Mathieu Andro. Ces besoins sont très spécifiques au milieu du patrimoine culturel. ” Une numérisation en haute résolution sera choisie pour anticiper le besoin de détails des futurs lecteurs et limitera le risque de numériser une nouvelle fois les documents. En revanche, si seule la conversion en fichier texte, à l'aide d'un algorithme d'OCR (reconnaissance optique de caractères) est prévue, 300 dpi sont suffisants. “ Trois taux de qualité d'OCR sont proposés : brut, garanti et de qualité éditoriale ”, explique Jean-Charles Morisseau. L'OCR brut s'applique aux livres faciles. Mais des erreurs apparaissent rapidement dans la segmentation du texte, notamment dans les notes de bas de page. L'OCR garanti mixe opérations informatiques et manuelles avec correction des segments et ajout de données dans des fichiers XML, en plus de la correction du contenu et de la consultation d'un dictionnaire, en cas de doute. Quant à l'OCR de qualité éditoriale, on y recourt dans le cadre d'une republication, afin de se rapprocher au plus près de l'exemplaire original. L'OCR brut a été utilisé à la bibliothèque Sainte-Geneviève pour les unica et les livres de voyages nordiques.Ces méthodes ne sont pas applicables aux ouvrages anciens comme les incunables, du fait des caractères arrondis et des mélanges de langues, notamment. Ceux-ci sont plus difficiles à numériser en termes de manipulation, et ils génèrent moins de métadonnées que les livres plus récents pour lesquels des tables des matières sont saisies et des tables de correspondances créées. A côté du poste de numérisation, un poste destiné au contrôle exhaustif des contenus numérisés est installé. Netteté et cadrage sont vérifiés pour chaque image. Les livres scannés n'ayant pas toujours de pagination, il est difficile d'être sûr que toutes les pages sont scannées sans vérification manuelle systématique. Les rejets pour cause de page à l'envers ou d'oubli n'étant pas si rares, l'équipe de la BSG a préféré la vérification systématique aux systèmes d'échantillonnage souvent opérés par les bibliothèques. Ces derniers consistent à vérifier de manière aléatoire un certain nombre de fichiers pour contrôler le niveau de qualité.L'archivage à long terme des documents n'a pas été négligé. Pour le réaliser, la BSG a fait confiance au Cines, le versement des fichiers JPG et XML étant effectué par Diadeis. Le Cines assure une conservation pérenne pour 5 000 euros par teraoctet et par an. “ Le coût de la prestation risque d'inciter de nombreux établissements à y renoncer ”, déplore cependant Mathieu Andro. Beaucoup, du coup, se reposent sur des DVD et des disques durs, dont la durée de vie est limitée.
Prévoir la diffusion des contenus numérisés
Comme l'archivage, la diffusion des contenus est coûteuse et donc problématique pour les bibliothèques. “ Une partie importante des documents numérisés n'est pas diffusée en ligne ”, regrette Mathieu Andro. Pour permettre la consultation des ouvrages par le public, la BSG dépose gratuitement des fichiers JPG en 150 dpi sur le site Archive.org et saisit à la main les données associées du catalogue. Ceci conduit au référencement des ouvrages par la Bibliothèque nationale de France, car Gallica récolte les métadonnées des ouvrages disponibles sur le web. Mais la base ne fait que pointer vers les fichiers. “ La diffusion sur Archive.org apporte un bon référencement par les moteurs de recherche, une forte visibilité des ouvrages au niveau international, ou encore la création de fichiers au format Epub à la volée. Le tout gratuitement ”, énumère Mathieu Andro. Un projet de plate-forme web mutualisée est en cours avec le Pôle de recherche et d'enseignement supérieur, pour améliorer encore la diffusion des ouvrages. Rendez-vous en 2012.
Votre opinion