Accueil » SYSTÈMES ET DONNÉES » Bibliostratus : mettre en correspondance ses notices avec celles des catalogues des agences bibliographiques

Bibliostratus : mettre en correspondance ses notices avec celles des catalogues des agences bibliographiques

Dans la perspective de la conversion progressive des catalogues au modèle FRBR, le groupe Systèmes & Données met à disposition un logiciel libre, Bibliostratus, et une méthodologie pour aligner les données d’un catalogue de bibliothèque avec celui d’une des deux agences bibliographiques, la BnF.

Un nouveau logiciel pour aligner deux catalogues

Dans le cadre de la Transition bibliographique, la stratégie développée au niveau national consiste à conduire progressivement les deux grands catalogues nationaux, celui de la BnF et le Sudoc, vers un nouveau modèle de données, afin que les autres bibliothèques puissent dans un second temps bénéficier de ce travail.

Pour en bénéficier, celles-ci doivent donc faire une opération préalable d’alignement avec l’un des deux catalogues : c’est-à-dire trouver pour chaque notice locale quel est son équivalent à la BnF ou dans le Sudoc (rappelons d’ailleurs que le n° FRBNF n’est pas un identifiant suffisant).

Suite à une expérimentation menée avec le réseau des médiathèques de Montpellier et présentée à la journée professionnelle du 14 novembre 2017, le groupe Systèmes & Données a mis au point un outil et une méthode de travail pour faciliter ce processus d’alignement, d’abord avec le catalogue général de la BnF (en réponse aux besoins de la lecture publique, sans s’interdire d’évoluer vers les besoins des bibliothèques universitaires).

C’est dans ce contexte que Bibliostratus a été développé et est disponible dans sa première version stable en libre téléchargement sur la plate-forme Github.

BiblioStratus - Menu principal

Principes de fonctionnement

Bibliostratus fonctionne selon un mécanisme assez simple (décrit et représenté plus amplement sur l’espace Github) :

  • on lui fournit un fichier de notices en entrée (une extraction catalogue).
  • pour chaque notice, il recherche dans le catalogue de la BnF (via son SRU) s’il trouve la notice équivalente. Pour cela, il applique systématiquement les mêmes règles métier que si le processus était manuel :
    • recherche sur un identifiant (identifiant BnF, s’il est fourni — sinon identifiant international de type ISBN) et contrôle sur le titre ou l’auteur ;
    • à défaut, il effectue cette même recherche dans le Sudoc ;
    • à défaut, il relance la recherche dans le catalogue BnF sur une combinaison Titre-Auteur-Date-Editeur (et contrôle sur le numéro de volume si nécessaire).
  • il récupère l’identifiant ARK de la notice (ou des notices candidates).
  • il produit :
    • un tableau contenant pour chaque notice :
      • le numéro de notice initial avec les métadonnées fournies ;
      • le nombre d’ARK trouvés (et les ARK eux-mêmes) ;
      • des métadonnées BnF sommaires pour faciliter le contrôle.
    • un fichier annexe donnant :
      • les statistiques globales d’alignement (combien de notices ont récupéré 1 ARK, combien en ont récupéré 0, etc.) ;
      • la liste des problèmes rencontrés en cours de route (indisponibilité temporaire du SRU BnF, etc.) ;
      • la liste des notices pour lesquels l’ISBN du catalogue initial est différent de celui présent dans la notice BnF (ISBN10 au lieu d’ISBN13, par exemple).

Un module pour préparer les données de son catalogue

Fournir les données au mécanisme d’alignement peut se révéler un peu complexe pour certains : en effet le fichier en entrée doit être un fichier tabulé, avec une notice par ligne, et un certain nombre de colonnes permettant cet alignement (si l’information n’est pas connue, par exemple si la notice n’a pas d’ISBN, alors la colonne est vide). Pour les colonnes Titre ou « Auteur », il faut potentiellement agréger certaines zones Marc, par exemple.

Et selon le type de document, les règles métier d’alignement sont différentes : on n’effectue pas un alignement sur un lot de périodiques comme sur une collection de DVD, les métadonnées utilisées sont différentes.

Par conséquent, le logiciel propose aussi un premier module, qui à partir d’une extraction catalogue en Marc (format iso2709 ou XML) génère les différents tableaux attendus par le module d’alignement.

Module 1 : convertir une extraction catalogue en tableaux

Module 1 : convertir une extraction catalogue en tableaux

Chaque fichier produit par ce premier module peut ensuite être mis dans le module d’alignements.

Exploiter et analyser les alignements proposés

A l’issue de l’alignement, on récupère un tableau qu’il convient d’analyser pour éviter les éventuels faux positifs (alignements erronés) ou négatifs (alignements non proposés).

Le programme ne fait à ce stade que des propositions qu’il convient de valider. Selon la méthode (par ISBN, par recherche Titre-Auteur-Date) dont l’alignement a été obtenu, ces propositions sont dépendantes des données en entrée (complétude des informations fournies) et de celles du catalogue BnF. Il faut définir ou suivre une stratégie pour réaliser le plus d’alignements possibles sans générer d’erreurs.

La documentation fournie est là pour accompagner les utilisateurs dans la prise en main des tableaux produits.

Un module pour récupérer les notices BnF

Si, après un certain nombre de vérifications, la bibliothèque considère disposer d’un fichier d’alignements fiables, sous la forme d’un tableau à 2 colonnes (Numéros de notice / ARK BnF), le logiciel propose un 3e module pour récupérer les notices BnF complètes à partir d’une liste d’ARK.

Module 3 : récupérer les notices BnF - copie d'écran

Module 3 : récupérer les notices BnF

Comment récupérer ce logiciel ?

La dernière version disponible est téléchargeable dans le répertoire bin du projet sur Github. Elle est le fruit de premiers tests effectués avec des utilisateurs pilotes essentiellement issus du groupe Systèmes & Données, suite à un atelier organisé à la BnF le 19 mars 2018. Il est d’ailleurs envisagé d’autres ateliers publics de prise en main de cet outil à partir du second semestre 2018.

Le logiciel est écrit en Python, et sa version compilée (*.exe) est disponible pour des PC tournant sous Windows 64bits (Windows Seven ou Windows 10 notamment).
Si vous avez un ordinateur tournant sous Mac ou Linux, vous devrez installer le langage Python (version 3.6) et quelques librairies de fonction, et utiliser directement le code source. Voir le processus complet.

 

Last updated: juillet 5, 2018 at 15:47

En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies ou autres traceurs. En savoir plus >

Les paramètres des cookies sur ce site sont définis sur « accepter les cookies » pour vous offrir la meilleure expérience de navigation possible. Si vous continuez à utiliser ce site sans changer vos paramètres de cookies ou si vous cliquez sur "Accepter" ci-dessous, vous consentez à cela.

Fermer