Le bon fonctionnement de Bibliostratus dépend en grande partie de la conformité de ce qu’on lui fournit en entrée : cohérence des paramètres indiqués, mais surtout contenu des fichiers contenant les notices à analyser ou à traiter. Or les SIGB qui fournissent notamment les fichiers de notices ne donnent pas toujours le format attendu par défaut par Bibliostratus. Voici donc la plupart des messages d’erreurs qu’un utilisateur peut rencontrer à différentes étapes du traitement, et la manière de les éviter.

Non-conformité par rapport à l’Unimarc standard

Le module bleu de Bibliostratus convertit des fichiers au format MARC standard iso2709 ou XML (en UTF8 sans BOM) en fichier tabulés utilisés par le module blanc d’alignement.

Il est important que la structure des fichiers MARC issus de systèmes locaux soit conforme au format bibliographique international sur lequel est basé Bibliostratus.

Rappel : la documentation sur les formats d’échanges des données des catalogues nationaux est disponible en ligne :

  • Catalogue BnF

https://www.bnf.fr/fr/recuperer-les-donnees-de-la-bnf-au-format-marc

  • Catalogue Sudoc

http://www.abes.fr/Sudoc/Produire-dans-le-Sudoc/Formats-d-echange

Exemple d’erreur rencontrée :

Dans un fichier MARCXML exporté d’un système local, les balises doivent respecter le formalisme du format MARC.

Des zones 003 UNIMARC exportées comme des <datafield> avec <subfield> ne sont pas conformes au standard d’échange :

<datafield tag= »003″ ind1= »  » ind2= » « >
<subfield code= »a »>http://www.sudoc.fr/234034084</subfield>
</datafield>

Ces zones doivent être dans des balise <controlfield> sans balise <subfield> conformément au format d’échange comme pour toutes les autres zones 00X :
<controlfield tag= »003″>http://www.sudoc.fr/234034084</controlfield>

Ouverture de fichiers .tsv

Des fichiers au format TSV

Le module blanc (Alignement des données) admet en entrée et produit comme résultat des fichiers TSV. Il s’agit tout simplement de fichiers texte (on peut les ouvrir sans problème dans un éditeur comme le Bloc Notes de Windows ou NotePad++) constitués de colonnes séparées par des tabulations (la touche « Tab » du clavier).

C’est en quelque sorte une variante du fichier CSV, dont les colonnes sont séparées par des virgules (CSV est l’acronyme de Comma-separated values et TSV de Tabulation-separated values).

Parfois, ces fichiers ont une extension « .tsv ». Dans Bibliostratus, c’est l’extension « .txt », mieux reconnue par les logiciels de bureautique, qui a été choisie.

À l’ouverture du fichier, deux types d’erreur peuvent être rencontrés :

  • Le fichier est mal encodé. Par exemple, on se retrouve avec une chaîne de ce genre : « Problèmes dans métadonnées »
  • On ne ne trouve pas les bonnes données dans les bonnes colonnes.

Le tutoriel qui suit devrait permettre d’éviter ces erreurs.

Avec Excel

On ouvre Excel et clique sur « Ouvrir ». Dans le navigateur de fichier, attention à bien sélectionner « Fichiers texte » pour le type de fichier (par défaut, c’est « Tous les fichiers Excel » qui est proposé).

On obtient une première fenêtre dans laquelle il convient de bien choisir :

  • « Délimité » comme type de fichier,
  • « Unicode (UTF-8) » comme encodage.

On obtient une seconde fenêtre, qui demande de spécifier le type de séparateur : bien choisir « Tabulation » et vérifier que les autres séparateurs (point-virgule, virgule, …) sont bien décochés. Cliquer ensuite directement sur « Terminer », l’étape 3 peut être ignorée.

La dernière étape permet notamment de spécifier le format des données au sein de chaque colonne. Il peut par exemple être utile d’indiquer de traiter les EAN comme du texte (sinon, on obtient des puissances de 10…).

Petite astuce : En fait, il y a une méthode plus simple. Il suffit d’ouvrir le fichier dans NotePad++, puis de copier-coller dans les données dans Excel, ce dernier reconnaîtra automatiquement l’encodage et le type de séparateur.

Avec LibreOffice

C’est le même principe, mais tout est condensé dans une fenêtre unique. On ouvre le fichier et on obtient une boîte de dialogue :

  • Bien sélectionner l’encodage UTF-8
  • Spécifier que le fichier est de type « Séparé »
  • Choisir la « Tabulation » comme séparateur et vérifier que les autres séparateurs (point-virgule, virgule, …) sont bien décochés.
  • Indiquer que l’on veut les données de la colonne EAN au format « Texte »

Last updated: mai 7, 2020 at 17:23