Traitement des logs dans ezPAARSE: enrichissement Crossref

crossref logo grand

 

Bonjour à toutes et à tous,

Durant l’été, l’équipe effectue des tests sur le bon fonctionnement des traitements de logs dans ezPAARSE.

Nos collègues de l’équipe Statistiques de l’Inist-CNRS qui travaillent sur des volumes importants de données nous ont signalé une anomalie dans l’enrichissement des événements de consultation (EC) par l’identifiant DOI dans Crossref.

Rappel sur l’enrichissement Crossref :

Lors du traitement des logs dans ezPAARSE, les EC produits sont ensuite enrichis par une interrogation de l’API Crossref publique à l’aide de l’identifiant DOI. Les plateformes comme Science-Direct ou Wiley fournissent cet identifiant dans leurs URLs.

metadonnées crossref

Pour exemple, le DOI 10.1002/smll.201503208 correspond à l’article ci dessus.

Le middleware (logiciel annexe qui interroge l’api Crossref)  dans ezPAARSE va récupérer les métadonnées (publication_title, ISSN, publication_date,…)  de l’article consulté et compléter ou enrichir les champs en sortie d’ezPAARSE. Cette action est très importante. Grace au DOI, nous pouvons qualifier très précisément chaque EC.

L’anomalie

Nous avons constaté récemment que les EC qui possèdent un DOI étaient partiellement enrichis par les métadonnées Crossref.

Voici un exemple de quelques EC non enrichis récupérés sur la plateforme Wiley (ce sont ceux pour lesquels les colonnes print_identifier, publication_title et publication_date sont vides) :

ecs partiellement enrichis wiley

Le parseur dédié à Wiley a bien détecté et extrait chaque DOI : la colonne ‘doi’ est correctement renseignée pour tous les EC. En revanche, pour certains EC, l’enrichissement par l’API Crossref a échoué et les champs publication_title, publication_date, print_identifier et online_identifier sont vides.

Ce problème ne se produit donc pas pour tous les DOI renseignés d’une plateforme, mais pour un nombre aléatoire et constitue un obstacle certain à la comparaison entre les statistiques fournis par l’éditeur et les EC produits par ezPAARSE.

TESTS ET SOLUTION

L’équipe, et en particulier Yannick qui est en charge du développement et de la maintenance d’ezPAARSE, a trouvé et corrigé le problème.

L’interrogation vers l’API Crossref se fait par « paquets  » de DOI et les informations retournées sont mises en cache (c’est à dire temporairement conservées pour pouvoir resservir en cas d’interrogations multiples sur un même DOI). Sans entrer dans des détails techniques, l’anomalie a été réglée par une mise en concordance des informations envoyées et des informations reçues.

RETRAITEMENT DE VOS LOGS

Nous vous invitons à vérifier vos EC. Si vous constatez l’anomalie décrite dans cet article, nous vous conseillons de mettre à jour votre instance locale ezPAARSE et de retraiter vos logs.

Veuillez nous excuser de ce désagrément et n’hésitez pas à nous faire un retour.

Bonne journée

Frédéric pour ezTEAM

 

 

 

 

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *