Analyses de plateformes : Mise à jours des plateformes lors de la journée Parseurs

UPDATE PARSEUR

 

Bonjour,

 

Chaque mois, Yannick Schurter, Steven Wilmouth et moi-même, nous nous réunissons pendant une journée pour faire le point des plateformes dans le Trello « Suivi des plateformes ».

l’objectif de ces sessions est de recenser les dernières analyses réalisées par les contributeurs (plateformes en statut 3 dans le trello) et de faire la mise à jour des parseurs dans ezPAARSE.

 

Voici le bilan de cette dernière session :

 

Les petites corrections

iop science logo

 

https://iopscience.iop.org:443/article/10.1143/JJAP.16.2165/pdf

Le parseur de la plateforme IOP Science a été modifié car ce type de DOI n’était pas reconnu dans l’expression régulière. En effet, il contient des caractères spéciaux.

 

 

wiley logo

wiley doi caracteres speciaux ezlogger

 

Même constat pour Wiley, on peut remarquer le manque d’homogénité dans les suffixes de DOI. Il a fallu modifier l’expression régulière (regex) pour que les caratères spéciaux contenus dans l’identifiant soient pris

compte dans ezPAARSE.

 

heinonline logo

 

Cette plateforme possède un parseur et une liste de titre de publications au format Kbart (PKB) qui permet d’enrichir les évènements de consultations lors d’un traitement dans ezPAARSE.

Les URLs contiennent un identifiant « title_id » composé d’une abréviation du titre de la revue suivi d’un numéro (en caractère gras dans l’exemple) :

http://heinonline.org/HOL/Print?collection=journals&handle=hein.journals/antil77&id=53

Cette consultation correspond à un ARTICLE au format PDF

L’information contenue dans la PKB est la suivante

Antitrust Law Journal 	0003-6056		1967	32		2012	78		http://heinonline.org/HOL/Index?index=journals/antil		antil	P2Y	fulltext

 

On peut remarquer que l’information « title_id » dans la PKB ne contient pas le chiffre 77  comme dans l’URL.  C’est pourquoi il est impossible de récolter l’information du titre de la revue Antitrust Law Journal.

Nous avons modifié le parseur pour qu’il ne garde que l’abréviation du titre de revue et rejette le chiffre afin de permettre l’enrichissement grâce à la PKB disponible.

 

heinonline ezlogger pkb ok

 

Le test avec ezLOGGER permet de vérifier en détail que les métadonnées sont ajoutées à la consultation lors de l’interrogation à ezPAARSE.

 

openedition logo

 

Poursuivons dans la partie « enrichissement » des événements de consultations (Ecs) avec une modification du Scrapeur de la plateforme OpenEdition.

Pour rappel, un scrapeur est un petit programme qui interroge une API pour récupérer une liste de revues au format Kbart (PKB).

Nous interrogeons l’API Bacon (Abes) pour cet éditeur.  Suite à un problème de reformatage des listes Kbart,  OpenEdition nous a proposé de connecter le scrapeur directement à leur API afin de récupérer les titres de revues dans le bon format.

open edition scrapeur modifié

Voila le code du programme qui interroge la liste des journaux de l’éditeur avec la modification de l’URL de la requête.

Nous avons pu testé en traitant des logs du portail CNRS dans ezPAARSE.  L’enrichissement avec la PKB téléchargées directement sur l’API de OpenEdition est au bon format et fonctionne parfaitement.

open edition ec avec pkb scrapeur revu

 

Une grande correction

strada lex logo

 

Yannick Schurter, notre développeur, a travaillé sur le parseur de cette plateforme. Il y avait un gros travail pour préserver les anciennes analyses mélangées avec de nouvelles qui parfois étaient faites en doublons.

Sans rentrer dans les détails, nous insistons sur les bonnes pratiques conseillées lors d’analyses de plateforme :

  • Ne pas supprimer ou modifier une analyse existante
  • Ajouter une nouvelle analyse, même si vous avez un doute sur sa pertinence. Contactez l’équipe ezTEAM si vous souhaitez un support.
  • Pensez à vérifier la présence des identifiants « title_id » ou « unit_id » dans les URLs et indiquez ces informations dans les champs prévus dans le formulaire d’analyse.

Ces informations sont souvent essentielles pour le bon fonctionnement d’une expression régulière dans un parseur.

stradalex analyses

 

Comme vous pouvez le constater, beaucoup d’analyses et de tests ont été réalisés pour cette plateforme.

stradalex ezlogger

 

Le plus simple est de tester vous-même ce parseur avec ezLOGGER, si vous possédez un abonnement, et de vérifier si les consultations typées correspondent bien au document visualisé.

La mise à jour de votre instance locale permettra aussi de bénéficier de toutes ces corrections automatiquement lors de vos traitements de logs.

 

 

Bonne journée.

Frédéric Truong pour ezTEAM.