Analyses de plateformes : Corrections des parseurs avant les grandes vacances

Bonjour,

Nous avons procédé à des corrections sur les parseurs des plateformes suivantes :

Wiley, Nature Publishing Group, Acs, Silverchair et Cairn.

En effet, un travail approfondi sur les logs des Portail BIBCNRS et INSERM et des comparaisons entre les statistiques éditeurs (COUNTER) et les événements de consultations (ECs) produits par ezPAARSE , nous avons pu déceler des cas particuliers d’anomalies de paramétrage de DOI et d’URLs qui avaient une incidence importante dans le comptage des requêtes.

Un échange constructif avec l’éditeur Cairn nous a par exemple permis de mettre à jour le parseur de leur plateforme. L’équipe technique de l’éditeur nous a communiqué un fichier détaillant les formes d’URLs pour les types de requêtes et les identifiants des ressources électroniques.

Nous tenons à les remercier pour leur aide et la bonne communication engagée avec l’équipe ezTEAM.

 

Voici le détail des modifications pour chaque plateforme

 

wiley logo petit

Reconnaissance d’une forme de DOI  : Un grand nombre d’URLs n’étaient pas identifiées car comportant des caractères non pris en compte dans les expressions régulières (. _ -).  exemple :

https://onlinelibrary.wiley.com:443/doi/epdf/10.1111/j.1467-6451.2008.00356.x

Les tests sur les logs montrent que ces requêtes sont maintenant reconnues dans ezPAARSE

wiley resultat parseur corrigé 2018

L’identifiant prioritaire sur la plateforme Wiley est le DOI. C’est pourquoi la mise à jour du parseur privilégie le traitement d’enrichissement avec l’API Crossref.

 

Nature-Publishing-Group-logo petit

 

Comme pour la plateforme Wiley, nous avons détecté dans les logs des URLs non reconnues par le parseur. L’identifiant DOI y est là aussi en cause.

L’URL de consultation ARTICLE est paramétrée de cette manière :

https://www.nature.com/articles/nplants201718

Le DOI reconstitué dans le parseur était 10.1038/nplants201718

En cherchant les informations de ce DOI dans Crossref, nous n’obtenons aucun résultat car il est invalide.

Il s’avère que l’éditeur a oublié le caractère « . » entre nplants (title_id),  2017 (année) et 18 (page) dans le paramétrage de l’URL.

Nous avons modifié le parseur pour qu’il ajoute les « . » entre ces informations.

Le DOI reconstitué valide est 10.1038/nplants.2017.18

npg doi crossref

NPG doi test reconstitué

Un test sur les logs montrent que la modification fonctionne pour ce type de DOI.

 

Nous avons constaté dans les ECs du portail BIBCNRS pour les ARTICLE contenaient un DOI avec l’information « undifined » dans le suffixe.

acs indefined doi

Ces DOI n’existent pas et la consultation ne doit pas être comptabilisée. Nous avons modifié le parseur pour qu’il rejette ces URLs.

acs doi indefined supprimé

Après correction du parseur, les URLS contenant ce DOI sont écartées du rapport.

Cela implique qu’au moment du retraitement des logs de votre établissement, vous aurez moins d’ECs de type ARTICLE dans le total de la plateforme ACS.

 

Nous avons analysé l’URL de consultation ARTICLE PDF pour l’éditeur Oxford University Press (plateforme agrégée par SILVERCHAIR dans ezPAARSE)

silverchair url pdf

 

Le domaine « watermark.silverchair.com n’était pas reconnu dans ezPAARSE.  Ce type d’URL contient un identifiant « dew23 » qui ne permet pas d’enrichir la consultation par des données bibliographiques.

Il s’agit dans ce cas d’un comptage général des PDFs pour Oxford University Press.

Le parseur a été modifié pour reconnaître cette consultation importante (JR1)  et testé dans ezLOGGER

OUP ezlogger

Nous vous invitons également à vérifier que cette URL est bien proxifiée. Dans le cas contraire, elle ne sera pas enregistrée dans les logs et donc ne sera pas traitée par ezPAARSE ni visualisée dans la plateforme ezMESURE.

 

cairn logo

 

L’éditeur CAIRN nous a communiqué un document  contenant les différentes formes d’URLs des accès au texte intégral comptabilisées dans leurs rapports statistiques pour nous permettre de vérifier si notre parseur dans ezPAARSE les reconnaît aussi.

cairn document url texte integral

En conséquence, nous avons revu tout le parseur de CAIRN.

cairn parseur refactorisé

cairn ezlogger

A noter :  
La modification de ce parseur va entraîner une baisse des consultations de type ARTICLE. En effet, nous tenons compte aujourd'hui du paramètre  "p" pour preview" (premières pages d'un article)  à ne pas confondre avec "page"  pour un ARTICLE en version intégrale. Dans l'ancienne version du parseur, des URLs avec "p" étaient comptées en ARTICLE, d’où la baisse avec la mise à jour.

cairn preview ezlogger

Cairn ARTICLE PAGE ezLOGGER

Nous remercions Jean-Baptiste de Vathaire de nous avoir communiqué toutes les informations permettant d’améliorer le parseur de l’éditeur Cairn.

Nous vous invitons à tester toutes ces mises à jour avec ezLOGGER ou avec vos logs d’établissement dans l’instance locale ezPAARSE mise à jour au préalable.

Nous vous conseillons également de retraiter complètement vos logs de l’année pour bénéficier de toutes ces mises à jours et ainsi d’affiner vos statistiques produites dans ezPAARSE.

 

Frédéric Truong pour ezTEAM.