Analyses de plateformes : Importante mise à jour du parseur Highwire

highwire logo

Bonjour,

HighWire est un agrégateur de différents Editeurs scientifiques américains. Dans ezPAARSE, nous avons développé un parseur commun à tous ces éditeurs car, pour une majorité d’entre eux, les structures d’URLs de consultations sont identiques. Seuls les domaines et les identifiants sont différents.

Quelques exemples de domaines reconnus dans le parseur de la plateforme HighWire :

  • science.sciencemag.org
  • aem.asm.org
  • www.pnas.org

Quelques exemples d’URLs de consultation d’ARTICLE au format HTML pour 3 revues distinctes :

  • http://science.sciencemag.org:80/content/341/6145/499.full
  • http://aem.asm.org:80/content/82/2/438.full
  • http://www.pnas.org:80/content/101/44/15664.full

On voit que la forme d’URL est commune aux 3 éditeurs. Les identifiants indiqués après /content/ sont :

/341/   volume de la revue

/6145/ numéro de la revue

/499     première page de l’article

Comparaison DES statistiques Éditeurs avec ezPAARSE

Notre collègue Sonia Launay , correspondante documentaire du Portail BibCnrs s’est engagée dans une comparaison des rapports COUNTER fournis par Highwire avec les événements de consultations produits dans ezPAARSE. Au cours de son étude, elle s’est rendue compte que les requêtes type ARTICLE HTML étaient très importantes dans les rapports générés par ezPAARSE.

Un état des lieux de la plateforme

highwire test revues consultées ezmesure ezlogger

Après des tests approfondis sur l’ensemble des titres consultés sur le portail BibCnrs nous constatons que :

  • 3 domaines ont un paramétrage différent pour les Urls Abstract / Article

    Il s’agit de sciencemag.org, asm.org et jbc.org

    Par exemple, l’URL de consultation suivante  :

 http://science.sciencemag.org/287/5457/1489 est un abstract (ABS) reconnu dans ezPAARSE             comme un ARTICLE

Highwire exception editeurs

Voici un exemple correspondant au problème décelé lors de la comparaison des statistiques éditeurs/ezPAARSE pour les Revues Science et PNAS :

highwire abs sciencemag

htpp:/science.sciencemag.org/content/360/6385/209 

Cette consultation correspond à un abstract (résumé) à laquelle on attribue donc le type ABS.

La revue PNAS :

highwire article pnas

http://www.pnas.org/content/115/16/4021

C’est bien la même URL, nous consultons ici un ARTICLE et non pas un ABS. c’est le type de consultation par défaut appliqué à l’ensemble des éditeurs agrégés sur HighWire.

La correction sur le parseur

highwire parseur exclusions domaines abs

Notre développeur Yannick a inséré dans le parseur une liste « d’exclusion » pour les éditeurs qui affichent un ABS au lieu d’un ARTICLE.

Cette correction est très importante car elle va permettre de rétablir le bon comptage des articles (qui étaient comptés en double pour SCIENCE).

Les tests avec ezLOGGER

highwire tests ezlogger

Les tests montrent que pour une structure d’URL identique, nous avons désormais bien un ABS pour Science et un ARTICLE pour PNAS.

Les autres corrections

  • HighWire a développé une nouvelle plateforme (basée sur ATYPON) en parallèle de l’actuelle version pour certains éditeurs avec de nouvelles URLs de consultation.

Nous avons fait les analyses et mis à jour le parseur qui en tient désormais compte.

highwire analyses

Ces consultations sont maintenant analysées dans ezPAARSE, ce qui n’était pas le cas auparavant.

highwire test atypon ezlogger

Ce type de plateforme fournit le DOI dans les URLs, permettant à ezPAARSE d’enrichir les ECs à l’aide de l’API Crossref.

Bilan

La correction apportées au parseur pour permettre de qualifier au plus juste les ABS et les ARTICLE ne peut couvrir l’ensemble de la plateforme Highwire. En effet, nous avons décelé pendant nos tests une autre contrainte qui souligne l’incohérence du paramétrage de l’agrégateur pour ses Urls. Les archives mises en ligne (à partir des années 1990) n’ont pas de version ARTICLE au format HTML mais uniquement en PDF, par exemple :

highwire abs archive en article

http://dev.biologists.org/content/116/1/1

highwire ezlogger archive abs pris en article

Les articles de ces archives n’ont pas de version HTML, l’Url correspond par défaut à un ARTICLE, alors qu’il s’agit d’un ABS.

Dans l’état actuel, nous ne pouvons ajouter une autre restriction qui va interférer sur celle déjà mise en place. De plus, il n’est pas possible de connaitre pour tous les éditeurs les années précises ou l’ARTICLE en HTML n’est plus présent. Heureusement, il est à souligner que les consultations se portent en majorité sur les années récentes, le delta d’erreur devrait être minimisé.

Nous vous invitons maintenant à tester le parseur de Highwire et à traiter à nouveau vos logs de l’année 2017 avec une instance d’ezPAARSE mise à jour avant de procéder à une comparaison avec les statistiques éditeurs.

Bonne journée.

 

Frédéric Truong pour ezTEAM