Modification de parseur: JSTOR, un DOI pour sortir de l’ombre

Jstor-Logo-grand

Bonjour,

JSTOR est une plateforme d’archivage en ligne de publications universitaires et scientifiques.

Nous sommes plusieurs établissements à être abonnés à des thématiques, c’est pourquoi cette plateforme a été analysée depuis plusieurs années dans ezPAARSE.

Problématique :

Actuellement, les Urls de consultations d’articles au format PDF ne contiennent pas de DOI, mais un identifiant interne à la plateforme.  Ce qui implique que le parseur ne peut qualifier la consultation grâce à l’enrichissement des ECs par l’interrogation de l’api Crossref. Voici un exemple :

http://www.jstor.org:80/stable/pdf/2597772.pdf  correspondant à l’article ci-dessous.

 

jstor article doi

En observant les informations bibliographiques de l’article, on peut constater la présence d’un

DOI: 10.2307/259772

10.2307 :  préfixe (attribué pour JSTOR) et 259772 :  numéro interne de l’article mis en ligne.

Après plusieurs recherches d’articles, on a également pu observer que le DOI ne figure pas sur tous les articles.  Nous pouvons en déduire que JSTOR n’a pas pas encore finalisé la mutation de ses identifiants.

La solution

Nous avons quand même décidé de reconstituer le DOI complet non renseigné dans l’Url (il manque le préfixe)  par une modification du parseur pour augmenter le taux de consultations qualifiées de la plateforme et connaître le nombre d’identifiants valides dans Crossref.

jstor analyse doi

Ci-dessus le détail de l’analyse de la plateforme JSTOR.

Résultat des Tests

Nous avons testé le parseur ainsi modifié avec 5 jours de logs du portail BibCNRS.

jstor ecs parser 2017

Sur 1596 Ecs de type ARTICLE / PDF avec reconstitution de DOI,

321 DOI sont valides par l’interrogation de l’api Crossref avec un taux de 20% sur le total.

 

Conclusion

Ce taux peut paraître faible sachant que 80 % des DOI reconstitués ne sont pas valides.

Mais, avant la modification du parseur, la plateforme avait seulement un taux de consultations avec DOI de 1 %.

Cette évolution est tout de même positive. Nous espérons que JSTOR va continuer à faire évoluer ses identifiants internes en DOI , ce qui impliquera une augmentation du pourcentage dans les Ecs lors d’un retraitement des logs.

N’hésitez pas à tester de votre coté et nous faire un commentaire.

Frédéric pour ezTEAM

 

 

 

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *