Analyses de plateformes: Nouveau parseur de la base ProQuest dans ezPAARSE

proquest logo

 

Bonjour,

Nous allons évoquer dans cet article le nouveau parseur de la base ProQuest développé par notre collègue Laurent Lhuillier.  C’est le premier parseur qu’il réalise et toute l’équipe ezTEAM tient à le remercier pour sa contribution dans ezPAARSE.

proquest search

ProQuest permet d’accéder à des résumés de documents divers (ARTICLES, THESES, CITATIONS). Dans le portail BibCnrs, nous pouvons consulter ces documents dans le domaine SHS.

proquest pdf

 

Les analyses

proquest analyses

Notre collègue a fait les analyses de la base en balayant un large éventail des différents types de consultations.

Le parseur

proquest parseur

Ensuite, il a commencé à développer le parseur.  Il s’est vite rendu compte que cela n’était pas simple en constatant que la forme des Urls ne permettent pas de faire la distinction entre des ARTICLES et des THESES (PHD_THESIS). Dans un commentaire posté sur la carte Trello de la plateforme ProQuest , il informe les autres contributeurs de son choix d’attribuer par défaut le Rtype ARTICLE pour permettre la finalisation d’une première version du parseur.

proquest trello bilan ll

 

Nous avons validé sa « pull-request »  (dans Github, il s’agit de proposer un développement de parseur et demander l’avis et la validation à l’équipe ezTEAM).

Les tests avec ezLOGGER

proquest ezlogger

 

Nous avons testé le parseur à l’Inist-CNRS, et nous avons constaté son bon fonctionnement. Les consultations de documents (ARTICLES, THESES) sont typées ARTICLE comme cela l’a été proposé par défaut.

Bilan

Nous invitons tous les collègues abonnés à ProQuest à tester également ce parseur et faire un commentaire sur la carte Trello de la plateforme. N’hésitez pas à ajouter de nouvelles analyes, et à échanger sur le choix du Rtype ARTICLE proposé par Laurent Lhuillier . La plateforme ne permet pas de différencier les différents types de documents, c’est une problématique pour un comptage affiné. Nous espérons que cela pourra évoluer positivement et nous comptons sur votre participation pour améliorer et faire évoluer le parseur.

 

Bon week-end de Pâques.

 

Frédéric Truong pour ezTEAM