Analyses de plateformes : OpenEdition, évolution du parseur dans ezPAARSE

openedition logo

Bonjour,

Nous avons procédé à une mise à jour du parseur de la plateforme OpenEdition.

Cet article relate des nouveaux paramètres pris en compte que nous allons vous détailler.

 

Deux domaines distincts

openedition journals logo
journals.openedition.org (anciennement revues.org)
openedition-books_300dpi
books.openedition.org

Les deux domaines permettent de distinguer les consultations des revues et des books.

Les DOI

openedition doi infos

Il y a deux formes de DOI sur OpenEdition :

  • Pour les articles de revues   DOI : 10.4000/cybergeo.23737
  • Pour les chapitres de book  DOI : 10.4000/books.oep.332

Plus d’informations en cliquant ici

En revanche, l’Url de consultation ne contient pas le DOI complet, nous l’avons donc reconstitué en y ajoutant le préfixe 10.400 de la plateforme.

URL : http://journals.openedition.org/​cybergeo/​22737

DOI : 10.4000/cybergeo.23737 

Dans cet exemple, la reconstitution ajoute le préfixe 10.400/ suivi du title_id (revue) . identifiant du document .

URL : http://books.openedition.org/​oep/​332

DOI : 10.4000/books.oep.332

Dans cet exemple, la reconstitution ajoute le préfixe 10.400/  books. nom de l’Editeur abrégé  .  identifiant du document.

Les contraintes pour définir les Rtypes

Même si les deux domaines permettent de différencier les revues des books, les Urls de la plateforme OpenEdition sont identiques  :

  • Pour les revues, il est impossible de savoir si la consultation est un TOC (sommaire) ou  un ARTICLE
  • Pour les books,  il est impossible de faire la différence entre un BOOK et un BOOK_SECTION (chapître)

Il n’y a pas d’indication de rtype dans l’url, seul l’identifiant du document permet de référencer le type de document.

Le choix technique proposé POUR le parseur

Pour permettre le comptage, Yannick, qui a développé le parseur,  a choisi de prendre en compte la taille du document et une règle a été attribuée  pour tenter de reconnaître le type de consultation :

Journal <10ko = rien 
Journal >10ko = ARTICLE
Book >1mo = BOOK
Book <1mo = BOOK_SECTION

Les informations de taille d’un document consulté figurent dans les logs, on appelle cela « size ». Ils figurent également dans les Ecs d’ezPAARSE juste après le « statut » de la consultation.

Nous sommes conscient que ce choix ne permettra pas d’obtenir un résultat précis du type de consultation. Ce sera plus une tendance, en effet, il y a toujours une marge d’erreur, surtout entre un chapître et un book.

 

Résultat des tests

openedition ezlogger article
Openedition ezlogger ARTICLE
openedition ezlogger book
Openedition ezlogger BOOK_SECTION / BOOK

Les premiers résultats dans ezLOGGER  montrent que le parseur peut identifier les différents types de consultations. Un test de logs traités dans l’instance d’ezPAARSE montre également les deux domaines de la plateforme, ainsi que le type de document, les enrichissements issus de la PKB (publication-title, ISSN ) et du DOI reconstitué interrogé par le middleware vers l’API Crossref.

openedition ec visokio

 

Nous vous invitons à tester également dans votre établissement le parseur avec ezLOGGER. Vous avez également la possibilité de retraiter vos logs dans votre instance locale mise à jour au préalable.

Bonne journée.

 

Frédéric Truong pour ezTEAM