FAQ : Je voudrais Comprendre les différents types de rejets d’ezPAARSE

Bonjour,

 

Nous avons régulièrement des questions de nos collègues concernant les rejets lors d’un traitement des logs dans ezPAARSE.  Il nous parait donc important de vous présenter un cas concret. Il s’agit d’un traitement de notre collègue Annick Lagrange de L’Ecole Centrale de Lyon. Yannick Schurter, L’informaticien qui a développé ezPAARSE, a détaillé les significations des rejets lors d’un support utilisateurs.

Comment analyser le rapport d’exécution suivant :

 

ezpaarse etat du traitement eclyon

ezpaarse rejection rate

Lignes ignorées

Ce sont les lignes de log que nous considérons comme non-pertinentes. Il s’agit en grande majorité de téléchargements d’images, de fichiers javascript et de redirections web. Ces lignes n’ont aucun intérêt car elles ne correspondent pas à des consultations.

 

ECs en accès refusé

Bien que cette fonctionnalité soit difficile à mettre en oeuvre avec fiabilité, ezPAARSE peut reconnaître des tentatives de consultation dont l’accès a été refusé. Ces lignes sont donc écartées du résultat.

 

Doublons filtrés

Il s’agit des lignes considérées comme des « double clic », pour lesquelles une seule consultation est contabilisée.

 

Anomalies chronologiques

Pour dédoublonner les consultations, ezPAARSE nécessite que les lignes de logs soient correctement triés par ordre chronologique. Il peut arriver que certaines lignes ne soient pas dans le bon ordre, ces dernières sont rejetées.

 

Domaines ignorés

Ce sont les lignes qui sont ignorées car nous savons que le nom de domaine n’est pas intéressant. (exemple: www.google.fr)

 

Domaines inconnus

Correspond aux lignes dont le nom de domaine de l’URL n’a pas de parseur associé. Il peut aussi bien s’agir d’URLs inintéressantes que d’URLs dont le parseur n’existe pas encore.

 

Formats inconnus

Il s’agit des lignes de log qu’ezPAARSE n’arrive pas à lire car elles ne correspondent pas au format d’entrée.

 

ECs non qualifiés

Quand les lignes de log ont bien un parseur mais qu’elle produisent des évènements de consultations trop pauves (généralement sans identifiants), nous les considérons comme « non qualifiées » et celles-ci sont rejetées.

 

PKBs manquantes

Cette section date de l’époque ou les enrichissements bibliographiques des ECs étaient uniquement basés sur nos bases de connaissances (PKB). Ils s’agit du nombre d’identifiants qui n’ont pas été trouvés dans nos bases de connaissances. Aujourd’hui, nos sources d’enrichissements sont multiples et l’utilité de cette section est remise en cause.

 

Hosts ignorés

ezPAARSE permet d’ignorer les lignes de logs qui ont été générées par des personnes précises (via leur adresse IP ou leur nom d’hôte).

 

Robots

Ce sont les lignes qui ont été détectées comme étant des consultations de bots, elles ne correspondent donc pas à de vrais consultations.

ezpaarse alertes

Concernant les alertes, celles que vous pouvez voir ne sont plus très pertinentes aujourd’hui et peuvent être ignorées. Il s’agit d’alertes en lien avec la section « PKBs manquantes », qui nous permettaient jusqu’ici de détecter les manques potentiels dans nos bases de connaissances. Aujourd’hui, nos enrichissements ont évolués et cette section est peut-être vouée à disparaître. En revanche, vous pourriez aussi y trouver des alertes vous avertissant qu’un domaine très présent dans les lignes de log n’a pas de parseur associé.

Pourquoi le taux de rejets est si important ?

L’amélioration de la précision d’ezPAARSE est un travail de fond, parfois fastidieux, qui consiste à comparer les résultats avec les statistiques des éditeurs, et fouiller les rejets quand les résultats d’ezPAARSE ne semblent pas donner les bons chiffres.

Il y a 3 raisons principales lorsqu’ezPAARSE sous-estime les consultations d’une plateforme :

  1. La plateforme n'a pas de parseur associé, ou utilise un nom de domaine qui n'est pas connu du parseur. Dans ce cas, il faut créer ou compléter le parseur associé.
  2. Le parseur associé à la plateforme est incomplet. Il faut alors déterminer quelles URLs ne sont pas reconnues et le corriger. Cette opération peut se faire en épluchant le ficher de rejet des ECs non qualifiés, ou en utilisant ezLogger pour tester les consultations en direct sur son navigateur.
  3. Une partie des consultations ne sont pas proxifiées et n'apparaissent pas dans les logs.
    
    

 

Si vous constatez des incohérences dans les chiffres que vous fournit ezPAARSE, nous restons toujours disponibles pour vous aider à en comprendre les raisons. Vous pouvez aussi consulter la documentation ezPAARSE.

 

Yannick Schurter et Frédéric Truong pour ezTEAM