Application TRex

L’application TRex permet une navigation aisée et une recherche des concepts du thésaurus. Ceux-ci sont importés dans le format SKOS, qui constitue le standard pour la représentation et l’échange de thésaurus. Les données de l’application sont stockées de manière permanente dans un RDF store.

L’analyse de la structure des thésaurus permet d’identifier facilement les concepts possédant de très nombreuses spécialisations, ou ceux qui se trouvent à une profondeur donnée. L’analyse d’utilisation permet de découvrir rapidement les termes les moins ou les plus utilisés, ou directement les branches entières inutilisées de l’arbre de spécialisation.

Afin d’enrichir un thésaurus, une recherche de cooccurrence d’utilisation des termes pour indexer des médias a également été développée. Elle s’appuie sur un algorithme de recherche de pattern fréquent (frequent pattern mining) implémenté par Apache Mahout. Appliquée au thésaurus thématique de la Radio Télévision Suisse Romande (RTS) comportant 5918 termes, cette recherche permet de proposer 3461 relations d’apparentement supplémentaires, alors que le thésaurus en comporte actuellement 492. Une évaluation de 212 d’entre elles par les experts documentalistes de la RTS a confirmé la pertinence des relations proposées.

Pour permettre de découvrir de nouvelles relations indépendamment de l’usage du thésaurus pour l’indexation, une application séparée de navigation automatique du web (crawling) a été utilisée : les fragments de page récupérés sont indexés à l’aide d’Apache Lucene, et peuvent être utilisés pour découvrir des motifs cooccurrents à un concept donné du thésaurus. Ceci peut conduire à l’ajout de nouvelles relations au sein de celui-ci, ou à la découverte de nouveaux concepts qui pourraient l’enrichir.

Ce logiciel a été conçu en étroite collaboration avec les experts documentalistes de la RTS, qui ont confirmé son intérêt et sa pertinence. Actuellement en phase de test, il offre de nombreux prolongements, notamment dans le but d’améliorer la recherche des médias indexés.