Qu’est-ce qu’un thésaurus?

Alors qu’aujourd’hui de nombreux systèmes s’appuient sur la recherche basée sur du texte libre (Google en est probablement l’exemple le plus évident), de nombreux systèmes de gestion documentaire (bibliothèque, archives, …) utilisent un vocabulaire contrôlé pour indexer leurs documents. Cette pratique d’indexation est particulièrement utilisée lorsque le contenu indexé n’est pas textuel : vidéo, photographies, son, oeuvres d’art, etc. L’indexation est généralement faite par des spécialistes du domaine et des documentalistes. Il existe plusieurs manières de structurer l’ensemble des termes appartenant à ce vocabulaire contrôlé :

  • Taxonomie : Les termes (ou concepts) sont organisés sous forme hiérarchique, du plus général au plus spécifique.
  • Thésaurus : Les termes (ou concepts) sont également organisés sous forme hiérarchique, mais des liens sémantiques d’apparentement entre branches sont également possibles.
  • Ontologie : Un modèle de données strictes et formeles est créé, visant à modéliser de manière précise et complète les connaissances d’un domaine. Il est également possible d’effectuer des déductions logiques sur les entités qui composent le modèle en question.

Dans les faits, on constate que le thésaurus est une solution pratique, étant plus riche et plus souple qu’une simple taxonomie, sans impliquer la difficulté de création et de mise à jour d’une ontologie, liée à la rigueur du modèle.