BiUM Blog

Un autre regard sur la Bibliothèque Universitaire de Médecine de Lausanne

Flower

Nouvelle apologie de l’indexation matière

[Ce texte est une réponse personnelle à la question "L’indexation matière a-t-elle encore du sens à l’époque de Google ou d’Amazon ?" traitée par mon collègue Thomas Brauchli dans son billet du 23 octobre 2009]

J’ai lu avec beaucoup d’intérêt le compte-rendu de la conférence « Apologie de l’indexation-matière« , c’est un sujet passionnant où nous pouvons voir deux visions du catalogue (et du catalogage) s’affronter : l’approche pragmatico-technologique et celle plus conceptuelle et méthodologique.

Même si cela peut surprendre je me situe clairement du coté de Thomas Mann car sa défense de l’indexation matière n’est pas un combat d’arrière garde mais, au contraire, une défense fondamentale de la valeur ajoutée qui est injectée dans le système par les humains qui traitent les documents et qui, à mon avis, ne peut pas être remplacé par des traitements automatiques des informations bibliographiques ou du texte intégral, qu’ils soient à priori ou à posteriori.

C’est une énorme erreur de penser que nos catalogues et bases de données doivent ressembler de plus en plus à Google car nos outils ne pourront jamais appliquer les techniques de ce moteur de recherche. En effet, contrairement à Google, le corpus des informations dont nous disposons est fermé. Se contenter des descriptions bibliographiques des documents ou du texte intégral équivaut à abandonner les seules armes qui nous permettent d’exploiter les données du catalogue avec des ressources conceptuelles externes et donc à améliorer les résultats de la recherche par d’autres moyens que ceux qui se rapportent aux données ou métadonnées des documents (catalogage simple plus texte intégral).

La méconnaissance des techniques de Google (bien entretenue par sa politique de communication de boîte noire) peut provoquer bien des dégâts quand les gens tentent de l’imiter et de simplifier ses méthodes ou ses outils pour s’approcher d’un modèle où la technologie remplace le traitement humain. L’apparente simplicité de son moteur de recherche n’est qu’un leurre qui cache bien des technologies de traitement de l’information et de reprocessage mises au point pendant ces dix dernières années par une foule de chercheurs et techniciens qui ont réussi à exploiter de manière remarquable les informations crées par des gens.

Deux exemples parmi les techniques de Google montrent bien que nous n’avons pas intérêt à simplifier le catalogage mais plutôt l’inverse :

Liens Hypertexte : Google a réussi à exploiter les liens hypertexte entre les informations du Web pour ajouter une dimension nouvelle et externe aux données elle-mêmes. Les termes utilisés aux alentours de chaque lien lui apportent aussi une description du document cité qui peut être exploitée au moment de la recherche à la façon de notre catalogage matières. En utilisant le lien « En cache » dans la liste de résultats de Google on peut voir très souvent que certains termes de notre recherche ont été trouvés dans le document (et sont mis en surbrillance) mais que d’autres « apparaissent uniquement dans les liens pointant sur cette page« !!!

Voilà la preuve que si l’on voulait vraiment imiter Google, nous devrions garder précieusement notre bonne vieille indexation matière mais, en plus, nous devrions tenter d’apporter par tous les moyens d’autres informations générés par des humains comme les commentaires et les tags créés par les utilisateurs, mais aussi toutes les informations externes aux documents et concernant les auteurs, les revues ou les collections (enrichissement des tables d’autorités par les catalogueurs), ainsi que les éditeurs (grands oubliés des listes d’autorités). Informations qui ne peuvent pas être générées automatiquement à partir des données des documents uniquement.

Traductions : Google a indexé des sites (et maintenant aussi des livres!) qui ont des traductions en plusieurs langues. Ce travail de traduction, qui a la base est le fruit des connaissances purement humaines, est maintenant exploité pour traduire à la volée des termes de recherche. Nous pouvons ainsi retrouver dans google des documents écrits dans d’autres langues que celle qui était utilisée dans notre recherche.

Les liens hypertexte et les traductions sont deux bons exemples d’informations externes aux documents permettant d’élargir le spectre des résultats d’une recherche. Dans les deux cas, le lien entre les termes de ma recherche et le document retrouvé passe par l’exploitation des informations créés par des humains et exploitée de manière « intelligente » par des traitements automatiques. C’est bien cette méthode d’exploitation qu’il faut viser et non pas une automatisation qui négligerait les connaissances qui peuvent être injectés dans le système par les humains.

En effet, même si la recherche par mots matière (post ou precoordonnés) est très peu utilisée par les chercheurs dans les catalogues et bases de données, les descripteurs eux sont exploités à chaque recherche simple à la google qui utilise tous les champs y compris ceux de l’indexation. Sans eux, un tiers des documents ne seraient pas retrouvés dans les recherches, selon l’étude cité de Tina Gross et Arlene G. Taylor (2000).

Cependant, il me semble important de souligner que l’apport de l’indexation ne s’arrête pas là, certains systèmes exploitent l’indexation matière encore plus :

PubMed ou CiSMeF utilisent la technique de réécriture de la recherche effectuée en modifiant automatiquement les termes utilisés par le chercheur pour tenter de les traduire en mots du thésaurus MeSH. La personne ne s’aperçoit pas de la traduction mais peut consulter la transformation en allant sur l’onglet « Details »

SAPHIR utilise la technique de l’élargissement de la recherche, lançant en même temps la recherche simple sur la table des documents (recherche dans tous les champs) et sur la table des descripteurs (termes, synonymes, description et traductions) pour ensuite ramener au lecteur les documents qui ont été indexés avec les descripteurs retrouvés en même temps qui ceux qui contiennent les mots recherchés. Cela équivaut à mettre ensemble les résultats de la recherche rapide avec ceux de la recherche par descripteur sans que le lecteur s’en aperçoive. La seule indication qu’un document est ramené dans les résultats à travers le descripteur (parce que les termes de sa recherche ont été trouvés dans son nom ou l’une de ses traductions, dans l’un de ses synonymes ou dans sa description) est que le terme apparait en couleur rouge.

OVID utilise la technique du « mapping » qui lance par défaut la recherche rapide d’abord sur le thésaurus et oblige le chercheur a choisir les descripteurs pour construire sa recherche. Cependant le chercheur peut décocher cette option pour lancer la recherche rapide sur les références elles-mêmes. Je n’ai pas de statistiques pour savoir quel pourcentage des gens décochent le mapping, mais je vais tenter de le savoir.

D’autres bases de données (WorldCat, Web of Science, etc.) exploitent les descripteurs à posteriori avec la technique de « clustering » ou d’affichage de « facettes » en marge des résultats ce qui permet de filtrer la liste selon les matières.

L’étude ACUEIL qui avait analysé les recherches dans le catalogue de RERO était arrivé à la conclusion (page 43 à 47 du rapport final) que les résultats des recherches pourraient être améliorés si le vocabulaire d’indexation de RERO était exploité au moment de la recherche. Malheureusement, les synonymes et autres informations contenues dans cette base externe continuent à être marginalisées et ne servent que aux indexeurs ou aux spécialistes à la recherche des mots matière.

Pour aller plus loin dans ce domaine qui reste ouvert, voici une liste des documents qui traitent de cette problématique et qui sont répertoriés sur le site de la « Library of Congress Professional Guild » :

The Future of Cataloging
http://www.guild2910.org/future.htm

Thomas Mann (2007). The Peloponnesian War and the Future of Reference, Cataloging, and Scholarship in Research Libraries.
http://www.guild2910.org/Peloponnesian%20War%20June%2013%202007.pdf

Thomas Mann (2008). « On the Record » but Off the Track : A Review of the Report of The Library of Congress Working Group on The Future of Bibliographic Control, With a Further Examination of Library of Congress Cataloging Tendencies.
http://www.guild2910.org/WorkingGrpResponse2008.pdf

Laisser un commentaire