|
FULBI Fédération des utilisateurs de logiciels de Bibliothèque |
|
club2E club des utilisateurs des progiciels d’Ever-Ezida |
Principes et usages des nouveaux accès guidés à l’information
lundi 12 décembre 2005
au FIAP Jean Monnet
Comité d’organisation :
Claire Scopsi (Radio France), Dominique Boru (GET), Claudine Even (Sciences Po) sous la présidence de Hélène Hollebèke (FULBI) et Robert Zachayus (Club2E).
Synthèse réalisée par:
Alexandre Bol, Jean Hervouet, Claire Scopsi
Le
monde des logiciels de bibliothèque et de documentation s’enrichit depuis
quelques années de nouveaux vocables : «catégorisation », « classification »,
« clustering ». désignant de nouveaux modes d’accès guidés à
l’information, issus de la veille et du text-mining et fondés sur la
représentation des contenus par classes et concepts. L’apparente unité des
interfaces masque cependant des technologies hétérogènes dont la mise en œuvre
et les applications diffèrent considérablement. Sont-ils efficaces ?
Comment les évaluer ? S’agit-il d’une évolution majeure pour l’accès à
l’information ?
150 professionnels de la gestion de l’information, chercheurs, consultants et éditeurs de logiciels se sont réunis le 12 décembre dernier, au cours d’une journée d’étude organisée[1] par la FULBI [2] et le Club2e[3], pour tenter d’éclaircir les définitions et comprendre le nouvel enjeu que représentent ces nouveaux accès pour les logiciels de bibliothèque et de documentation.
Consultez les présentations de :
| Dominique Lahary -Introduction à la journée | Richard Roy - "Pour un Catalogue avec Informations En Ligne" |
| Claire François - Origines et principes des outils de classification | Madjid Ihadjadene, - Usages des classifications pour la recherche et le filtrage d'information |
| Catherine Leloup- Méthodologie d'évaluation des logiciels de catégorisation |
« A l’écoute des utilisateurs »
Deux
tables rondes, l’une réunissant des professionnels des bibliothèques et des
centres de documentation, l’autre des éditeurs et intégrateurs de logiciels
documentaires, ont permis d’évaluer la progression de la réflexion.
Dominique Lahary
Les clients utilisateurs
sont à l’origine de l’amélioration des techniques de recherche. Aujourd’hui
habitués aux caractéristiques de la recherche sur le web, ils réclament des conditions similaires en bibliothèque. Ce
sont donc les utilisateurs qui poussent le marché, aux professionnels et aux
éditeurs d’apporter de la valeur ajoutée aux produits existants !
Documentalistes
et bibliothécaires ont pu voir dans la recherche sur le web une concurrence
inquiétante mais on s’aperçoit aujourd’hui, à travers la pratique, qu’avec les
techniques d’indexation automatique, les documentalistes ont un rôle essentiel
à jouer dans la mise au point des outils, notamment la construction des
catégories. L’enjeu de la technologie, souligne Christine Berdon[6],
est de se désengager de certains travaux répétitifs pour concentrer les efforts
sur la performance de recherche et le confort des usagers. C’est l’occasion,
renchérit Monique Joly[7],
d’améliorer la lisibilité des collections des bibliothèques universitaires,
pour lesquelles il n’y a pas de libre accès, en établissant des classes
rigoureuses s’appuyant sur les acquis de la Dewey mais en veillant à simplifier
et réduire le nombre des entrées.
Si
la majorité de la profession reste en phase d’observation, le processus
d’adoption des technologies de classification est donc entamé pour certains,
selon des rythmes divers, guidés par les possibilités d’intégration dans les
systèmes documentaires existants. Le projet de portail conduit par Michel
Bernardini[8]
a permis à la Documentation de BNP Paribas de se doter d’un outil innovant[9]
pour fédérer et classer ses fonds répartis dans des bases hétérogènes ou issus
des flux de la presse quotidienne, tandis que Richard Roy[10],
« conjuré des accès thématiques » de la première heure, convaincu de
l’avantage de proposer des « bouquets d’indices » adaptés aux
préoccupations des usagers de chaque établissement, a fait intégrer une
arborescence de thèmes à l’OPAC intranet du Système de Gestion de la
Bibliothèque. Mais, précise-t-il, la tâche est rendue délicate par la structure
traditionnelle des SIGB qui ne proposent pas l’indice thématique au niveau de
la table des exemplaires.
Il
apparaît donc que le développement et l’amélioration des accès thématiques sont
initiés par les attentes des utilisateurs mais qu’ils sont liés à
l’investissement des éditeurs de logiciels de gestion de bibliothèque et de
documentation. L’affaire est engagée pour certains éditeurs qui intègrent
désormais la classification automatique à leur offre.
Pour
Ever-Ezida, le travail de fédération de sources, les outils de recherche et de
visualisation relèvent d’un développement interne. En revanche, les fonctions
linguistiques résultent d’un
partenariat avec Lingway. Chez GEAC, le développement du SIGB,
essentiellement interne, s’enrichit, pour les fonctions de portail et la
classification d’un partenariat avec l’université libre de Bruxelles et
l’université d’Eindhoven. A l’inverse, pour Archimed, éditeur d’un portail
auquel sont éventuellement intégrés les SIGB du marché, les compétences sont
internes ; le traitement linguistique de l’arabe provient toutefois d’un
partenariat tunisien.
Les
technologies, bien sûr, vont continuer à évoluer, notamment pour la
classification dynamique de volumes importants, très coûteux en ressources
machines ; il est également
important de travailler l’ergonomie des interfaces, car les utilisateurs ont souvent
du mal à se repérer dans des sources multiples et toujours plus volumineuses,
l’enregistrement des comportements d’usagers (le « profiling ») est
un axe de recherche actuel.
« Classification et
catégorisation »
Claire François, chercheur
à l’INIST, spécialiste des méthodes et outils d’analyse de l’information,
présente l’origine et les principes de la classification automatique. Tout
d’abord, deux définitions essentielles sont posées : d’une part, la catégorisation,
processus psychologique de base, est le fait de construire des catégories ou
d’affecter un objet à une catégorie (un modèle existant) d’autre part, la classification
est une opération intellectuelle consistant à organiser des connaissances dans
un système méthodique et hiérarchisé.
L’automatisation
de la classification consiste tout d’abord à appliquer aux textes une série d’analyses
statistiques notamment :
·
La lemmatisation, soit
la réduction d’un terme à sa racine
·
L’identification de
segments répétés (suite de termes fréquemment associés
comme « pomme-de-terre »)
Ces
traitements utilisent des ressources terminologiques (dictionnaires de
mots-vides, dictionnaires d’équivalences). Les données ne relevant pas de la
linguistique pure comme les entités nommées (c'est-à-dire les noms de personnes,
de lieux ou d’entreprises), les dates, les unités monétaires requièrent des
grammaires spécifiques et parfois le recours à des « marqueurs
linguistiques » (par exemple « PDG » permet d’identifier que le
terme suivant est un nom de société).
Ensuite
interviennent les techniques linguistiques. Elles permettent de repérer
les variations flexionnelles (masculin/féminin : beauàbelle,
singulier/pluriel : chevalàchevaux) et morpho-dérivationnelles (noms/adjectif
abdomenàabdominal, ou
verbe/nom abortàabortion).
L’analyse
syntaxique s’intéresse à la structure de la langue, aux coordinations, aux
places relatives des termes pour identifier verbes, adjectifs etc.
A
l’issue de ces opérations les textes sont convertis en concepts. Ils peuvent
alors être représentés sous la forme de tableaux associant les concepts à leur
fréquence d’apparition dans le corpus.
La
classification résulte de calculs opérés sur les co-occurrences et fréquences qui
permettent de traduire et représenter la distance ou la similarité entre deux
concepts ou textes. Une fois les distances établies (dans un tableau de
proximité) la classification peut être envisagée.
On
distingue deux notions de classification :
-
Le clustering est une classification non supervisée, c'est-à-dire
qu’elle regroupe des « individus » (ici les textes) sans a priori, en
fonction de la structure thématique issue de l’analyse du corpus.
- La
catégorisation est une classification supervisée qui, au
contraire, s’appuie sur des catégories pré-établies, en comparant le corpus à
classer, à un corpus déjà classé et validé servant d’exemple (méthode utilisée
par Spirit et Exalead). Certains produits comme Vivisimo, procèdent de façon
mixte.
La
catégorisation demande donc un point de vue préalable sur le domaine traité,
tandis que le clustering propose des résultats plus étonnants, permettant
notamment de mettre en évidence des signaux faibles. Cet élément est à prendre
compte selon l’usage envisagé.
« Usages des
classifications pour la recherche et le filtrage d’information »
Si
performants soient-ils, ces outils destinés à améliorer l’accès à l’information
doivent, pour atteindre leur objectif, prendre en compte les pratiques
informationnelles des usagers.
Selon Madjid
Ihadjadene, codirecteur du département info-com de l’Université Paris 10, la
surcharge (croissante !) d’information, des stratégies de recherche trop
élémentaires, notamment pour réduire les résultats de façon cohérente, des requêtes trop courtes sont autant de
facteurs nuisant à la qualité de
l’accès à l’information Schématiquement, l’utilisateur saisit en moyenne
moins de trois mots pour une requête qui en nécessite de cinq à dix, n’utilise
qu’exceptionnellement les opérateurs booléens, et, devant la surcharge
d’information retournée, limite sa
lecture aux deux premières pages de résultats.
« Organiser
pour mieux retrouver »
Organiser les connaissances est une réponse à
apporter à ces problèmes d’usage : les listes de termes (index, lexique, glossaire,
dictionnaire, liste d’autorité), les classifications (encyclopédiques, à facettes, les taxonomies, la
catégorisation et le clustering), la modélisation des connaissances par les thesaurus, les réseaux
sémantiques,
les bases
de connaissances, les graphes et cartes conceptuels, sont les résultats
d’efforts anciens et suivis de définition et d’organisation des systèmes de
connaissance, auxquels viennent se joindre les algorithmes d’intelligence
artificielle.
« Des outils
pour naviguer dans les classifications »
Les systèmes de recherche sur le web, Yahoo
notamment, ont lancé et diffusé auprès d’un large public l’intérêt pour les
accès thématiques, depuis longtemps connus par les spécialistes. Divers
catalogues en ligne offrent un accès « sujet » par le biais des
indices de classification de la Dewey ou de la CDU en complément de la
recherche par mots-clés. L’avantage en est certain, car les classifications
assistent l’utilisateur dans la construction de sa requête et lui permettent de
replacer les termes de sa recherche dans un voisinage sémantique mais ils ne
sont pas exempts d’inconvénients : l'usager doit connaître au préalable
l'indice exact représentant son centre d'intérêt ou tout au moins la catégorie
de départ sous laquelle il est rangé, il est donc nécessaire de développer pour
l’usager des interfaces qui lui permettent de naviguer dans l’espace
conceptuel.
Certains projets concernent actuellement le
développement d’interfaces de guidage dans les classifications. Elles
permettent, à partir d’un mot-clé entré par l’usager, de l’orienter vers les catégories
les plus appropriées à sa recherche
(projet EVM metadata de Berkeley[11],
Visual Catalog de l’université Paris 8[12])
ou proposent des représentations graphiques du système de classes.
« Combiner
clustering, classification et représentation graphique »
Une autre solution au problème de surcharge
d’information consiste à organiser dynamiquement par catégories l’ensemble des
résultats
Les concepteurs du moteur de recherche NorthernLight[13]
ont développé une technique dite Custom Search Folders qui permet de classer
des résultats des recherches dans des dossiers représentant des catégories
d’une ontologie construite à la main par des experts. Ces concepteurs ont
toutefois introduit de nouveaux facteurs, particulièrement pertinents, dans la
composition des dossiers (le type des documents, la source et la langue des
pages Web). Le métamoteur Vivisimo[14] classe
automatiquement l'information textuelle à la volée dans les dossiers
hiérarchiques adéquats en fonction du sens du document. Exalead[15]
est un moteur qui permet, pour chaque requête, d’analyser statistiquement
l'ensemble des résultats et de produire
une synthèse sous forme de rubriques dans lesquelles sont classés les
documents, de mots-clés et d'attributs pertinents qui permettent d’affiner la
requête.
Ihadjadene[16]
a utilisé la classification de Dewey pour catégoriser automatiquement les
résultats obtenues lors d’une recherche dans un catalogue en ligne.
Enfin, des recherches sont menées pour représenter
graphiquement la ventilation thématique
des résultats d’une recherche et l’importance relative des sous-classes.
Dans une tree-map[17],
les classes de résultats sont représentées par des rectangles dont les tailles
sont proportionnelles au nombre de documents qu’elles contiennent. Des
représentations hiérarchiques existent également dans de nombreux produits.
« Evaluer
l’efficacité concrète de l’accès par
classification »
La majorité des
recherches portent systématiquement sur le versant technique de la
catégorisation. Les évaluations de ces outils ainsi que les problèmes cognitifs
sont peu abordés. Les rares travaux
relatifs à l’évaluation de la pertinence de la catégorisation montrent
que les performances sont meilleures quand les sujets disposaient de l’outil de
catégorisation.
Plusieurs évaluations ont été réalisées, souvent en
milieu scolaire ou étudiant. Le « browsing », donne de meilleurs
résultats que la recherche par mot-clé, auprès des élèves utilisant Yahooligans[18],
mais une catégorisation post-recherche (catégorisant les résultats d’une recherche
commencée à l’aide de mots-clés) est plus efficace que la recherche par
catégorisation préalable[19].
Le gain de temps lors d’une recherche est de l’ordre de 50% [20].
En revanche des utilisateurs novices peuvent obtenir de moins bons résultats
avec la post-catégorisation qu’avec l’indexation[21].
Il vaut mieux, pour tirer un bon parti de ces
évaluations, prendre en compte la taille des corpus d’essai et leur nature, car
des corpus généralistes ou spécialisés peuvent conduire à des performances
différentes. Le profil de l’usager, sa compétence dans le domaine recherché,
son expérience de la recherche d’information, et enfin l’apprentissage du
système influencent fortement les résultats des comparaisons, il est donc primordial que les évaluations
des outils techniques s’effectuent selon une approche
« orientée-utilisateur ».
« Evaluer des
outils de classification en entreprise »
Catherine
Leloup, ingénieur conseil, a mis au point une méthodologie d’évaluation des
logiciels de catégorisation permettant, concrètement et dans un contexte donné,
d’évaluer la pertinence de cette approche technique.
En
effet, la méthode de mesure du rappel et de la précision, si elle est
incontestable, reste difficile à mettre en oeuvre et réservée à des évaluations
scientifiques internationales, car elle nécessite une définition parfaite du
corpus. Elle trouve donc un complément réaliste dans une mesure plus subjective
du comportement des outils. En effet, il est tout autant difficile de prédire
les performances des outils de classification dans un environnement sémantique
donné, que de postuler les attentes des utilisateurs (y compris non
professionnels de la documentation) de ce corpus.
L’exemple
présenté porte sur l’évaluation des performances à l’usage de plusieurs
prototypes de classification, réalisés avec plusieurs logiciels du marché,
appliqué sur un corpus hétérogène et relativement volumineux composé de 170 000
sources d’actualité couvrant la période de septembre à novembre 2002.
Le
corpus comporte notamment des dépêches d’agences, des articles de presse en
texte intégral, des notices bibliographiques très structurées décrivant des
articles de presse ou des journaux radiophoniques. Il est issu de bases de
données destinées à des professionnels des médias.
Les
tests effectués reposent sur des questions collectées « dans la vraie
vie », d’une part auprès de documentalistes, d’autre part dans les logs
d’une application documentaire « classique » directement accessible
par des professionnels des médias (journalistes, producteurs, assistants). Il
s’agit donc de cas réels, des plus factuels (« prise d’otages à
Moscou », « le dopage dans l’athlétisme ») aux plus complexes,
notamment lorsque l’usager « tâtonne » pour cerner un sujet
(« les stars décédées dont on fait commerce » désignant l’usage de
l’image de stars défuntes dans la publicité) ou recherche un sujet précis en se
trompant de terme (« les nouveaux penseurs » pour retrouver l’ouvrage de Lindbergh
« Le Rappel à l’ordre » et son concept de « nouveaux
réactionnaires »).
Les
critères d’évaluation tentent de reproduire les attentes d’un
usager devant un corpus volumineux, les mesures suivantes sont effectuées
avec l’aide des documentalistes :
-
le nombre de réponses
obtenues et le nombre de réponses pertinentes parmi les 10 premières réponses,
-
le nombre de
reformulations nécessaires pour obtenir des résultats pertinents parmi les 10
premières réponses,
-
la rémanence des
résultats selon que la recherche est mono ou multi sources,
-
le nombre de catégories
proposées par la recherche,
-
le nombre de catégories
pertinentes par rapport au nombre total de catégories,
-
le nombre de catégories
n’ayant rien à voir avec la question posée,
-
la qualité du nommage
des catégories (le nom de la catégorie doit être « parlant »),
-
la sensibilité aux fautes
d’orthographe.
L’analyse
des résultats permet de dégager quelques enseignements. Les classifications
observées sont de qualité, mais il s’avère que plus on aide les outils,
meilleurs ils sont :
Le rôle du traitement documentaire n’est donc pas à négliger dans la conception d’un système d’information intégrant une classification automatique.
Bilan Provisoire
La conclusion de cette journée ne peut être que provisoire et d’autres manifestations ne manqueront pas de contribuer à la connaissance du sujet. Si chacun est convaincu de l’utilité des accès thématiques, leur mise en pratique se heurtent encore à deux écueils. D’une part les classifications automatiques relèvent de techniques complexes dont les fonctionnements encore mal connus des professionnels de l’information sont malaisés à appréhender : difficile, en effet, de « regarder sous le capot » , les rencontres avec les spécialistes du domaine sont donc à multiplier. D’autre part, les premières implantations, encore récentes en bibliothèque et centre de documentation ouverts au public, n’ont pas toujours fait l’objet d’évaluation. On ne mesure donc pas pour le moment avec certitude les gains objectifs ou ressentis apportés à l’usager. Ces évaluations « in situ » et leur méthodologie doivent entrer dans les préoccupations des associations d’utilisateurs de logiciels.
Enfin un point majeur émerge des témoignages : les professionnels de l’information ont tout avantage à s’approprier sans complexes ces technologies et à penser sereinement leur rôle vis-à-vis des classements automatiques. La disparition des pratiques documentaires n’est pas pour demain, loin de là, et l’expertise dans le pilotage et l’optimisation de ces process automatisés peut devenir une compétence classique et reconnue des professionnels de l’information.
[1] En collaboration avec l’association EMUL (Espaces
Multimédia et Usages Locaux) et la société Ever Ezida.
[2] Fédération des Utilisateurs de Logiciels de
Bibliothèque
[3] Club des Utilisateurs des Progiciels d’Ever Ezida.
[4] Dominique Lahary est Responsable de la bibliothèque
du Val d’Oise.
[5] La conjuration pour des accès thématiques aux
catalogues /Dominique Lahary, Bulletin des Bibliothèques de France, 2005, t 50,
n°4. et sur le site de Dominique
Lahary : http://membres.lycos.fr/vacher/profess/accesweb.htm
[6] Christine Berdon est responsable de la documentation
d’actualité de Radio France.
[7] Monique Joly est directrice de la bibliothèque
DOC’INSA à Lyon.
[8] Michel Bernardini Etudes Economiques de BNP-Paribas.
[9] Matchpoint.récemment devenu Polyspot.
[10] Richard Roy est responsable de la Médiathèque
Cathédrale de Reims.
[11] http://metadata.sims.berkeley.edu.
[12] http://visualcatalog.univ-paris8.fr/vc2/.
[16] M Ihadjadene, R Bouché. The dynamique nature of searching and
browsing on web-opacs: the Cathie experience, In
Proceedings of the 6th International ISKO conference sous la dir. De de
Beghtol C., Howarth L. et Williamson N., 10-13 July Toronto, Canada, 200, pp
327-332.
[17]Le treemap est une technique qui permet de représenter
(par exemple) une arborescence de fichiers dans un espace à deux dimensions,
les fichiers sont représentés par des rectangles dont les dimensions
respectives donnent une information, comme la taille du répertoire.
[18] Bilal, 2002
[19] Hearst et Pedersen 1996
[20] Zam, 1999, Dumais et Chen, 2001
[21] Ihadjadene et Daniels,
2004