FULBI

Fédération des utilisateurs de logiciels de Bibliothèque

 

club2E

club des utilisateurs des progiciels d’Ever-Ezida

 

 

 

Principes et usages des nouveaux accès guidés à l’information

 

 

 lundi 12 décembre 2005

au FIAP Jean Monnet

Comité d’organisation :

 

Claire Scopsi (Radio France), Dominique Boru (GET), Claudine Even (Sciences Po) sous la présidence de Hélène Hollebèke (FULBI) et Robert Zachayus (Club2E).

 

Synthèse réalisée par:

 

Alexandre Bol, Jean Hervouet, Claire Scopsi

 

Le monde des logiciels de bibliothèque et de documentation s’enrichit depuis quelques années de nouveaux vocables : «catégorisation », « classification », « clustering ». désignant de nouveaux modes d’accès guidés à l’information, issus de la veille et du text-mining et fondés sur la représentation des contenus par classes et concepts. L’apparente unité des interfaces masque cependant des technologies hétérogènes dont la mise en œuvre et les applications diffèrent considérablement. Sont-ils efficaces ? Comment les évaluer ? S’agit-il d’une évolution majeure pour l’accès à l’information ?

 

150 professionnels de la gestion de l’information, chercheurs, consultants et éditeurs de logiciels se sont réunis le 12 décembre dernier, au cours d’une journée d’étude organisée[1] par la FULBI [2] et le Club2e[3], pour tenter d’éclaircir les définitions et comprendre le nouvel enjeu que représentent ces nouveaux accès pour les logiciels de bibliothèque et de documentation. 

 

Consultez les présentations de :

 

Dominique Lahary -Introduction à la journée Richard Roy - "Pour un Catalogue avec Informations En Ligne"
Claire François - Origines et principes des outils de classification Madjid Ihadjadene, - Usages des classifications pour la recherche et le filtrage d'information
Catherine Leloup- Méthodologie d'évaluation des logiciels de catégorisation  

 

 

 « A l’écoute des utilisateurs »

 

 

Deux tables rondes, l’une réunissant des professionnels des bibliothèques et des centres de documentation, l’autre des éditeurs et intégrateurs de logiciels documentaires, ont permis d’évaluer la progression de la réflexion.

Dominique Lahary[4], animateur de la journée, après avoir rappelé à quel point le déferlement du web avait popularisé et revolutionné la recherche documentaire, a rappelé la nécessité de repenser l’accès aux bases de données pour les publics de bibliothèques. Membre de la « conjuration pour des accès thématiques aux catalogues »[5], il reconnaît « sous leurs beaux habits cousus en HTML la vieille carcasse qui déjà était celle des catalogues sur fiches, que dis-je, des catalogues imprimés. » Il faut donc repenser les accès aux ressources des bibliothèques et centres de documentation par le contenu

 

Les clients utilisateurs sont à l’origine de l’amélioration des techniques de recherche. Aujourd’hui habitués aux caractéristiques de la recherche sur le  web, ils réclament des conditions similaires en bibliothèque. Ce sont donc les utilisateurs qui poussent le marché, aux professionnels et aux éditeurs d’apporter de la valeur ajoutée aux produits existants !

 

Documentalistes et bibliothécaires ont pu voir dans la recherche sur le web une concurrence inquiétante mais on s’aperçoit aujourd’hui, à travers la pratique, qu’avec les techniques d’indexation automatique, les documentalistes ont un rôle essentiel à jouer dans la mise au point des outils, notamment la construction des catégories. L’enjeu de la technologie, souligne Christine Berdon[6], est de se désengager de certains travaux répétitifs pour concentrer les efforts sur la performance de recherche et le confort des usagers. C’est l’occasion, renchérit Monique Joly[7], d’améliorer la lisibilité des collections des bibliothèques universitaires, pour lesquelles il n’y a pas de libre accès, en établissant des classes rigoureuses s’appuyant sur les acquis de la Dewey mais en veillant à simplifier et réduire le nombre des entrées.

Si la majorité de la profession reste en phase d’observation, le processus d’adoption des technologies de classification est donc entamé pour certains, selon des rythmes divers, guidés par les possibilités d’intégration dans les systèmes documentaires existants. Le projet de portail conduit par Michel Bernardini[8] a permis à la Documentation de BNP Paribas de se doter d’un outil innovant[9] pour fédérer et classer ses fonds répartis dans des bases hétérogènes ou issus des flux de la presse quotidienne, tandis que Richard Roy[10], « conjuré des accès thématiques » de la première heure, convaincu de l’avantage de proposer des « bouquets d’indices » adaptés aux préoccupations des usagers de chaque établissement, a fait intégrer une arborescence de thèmes à l’OPAC intranet du Système de Gestion de la Bibliothèque. Mais, précise-t-il, la tâche est rendue délicate par la structure traditionnelle des SIGB qui ne proposent pas l’indice thématique au niveau de la table des exemplaires.

 

Il apparaît donc que le développement et l’amélioration des accès thématiques sont initiés par les attentes des utilisateurs mais qu’ils sont liés à l’investissement des éditeurs de logiciels de gestion de bibliothèque et de documentation. L’affaire est engagée pour certains éditeurs qui intègrent désormais la classification automatique à leur offre.

 

Pour Ever-Ezida, le travail de fédération de sources, les outils de recherche et de visualisation relèvent d’un développement interne. En revanche, les fonctions linguistiques résultent d’un  partenariat avec Lingway. Chez GEAC, le développement du SIGB, essentiellement interne, s’enrichit, pour les fonctions de portail et la classification d’un partenariat avec l’université libre de Bruxelles et l’université d’Eindhoven. A l’inverse, pour Archimed, éditeur d’un portail auquel sont éventuellement intégrés les SIGB du marché, les compétences sont internes ; le traitement linguistique de l’arabe provient toutefois d’un partenariat tunisien.

Les technologies, bien sûr, vont continuer à évoluer, notamment pour la classification dynamique de volumes importants, très coûteux en ressources machines ;  il est également important de travailler l’ergonomie des interfaces, car les utilisateurs ont souvent du mal à se repérer dans des sources multiples et toujours plus volumineuses, l’enregistrement des comportements d’usagers (le « profiling ») est un axe de recherche actuel.

 

 

« Classification et catégorisation »

 

 

Claire François, chercheur à l’INIST, spécialiste des méthodes et outils d’analyse de l’information, présente l’origine et les principes de la classification automatique. Tout d’abord, deux définitions essentielles sont posées : d’une part, la catégorisation, processus psychologique de base, est le fait de construire des catégories ou d’affecter un objet à une catégorie (un modèle existant) d’autre part, la classification est une opération intellectuelle consistant à organiser des connaissances dans un système méthodique et hiérarchisé.

L’automatisation de la classification consiste tout d’abord à appliquer aux textes une série d’analyses statistiques notamment :

·        La lemmatisation, soit la réduction d’un terme à sa racine

·        L’identification de segments répétés (suite de termes fréquemment associés comme « pomme-de-terre »)

Ces traitements utilisent des ressources terminologiques (dictionnaires de mots-vides, dictionnaires d’équivalences). Les données ne relevant pas de la linguistique pure comme les entités nommées (c'est-à-dire les noms de personnes, de lieux ou d’entreprises), les dates, les unités monétaires requièrent des grammaires spécifiques et parfois le recours à des « marqueurs linguistiques » (par exemple « PDG » permet d’identifier que le terme suivant est un nom de société).

Ensuite interviennent les techniques linguistiques. Elles permettent de repérer les variations flexionnelles (masculin/féminin : beauàbelle, singulier/pluriel : chevalàchevaux) et morpho-dérivationnelles (noms/adjectif abdomenàabdominal, ou verbe/nom abortàabortion).

 

L’analyse syntaxique s’intéresse à la structure de la langue, aux coordinations, aux places relatives des termes pour identifier verbes, adjectifs etc.

A l’issue de ces opérations les textes sont convertis en concepts. Ils peuvent alors être représentés sous la forme de tableaux associant les concepts à leur fréquence d’apparition dans le corpus.

 

La classification résulte de calculs opérés sur les co-occurrences et fréquences qui permettent de traduire et représenter la distance ou la similarité entre deux concepts ou textes. Une fois les distances établies (dans un tableau de proximité) la classification peut être envisagée.

 

On distingue deux notions de classification :

 

- Le clustering est une classification non supervisée, c'est-à-dire qu’elle regroupe des « individus » (ici les textes) sans a priori, en fonction de la structure thématique issue de l’analyse du corpus.

- La catégorisation est une classification supervisée qui, au contraire, s’appuie sur des catégories pré-établies, en comparant le corpus à classer, à un corpus déjà classé et validé servant d’exemple (méthode utilisée par Spirit et Exalead). Certains produits comme Vivisimo, procèdent de façon mixte.

 

La catégorisation demande donc un point de vue préalable sur le domaine traité, tandis que le clustering propose des résultats plus étonnants, permettant notamment de mettre en évidence des signaux faibles. Cet élément est à prendre compte selon l’usage envisagé.

 

 

« Usages des classifications pour la recherche et le filtrage d’information »

 

Si performants soient-ils, ces outils destinés à améliorer l’accès à l’information doivent, pour atteindre leur objectif, prendre en compte les pratiques informationnelles des usagers.

 

Selon  Madjid Ihadjadene, codirecteur du département info-com de l’Université Paris 10, la surcharge (croissante !) d’information, des stratégies de recherche trop élémentaires, notamment pour réduire les résultats de façon cohérente,  des requêtes trop courtes sont autant de facteurs  nuisant à la qualité de l’accès à l’information  Schématiquement, l’utilisateur saisit en moyenne moins de trois mots pour une requête qui en nécessite de cinq à dix, n’utilise qu’exceptionnellement les opérateurs booléens, et, devant la surcharge d’information  retournée, limite sa lecture aux deux premières pages de résultats.

« Organiser pour mieux retrouver »

 

 

Organiser les connaissances est une réponse à apporter à ces problèmes d’usage : les listes de termes (index, lexique, glossaire, dictionnaire, liste d’autorité), les classifications (encyclopédiques, à facettes, les taxonomies, la catégorisation et le clustering), la modélisation des connaissances par les thesaurus, les réseaux sémantiques, les bases de connaissances,  les graphes et cartes conceptuels, sont les résultats d’efforts anciens et suivis de définition et d’organisation des systèmes de connaissance, auxquels viennent se joindre les algorithmes d’intelligence artificielle.

 

 

« Des outils pour naviguer dans les classifications »

 

 

Les systèmes de recherche sur le web, Yahoo notamment, ont lancé et diffusé auprès d’un large public l’intérêt pour les accès thématiques, depuis longtemps connus par les spécialistes. Divers catalogues en ligne offrent un accès « sujet » par le biais des indices de classification de la Dewey ou de la CDU en complément de la recherche par mots-clés. L’avantage en est certain, car les classifications assistent l’utilisateur dans la construction de sa requête et lui permettent de replacer les termes de sa recherche dans un voisinage sémantique mais ils ne sont pas exempts d’inconvénients : l'usager doit connaître au préalable l'indice exact représentant son centre d'intérêt ou tout au moins la catégorie de départ sous laquelle il est rangé, il est donc nécessaire de développer pour l’usager des interfaces qui lui permettent de naviguer dans l’espace conceptuel.

 

Certains projets concernent actuellement le développement d’interfaces de guidage dans les classifications. Elles permettent, à partir d’un mot-clé entré par l’usager, de l’orienter vers les catégories les plus appropriées à sa recherche  (projet EVM metadata de Berkeley[11], Visual Catalog de l’université Paris 8[12]) ou proposent des représentations graphiques du système de classes.

 

 

« Combiner clustering, classification et représentation graphique »

 

 

Une autre solution au problème de surcharge d’information consiste à organiser dynamiquement par catégories l’ensemble des résultats

 

Les concepteurs du moteur de recherche NorthernLight[13] ont développé une technique dite Custom Search Folders qui permet de classer des résultats des recherches dans des dossiers représentant des catégories d’une ontologie construite à la main par des experts. Ces concepteurs ont toutefois introduit de nouveaux facteurs, particulièrement pertinents, dans la composition des dossiers (le type des documents, la source et la langue des pages Web). Le métamoteur Vivisimo[14] classe automatiquement l'information textuelle à la volée dans les dossiers hiérarchiques adéquats en fonction du sens du document. Exalead[15] est un moteur qui permet, pour chaque requête, d’analyser statistiquement l'ensemble des résultats et  de produire une synthèse sous forme de rubriques dans lesquelles sont classés les documents, de mots-clés et d'attributs pertinents qui permettent d’affiner la requête.

Ihadjadene[16] a utilisé la classification de Dewey pour catégoriser automatiquement les résultats obtenues lors d’une recherche dans un catalogue en ligne.

 

Enfin, des recherches sont menées pour représenter graphiquement la ventilation  thématique des résultats d’une recherche et l’importance relative des sous-classes.

Dans une tree-map[17], les classes de résultats sont représentées par des rectangles dont les tailles sont proportionnelles au nombre de documents qu’elles contiennent. Des représentations hiérarchiques existent également dans de nombreux produits.

 

 

« Evaluer l’efficacité concrète de l’accès par  classification »

 

 

La majorité des  recherches portent systématiquement sur le versant technique de la catégorisation. Les évaluations de ces outils ainsi que les problèmes cognitifs sont peu abordés. Les rares travaux  relatifs à l’évaluation de la pertinence de la catégorisation montrent que les performances sont meilleures quand les sujets disposaient de l’outil de catégorisation.

Plusieurs évaluations ont été réalisées, souvent en milieu scolaire ou étudiant. Le « browsing », donne de meilleurs résultats que la recherche par mot-clé, auprès des élèves utilisant Yahooligans[18], mais une catégorisation post-recherche (catégorisant les résultats d’une recherche commencée à l’aide de mots-clés) est plus efficace que la recherche par catégorisation préalable[19]. Le gain de temps lors d’une recherche est de l’ordre de  50% [20]. En revanche des utilisateurs novices peuvent obtenir de moins bons résultats avec la post-catégorisation qu’avec l’indexation[21].

Il vaut mieux, pour tirer un bon parti de ces évaluations, prendre en compte la taille des corpus d’essai et leur nature, car des corpus généralistes ou spécialisés peuvent conduire à des performances différentes. Le profil de l’usager, sa compétence dans le domaine recherché, son expérience de la recherche d’information, et enfin l’apprentissage du système influencent fortement les résultats des comparaisons,  il est donc primordial que les évaluations des outils techniques s’effectuent selon une approche « orientée-utilisateur ».

 

 

 

« Evaluer des outils de classification en entreprise »

 

 

Catherine Leloup, ingénieur conseil, a mis au point une méthodologie d’évaluation des logiciels de catégorisation permettant, concrètement et dans un contexte donné, d’évaluer la pertinence de cette approche technique.

En effet, la méthode de mesure du rappel et de la précision, si elle est incontestable, reste difficile à mettre en oeuvre et réservée à des évaluations scientifiques internationales, car elle nécessite une définition parfaite du corpus. Elle trouve donc un complément réaliste dans une mesure plus subjective du comportement des outils. En effet, il est tout autant difficile de prédire les performances des outils de classification dans un environnement sémantique donné, que de postuler les attentes des utilisateurs (y compris non professionnels de la documentation) de ce corpus.

L’exemple présenté porte sur l’évaluation des performances à l’usage de plusieurs prototypes de classification, réalisés avec plusieurs logiciels du marché, appliqué sur un corpus hétérogène et relativement volumineux composé de 170 000 sources d’actualité couvrant la période de septembre à novembre 2002.

Le corpus comporte notamment des dépêches d’agences, des articles de presse en texte intégral, des notices bibliographiques très structurées décrivant des articles de presse ou des journaux radiophoniques. Il est issu de bases de données destinées à des professionnels des médias.

Les tests effectués reposent sur des questions collectées « dans la vraie vie », d’une part auprès de documentalistes, d’autre part dans les logs d’une application documentaire « classique » directement accessible par des professionnels des médias (journalistes, producteurs, assistants). Il s’agit donc de cas réels, des plus factuels (« prise d’otages à Moscou », « le dopage dans l’athlétisme ») aux plus complexes, notamment lorsque l’usager « tâtonne » pour cerner un sujet (« les stars décédées dont on fait commerce » désignant l’usage de l’image de stars défuntes dans la publicité) ou recherche un sujet précis en se trompant de terme (« les nouveaux penseurs »  pour retrouver l’ouvrage de Lindbergh « Le Rappel à l’ordre » et son concept de « nouveaux réactionnaires »).

 

Les critères d’évaluation tentent de reproduire les attentes d’un usager devant un corpus volumineux, les mesures suivantes sont effectuées avec l’aide des documentalistes :

 

-         le nombre de réponses obtenues et le nombre de réponses pertinentes parmi les 10 premières réponses,

-         le nombre de reformulations nécessaires pour obtenir des résultats pertinents parmi les 10 premières réponses,

-         la rémanence des résultats selon que la recherche est mono ou multi sources,

-         le nombre de catégories proposées par la recherche,

-         le nombre de catégories pertinentes par rapport au nombre total de catégories,

-         le nombre de catégories n’ayant rien à voir avec la question posée,

-         la qualité du nommage des catégories (le nom de la catégorie doit être « parlant »),

-         la sensibilité aux fautes d’orthographe.

 

L’analyse des résultats permet de dégager quelques enseignements. Les classifications observées sont de qualité, mais il s’avère que plus on aide les outils, meilleurs ils sont : 

 

 

Le rôle du traitement documentaire  n’est donc pas à négliger dans la conception d’un système d’information intégrant une classification automatique.

 

 

Bilan Provisoire

 

 

La conclusion de cette journée ne peut être que provisoire et d’autres manifestations ne manqueront pas de contribuer à la connaissance du sujet. Si chacun est convaincu de l’utilité des accès thématiques, leur mise en pratique se heurtent encore à deux écueils. D’une part les classifications automatiques relèvent de techniques complexes dont les fonctionnements encore mal connus des professionnels de l’information sont malaisés à appréhender : difficile, en effet, de « regarder sous le capot » , les rencontres avec les spécialistes du domaine sont donc à multiplier. D’autre part, les premières implantations, encore récentes en bibliothèque et centre de documentation ouverts au public, n’ont pas toujours fait l’objet d’évaluation. On ne mesure donc pas pour le moment avec certitude les gains objectifs ou ressentis apportés à l’usager. Ces évaluations « in situ » et leur méthodologie doivent entrer dans les préoccupations des associations d’utilisateurs de logiciels.

Enfin un point majeur émerge des témoignages : les professionnels de l’information ont tout avantage à s’approprier sans complexes ces technologies et à penser sereinement leur rôle vis-à-vis des classements automatiques. La disparition des pratiques documentaires n’est pas pour demain, loin de là, et l’expertise dans le pilotage et l’optimisation de ces process automatisés peut devenir une compétence classique et reconnue des professionnels de l’information.



[1] En collaboration avec l’association EMUL (Espaces Multimédia et Usages Locaux) et la société Ever Ezida.

[2] Fédération des Utilisateurs de Logiciels de Bibliothèque

[3] Club des Utilisateurs des Progiciels d’Ever Ezida.

[4] Dominique Lahary est Responsable de la bibliothèque du Val d’Oise.

[5] La conjuration pour des accès thématiques aux catalogues /Dominique Lahary, Bulletin des Bibliothèques de France, 2005, t 50, n°4. et sur  le site de Dominique Lahary : http://membres.lycos.fr/vacher/profess/accesweb.htm

[6] Christine Berdon est responsable de la documentation d’actualité de Radio France.

[7] Monique Joly est directrice de la bibliothèque DOC’INSA à Lyon.

[8] Michel Bernardini Etudes Economiques de BNP-Paribas.

[9] Matchpoint.récemment devenu Polyspot.

[10] Richard Roy est responsable de la Médiathèque Cathédrale de Reims.

[11] http://metadata.sims.berkeley.edu.

[12] http://visualcatalog.univ-paris8.fr/vc2/.

[16] M Ihadjadene, R Bouché.  The dynamique nature of searching and browsing on web-opacs: the Cathie experience, In Proceedings of the 6th International ISKO conference sous la dir. De de Beghtol C., Howarth L. et Williamson N., 10-13 July Toronto, Canada, 200, pp 327-332.

[17]Le treemap est une technique qui permet de représenter (par exemple) une arborescence de fichiers dans un espace à deux dimensions, les fichiers sont représentés par des rectangles dont les dimensions respectives donnent une information, comme la taille du répertoire.  

[18] Bilal, 2002

[19] Hearst et Pedersen 1996

[20] Zam, 1999, Dumais et Chen, 2001

[21] Ihadjadene et Daniels, 2004