La place de l’IA dans les bibliothèques

Introduction

La bibliothèque, définie par l’UNESCO comme « un centre d’information de proximité qui met à disposition de ses usagers toutes sortes de savoirs et d’informations » (IFLA-UNESCO, 2022)1 est un espace central dans l’accès à la connaissance dans nos sociétés contemporaines. Elle remplit une mission de service public en favorisant l’appropriation par tous du savoir. Toutefois, cette institution est confrontée à des antagonistes qui la mettent sous tension. Ainsi, le nombre d’ouvrages ne cesse de croître ; le périmètre des bibliothèques s’étend avec l’inclusion de nouveaux documents comme le dépôt légal du numérique2, alors que le nombre de personnels de ces institutions reste, au mieux, constant, voire, diminue ce qui a un impact sur leur capacité à offrir des services de qualité.
Pour gagner en productivité, les bibliothèques nationales investissent de plus en plus dans des solutions technologiques qui sont aujourd’hui regroupées sous le terme d’« intelligence artificielle ». Cette dernière est considérée comme une solution pour améliorer la gestion des données, la recherche et la formation.

Les promesses d’un accès simple à la connaissance via des outils comme ChatGPT (InterCDI, janvier-février 2024, n° 307) s’emparent du monde des bibliothèques où l’algorithme semble devenir une solution pour les aider à mener à bien leurs missions. Qu’en est-il réellement ? Est-ce une tendance aussi récente que cela ? Quels sont les usages qui sont explorés par les grandes bibliothèques en Europe ? Quels enjeux et défis doivent-elles surmonter ?

Pour répondre à ces questions, il est important de comprendre les enjeux et les défis auxquels sont confrontées les bibliothèques dans le contexte de l’évolution des technologies et du changement sociétal. Dans un premier temps, nous remettrons en perspective la nouveauté de l’IA, en lien avec les besoins des bibliothèques, avant de nous centrer plus précisément sur des initiatives récentes avec un focus particulier sur le cas de Gallica. Cela nous permettra d’élargir aux transformations en cours au sein des bibliothèques.

Des systèmes experts à l’IA

L’actualité technologique remet au premier plan des thèmes déjà présents il y a plus de trente ans. À l’époque, si le terme d’intelligence artificielle est présent, c’est plus le concept de système expert que les articles scientifiques traitent. Ces derniers visent à reproduire des mécanismes cognitifs d’experts d’un domaine particulier. Le système se compose d’une base de données, d’une base de règles et d’un moteur d’inférence. Dans les années 1980-90, nous observons déjà un intérêt dans les articles scientifiques pour la classification automatique, l’indexation, mais aussi le traitement des images. Les systèmes experts n’ayant pas donné satisfaction, le terme d’IA a pris le relais ces dernières années avec l’arrivée de l’apprentissage profond (deep learning). La figure 13 illustre le glissement qui s’est progressivement opéré.
Nous avons réalisé une recherche sur le nombre d’articles présents sur la base de données Web of Science. Nous avons utilisé les requêtes « expert systems AND libraries » et « artificial intelligence AND libraries » avec une recherche dans le titre des articles indexés.

Figure 1 : Évolution de l’usage des termes système expert et IA dans le contexte d’articles scientifiques concernant les bibliothèques

Les résultats mettent en évidence une décroissance nette des systèmes experts à partir du début des années 2000 et un intérêt grandissant pour l’IA à partir de 2019. Les thématiques associées – notamment l’amélioration de la recherche, l’indexation et le catalogage automatiques et, plus généralement, la transformation de la bibliothèque – restent toutefois les mêmes.

Sous l’appellation IA règne un flou artistique comme nous le verrons dans notre tour d’horizon des projets au sein des bibliothèques nationales en Europe. Dans les projets étudiés, nous retrouvons régulièrement l’usage de la reconnaissance optique de caractères (ROC ou Optical Caracter Recognition – OCR- en anglais), la reconnaissance de textes manuscrits (Handwritten Text Recognition ou HTR), la fouille de données ou d’images, mais aussi la génération de métadonnées ou l’aide au catalogage/indexation.

Tour d’horizon des projets d’IA

Dans cet article, nous nous appuyons sur le projet LibrarIn4 en cours (2022-2025), pour appréhender la ou les manière(s) dont les bibliothèques nationales déploient actuellement des solutions dites d’intelligence artificielle pour répondre à leurs besoins. LibrarIn se concentre sur la co-création de valeur entre usagers et bibliothèques, par l’intermédiaire notamment des services proposés. Trois dimensions de la valeur sont analysées dans ce cadre : sa nature et ses caractéristiques, ses modes d’organisation et d’implémentation et ses impacts.
Au sein du consortium de recherche, une tâche spécifique s’intéresse à la transformation numérique des bibliothèques. Pour répondre à nos questions de recherche, nous avons identifié les bibliothèques et les expérimentations suivantes (organisées par date de lancement) :

Tableau 1 : Présentation des terrains étudiés dans le cadre de LibrarIn

Pour chaque bibliothèque, une étude de cas est en cours avec des entretiens qualitatifs et une analyse documentaire. Ainsi, 70 entretiens ont été réalisés en 2024. Nous avons pu échanger aussi bien avec les chefs de projets qu’avec des acteurs plus politiques, mais aussi des représentants d’usagers. Nous nous sommes intéressés à l’impact de la transformation numérique, en particulier à la vague dite d’intelligence artificielle, le tout dans une perspective de co-création entre l’établissement public et ses usagers. Notre objectif étant de mettre en lumière les processus à l’œuvre et ses effets sur les services rendus.
Il est intéressant de noter que la BnF ou la bibliothèque nationale de Finlande ont lancé depuis de nombreuses années des expérimentations. Elles sont alors en mesure de diffuser le résultat de leurs travaux de recherche et développement (R&D) qui répondent à des besoins spécifiques. C’est dans cette logique que la BnF pilote le groupe de travail sur l’IA en bibliothèque au sein de la Conference of European National Librarians (CENL)5. Consciente des enjeux, la BnF a d’ailleurs déployé une feuille de route de l’IA qui couvre la période 2021 à 20266. Au sein de celle-ci, nous retrouvons les mêmes besoins (aide au catalogage et signalement ; gestion des collections ; exploration, analyse des collections et amélioration de l’accès ; médiation, valorisation et éditorialisation des collections et aide à la décision et au pilotage) que ceux auxquels les autres bibliothèques souhaitent répondre :

Figure 2 : Feuille de route IA de la BnF, pour en savoir plus, vous pouvez contacter ia@bnf.fr

Ces cinq grands domaines se retrouvent dans le tableau 1. Les projets présentés soulignent les besoins des bibliothèques pour mener à bien des missions relatives à :
• L’accessibilité des collections. Pour cela, elles mettent en place des dispositifs visant à rendre accessibles des documents non exploitables informatiquement préalablement (en particulier des fichiers numérisés dans un format image) ou des documents manuscrits qui sont difficiles à traiter par ordinateur.
• L’évolution des processus internes, en particulier des solutions sont déployées à la fois pour mettre en place de la maintenance prédictive (l’objectif étant de savoir quel ouvrage a besoin d’être entretenu/réparé pour assurer sa préservation) ou pour aider à optimiser le rangement et l’organisation des magasins.
La feuille de route évoque à plusieurs reprises Gallica sur lequel nous allons nous attarder plus précisément.

Le cas de Gallica à la BnF

Fer de lance de la BnF pour les questions de l’IA, la bibliothèque numérique Gallica, lancée en 1997 a pour mission de rendre accessibles les ressources patrimoniales de la BnF. Les défis technologiques ont fait prendre à Gallica une importance croissante et en font un terrain d’expérimentation. Ainsi, Jean-Philippe Moreux, expert IA à la BnF, a schématisé de la façon suivante l’évolution de Gallica :

Figure 3 : Historique du projet Gallica, J.P. Moreux (2022)

Nous pouvons observer l’importance des collaborations avec des acteurs externes, en particulier dans des contextes de projets européens. Ces échanges sont cruciaux pour la BnF, à la fois pour bénéficier de fonds nécessaires à ses travaux de R&D, mais aussi pour obtenir les compétences clés afin de les mettre en œuvre. Dans son schéma, Jean-Philippe Moreux distingue les projets : ceux centrés sur l’analyse/fouille d’images et ceux consacrés à l’enrichissement des documents (pour favoriser la fouille de données). Les innovations sont progressives même si une difficulté majeure reste l’intégration des prototypes développés (comme GallicaPix) dans le système opérationnel (ici Gallica) et la gestion de la mise à l’échelle de l’outil7. L’objectif de toutes ces expérimentations est de renforcer l’accessibilité des collections nationales et les usages associés.

En parallèle, un travail conjoint est réalisé avec des bibliothèques partenaires qui coopèrent avec la BnF pour mettre en ligne leurs collections à la fois dans leurs espaces et dans Gallica. Ce sont quasiment 300 bibliothèques qui utilisent Gallica en marque blanche à l’image de la Bibliothèque nationale et universitaire (BNU) de Strasbourg qui propose un accès à une bibliothèque numérique Numistral8 basée sur Gallica.

Transformations en cours, quel(s) avenir(s) pour l’IA dans les bibliothèques ?

Les bibliothèques font face à de nombreux défis dans ce contexte. Si l’usage de ces technologies est de plus en plus accepté en interne, les besoins en compétences de pointe explosent. Pour y répondre, ces institutions qui, certes, accueillent de nouveaux métiers en se dotant de structures (comme le dataLab9 de la BnF) en leur sein, reposent principalement sur des partenariats avec des laboratoires de recherche (l’INRIA par exemple) ou des contrats de prestations auprès de sociétés de services ou de conseils.
Dans un contexte de restriction budgétaire, les projets relatifs à l’IA en bibliothèque demandent d’importants financements pour être menés à bien. Si des institutions, comme la BnF, arrivent encore à mobiliser des budgets propres pour certaines expérimentations, pour les industrialiser, les bibliothèques répondent de plus en plus à des appels à projets (notamment européens) ou à des partenariats avec des acteurs privés. Une difficulté rencontrée est celle de l’évaluation des projets d’IA. Peu d’entre elles mettent en œuvre une évaluation des impacts de leurs projets et donc sont capables de justifier les retombées concrètes associées.

Les bibliothèques, dont les missions fondamentales sont de plus en plus concurrencées par des acteurs privés s’inscrivant dans une logique d’extraction de la connaissance et d’accessibilité à celle-ci sont dans le même temps une source précieuse pour les acteurs du numérique. Nous pouvons noter un appétit croissant des géants du numérique pour les données structurées qu’elles produisent10. Leurs grandes quantités de données font de celles-ci une source intéressante pour un acteur qui souhaite entraîner un modèle informatique aussi bien sur du texte que sur des images. Elles sont alors de plus en plus sollicitées – parfois prédatées de manière sauvage lors de la phase d’entraînement des algorithmes11– par des entreprises pour mettre à disposition leurs collections pour l’entraînement d’algorithmes.

Avec la pression croissante des grandes entreprises du numérique, des États, mais aussi des contextes budgétaires contraints, se pose in fine la question de la place des bibliothèques et de leur positionnement dans le monde qui se dessine. De nouveaux espaces se construisent, ainsi la CENL permet à ses membres d’échanger dans un contexte européen. Une série de webinaires est actuellement proposée par l’organisation afin de diffuser le plus largement possible leurs avancées12. En parallèle, des collectifs se construisent comme AI4LAM (intelligence artificielle pour les bibliothèques, archives et musées) qui visent à mettre en relation les acteurs du secteur et à partager les bonnes pratiques, les projets en cours et toutes les questions que peuvent se poser les parties prenantes.
Nous pouvons noter aussi de plus en plus de ressources partagées par les bibliothèques pour s’aider mutuellement dans cet environnement mouvant. Ainsi, par rapport à un enjeu de taille qu’est l’évaluation de la sécurité du dispositif mis en place, la Library of Congress met à disposition sa grille d’évaluation des projets.

Pour résumer, à travers cet article, nous avons pu souligner des usages de technologies « intelligentes » que ce soit par la mise en place d’outils pour de la reconnaissance de caractères, dactylographiés ou manuscrits, de l’aide à l’indexation ou au catalogage, ou plus largement à l’accessibilité des collections. Des utilisations moins visibles sont aussi présentes, comme la maintenance prédictive, pour anticiper quel ouvrage restaurer, mais aussi pour optimiser l’organisation ou le stockage des collections. Ces usages croissants sont favorisés par les injonctions des tutelles politiques de réduire les coûts de fonctionnement de ces administrations publiques. Les bibliothèques se trouvent alors sur une ligne de crête où elles doivent trouver un équilibre entre leur mission fondamentale et les besoins des utilisateurs tout en tenant compte des logiques inhérentes à l’activité commerciale de certains partenaires privés.
Il nous semble alors que les réponses qui sont en train de se construire auront des conséquences importantes pour l’ensemble de l’écosystème (que ce soit les bibliothèques municipales ou associatives, ou encore les CDI) aussi bien en termes de financement qu’en termes de compétences tant pour les professionnels que pour les usagers. En effet, les nouveaux usages qui se développent s’accompagnent d’un besoin de formation et surtout du renforcement d’une littératie informationnelle afin d’avoir une réflexion sur les outils dits d’intelligence artificielle et sur leurs usages.

 

 

Indexation des connaissances versus indexation des existences

L’histoire de l’indexation est marquée par différentes manières de comprendre et de savoir. Nous souhaitons montrer ici que l’action d’indexer et d’organiser l’information n’est pas nécessairement liée à une volonté de rendre la connaissance accessible à tous, mais qu’elle est souvent guidée par le désir d’en savoir plus sur ce que font les individus.
Qu’est-ce qui est désormais le mieux indexé ? Les connaissances et leurs supports (ouvrages, périodiques, etc.) ou bien nos différentes activités personnelles sur les réseaux ? Les acteurs commerciaux du web se montrent plus intéressés par les secondes et déploient en conséquence des méthodes pour y parvenir.
Faut-il pour autant accepter cette intrusion dans nos vies privées ? Pour répondre à ces interrogations, nous nous proposons d’apporter un regard rétrospectif sur les processus d’indexation qui s’inscrivent depuis longtemps dans une tension entre indexation des connaissances et indexation des existences.
Les lecteurs d’InterCDI connaissent bien l’histoire de l’organisation des connaissances, ses grands acteurs et leurs réalisations, notamment en ce qui concerne les enjeux classificatoires. On songe bien entendu à Bacon, Harris, Dewey, Otlet, Ranganathan, ainsi qu’à toutes les méthodes d’indexation entre les classifications décimales, les vedettes-matière et les thésaurus.
Mais si l’organisation des connaissances a veillé à améliorer l’accessibilité informationnelle par des méthodes de classement optimisées, ses travaux et avancées ont souvent été source d’inspiration pour des motifs moins louables. Si le but premier était de classer l’information et d’organiser les connaissances pour faciliter la « retrouvabilité » (findability) et la compréhension des domaines de savoir sous des formes de type encyclopédique, les méthodes d’organisation des connaissances eurent également une influence sur la formation des esprits des individus. Cependant, ces enjeux de formation s’accompagnent également de stratégies de contrôle, ce que montre Ronald Day à propos de l’indexation :

« Je soutiens que l’indexation et l’indexation documentaire jouent un rôle majeur et croissant dans l’organisation de l’identité personnelle et sociale et de la valeur et dans la réorganisation de la vie sociale et politique. Ce phénomène a entraîné une réécriture des psychologies personnelles et sociales de la tradition occidentale des deux dernières années et modifie les notions de soi et de la personnalité, les textes et la textualité, le jugement personnel et le rôle de la critique dans la pensée et la politique. Aujourd’hui, ces fondements de la pensée des Lumières, tels que les pouvoirs naturels individuels, l’absence de surveillance et les droits de la parole, sont systématiquement dépassés et effacés avec l’aide importante de systèmes documentaires au service du pouvoir et du profit de l’État et de l’entreprise, à la fois au sein des états démocratiques et non démocratiques3 » (Day, 2014).

Le Nom de la Rose

Cette tension est parfaitement illustrée par l’opposition entre deux personnages du Nom de la Rose, le franciscain Guillaume de Baskerville et le dominicain Bernard Gui. Pour la resituer, rappelons que le héros du roman d’Umberto Eco est un détective de la période médiévale qui utilise des méthodes dignes de Sherlock Holmes et s’inscrit dans la lignée de Guillaume d’Ockham, célèbre désormais pour « le rasoir d’Ockham » qui renvoie au fait de chercher la solution la plus simple quand elle existe, ce qui signifie également qu’il n’est pas nécessaire d’inventer de nouveaux mots ou concepts quand on en dispose déjà de pertinents. Guillaume de Baskerville est un moine franciscain, ancien inquisiteur, dont la logique repose sur la recherche de la vérité des faits et dont le narrateur du Nom de la Rose, Adso de Melk, donne la description suivante :

« Alors je ne savais pas ce que frère Guillaume cherchait, et à vrai dire je ne le sais toujours pas aujourd’hui, et je présume que lui-même ne le savait pas, mû qu’il était par l’unique désir de la vérité, et par le soupçon – que je lui vis toujours nourrir – que la vérité n’était pas ce qu’elle lui paraissait dans le moment présent » (Eco, 1982).

L’inquisiteur dominicain, Bernard Gui, présente un tout autre visage que celui de Guillaume de Baskerville. C’est d’abord un personnage réel, connu pour ses missions contre les hérésies dans le sud de la France. Ce n’est pas la vérité des faits qui l’intéresse, mais la préservation du dogme. Il lui faut donc traquer tout ce qui pourrait s’en détourner et qui constituerait alors des erreurs, étymologiquement des hérésies. L’inquisiteur traque le faux pour le dénoncer et pour le condamner :

« Bernard a été pendant des années le maillet des hérétiques dans la région de Toulouse et a écrit une Practica officii inquisitionis heretice pravitatis à l’usage de tous ceux qui devront poursuivre et détruire vaudois, béguins, bougres, fraticelles et dolciniens. » (Eco, 1982).

L’opposition de style est une opposition idéologique qui explique pourquoi, actuellement, ces deux positions s’affrontent avec des méthodes parfois communes, mais des visées qui diffèrent. Le rapport à la foi de Guillaume de Baskerville et de Bernard Gui apparaît distinct. En effet, la confiance envers les autres repose sur le doute chez le franciscain, tandis qu’elle repose sur le soupçon chez le dominicain. La recherche de la vérité suppose une volonté d’absolu, voire d’éclaircissement personnel pour mieux comprendre l’univers. La méfiance vis-à-vis des autres implique une crainte envers l’avenir et la peur que des pensées autres et nouvelles viennent pervertir les représentations qui ont mis tant de temps à être construites et qui sont également l’assurance de la solidité des dogmes et des pouvoirs qui y sont associés. Si Guillaume de Baskerville ne sait pas exactement ce qu’il recherche, Bernard Gui sait parfaitement ce qu’il cherche à défendre.

Le Janus bifront de l’indexation

L’enjeu indiciaire, dont le but est de relever des indices pour éventuellement aboutir à des révélations, est essentiel dans les deux types d’indexation. La position de Guillaume de Baskerville consiste à lever le voile (étymologiquement, la révélation) pour accéder à une vérité difficile d’accès parce que les coupables ne veulent justement pas être identifiés, tandis que la position de Bernard Gui repose sur la nécessité de mettre en évidence ce qui est hors norme : l’anomalie ou l’erreur qui doit être poursuivie. Les deux culpabilités qui en résultent n’ont rien à voir l’une avec l’autre, même si elles reposent sur un travail qui consiste à accumuler des preuves.
Le travail de recherche documentaire apparaît même en opposition. À une logique indiciaire somme toute scientifique, tant il s’agit de rapporter des éléments à comparer à d’autres et à construire des hypothèses, s’oppose une logique indiciaire qui traque les éléments contraires au dogme, car l’hérésie est assimilée à une forme de virus qu’il faut éradiquer. L’éradication passant par la destruction des écrits et parfois par celle de ceux qui les ont produits.
L’indexation est ainsi un Janus bifront avec des périodes plus ou moins fastes pour l’un des deux côtés. Mais ils sont parfois difficiles à distinguer. Les bascules étant rapides entre les deux ; les progrès de l’organisation des connaissances permettant d’imaginer de nouvelles prérogatives pour l’indexation des existences.
Plusieurs épisodes de l’histoire info-documentaire illustrent bien cette tension. Un des plus emblématiques repose sur l’utilisation détournée d’un travail documentaire bibliographique d’ampleur : la bibliographie universelle compilée par Conrad Gesner (1516-1565), un véritable catalogue de ressources en langue latine, grecque, hébraïque et arabe. Conrad Gesner informe son lecteur qu’il n’a pas cherché à vérifier la véracité de tous les ouvrages recensés considérant ainsi que chacun des ouvrages présente un intérêt potentiel pour le lecteur. Ce formidable travail de recensement va être utilisé par l’inquisition quelques années plus tard pour mettre en place l’index des livres interdits, index librorum prohibitorum en 1559. Conrad Gesner est également mis à l’index dans le même mouvement, car il est calviniste. L’index ainsi produit requiert des preuves documentaires que sont les ouvrages qui sont alors lus et examinés pour être mis au ban. Ils constituent les preuves de l’hérésie. On passe ainsi en quelques années du catalogue des ouvrages potentiellement pertinents au catalogue des ouvrages ouvertement dangereux aux yeux des autorités ecclésiastiques.

Index librorum prohibitorum, 1564.

La pratique des listes de livres interdits se rencontre à plusieurs reprises. Les nazis vont ainsi établir des listes spécifiques pour mener des autodafés et pour expurger tous les travaux qu’ils jugent néfastes, notamment les ouvrages d’auteurs juifs. En France, de telles listes sont alors établies avec l’aide des collaborationnistes français en septembre 1940. C’est le cas de la liste Bernhard puis de la liste Otto4. Des saisies ont alors lieu dans les librairies et la liste s’allonge avec l’intégration d’auteurs marxistes après la rupture du pacte germano-soviétique ainsi que des auteurs britanniques et américains.
Toujours dans cette perspective de détournement bibliographique, un autre exemple à citer est magnifiquement illustré par le film sur John Edgar Hoover réalisé par Clint Eastwood (Eastwood, 2011). J. Hoover, futur dirigeant du FBI réalise une démonstration de sa vision de l’institution en montrant à sa secrétaire sa capacité à retrouver rapidement une information au sein de la Bibliothèque du Congrès. Il lui annonce alors qu’il désire procéder de même pour le FBI. C’est ainsi qu’il développe le premier fichier national des empreintes digitales. Les fiches et les fichiers prisés par les bibliothécaires et les documentalistes deviennent des instruments potentiels pour d’autres types de fichage.
Les acteurs de la documentation eux-mêmes peuvent parfois être tentés par le « côté obscur » de l’indexation. Paul Otlet, lui-même, n’y échappe pas. Il envisage ainsi d’utiliser des logiques classificatoires dans un article de 1906 intitulé « De quelques applications non bibliographiques de la classification décimale » :

« Mais en dehors des Tables de la classification bibliographique décimale, le principe même du classement décimal peut recevoir mainte application intéressante. Son emploi pour l’établissement du casier judiciaire et pour le signalement anthropométrique paraît devoir retenir spécialement l’attention. On n’ignore pas l’importance qu’a prise l’identification des délinquants : elle permet de reconstituer leur histoire en dehors de leurs propres allégations ; elle rend vaine toute tentative de dissimulation de nom ; elle ne fait plus la police tributaire d’un simple interrogatoire. On sait qu’en France, M. Bertillon a attaché son nom à un système d’identification basé sur des mensurations et des caractères physiques : on mesure, par exemple, la taille, l’envergure des bras, la longueur de l’index ; on note les dimensions crâniennes, la couleur de l’iris, etc. Ces bases objectives échappent au mensonge.
La méthode consiste à attribuer à chaque individu anthropométré (délinquants, conscrits, etc.) un numéro classificateur basé sur les éléments récognitifs les plus caractéristiques de leur personne physique et inscrits en quelque sorte dans leurs organes. On pourra toujours retrouver ensuite, sous le même nombre classificateur, dont les éléments de formation sont invariables, tous les documents (photographies, pièces, rapports, etc.) ayant trait à un même individu. » (Otlet, 1906, p. 96).

Paul Otlet envisage les moyens de caractériser un individu de façon unique, non sans prendre appui sur des théories anthropométriques dont les présupposés racistes et les fondements guère scientifiques ont été plusieurs fois démontrés depuis.
On pourrait citer d’autres types de détournement comme les travaux bibliométriques et scientométriques dont le but est d’abord de comprendre la science telle qu’elle se fait, et qui peu à peu est devenue synonyme de classement et de gestion managériale de la science. C’est l’usage détourné de la scientométrie qui mérite d’être discuté, pas la scientométrie elle-même. Il en va de même pour l’indexation qui demeure essentielle et nécessaire, tout comme les métadonnées.

Faut-il lutter contre l’indexation ?

Les risques ainsi décrits, faut-il alors considérer que l’indexation serait potentiellement néfaste au point d’envisager de l’interdire ou tout au moins de la limiter ? Faut-il casser alors les systèmes d’indexation ? L’expansion des métadonnées et des dispositifs de production d’indexation des activités personnelles s’observe sur la plupart des sites et dispositifs en ligne, au point d’ailleurs qu’on constate également que des prérogatives « régaliennes » se banalisent. Des sociétés privées du web parviennent de plus en plus à procéder à des contrôles d’identité comme c’est le cas parfois sur Facebook ou Google, notamment quand il s’agit de récupérer un compte à la suite d’une usurpation d’identité, ou, plus fréquemment, sur Airbnb qui souhaite vérifier l’identité de ses clients pour se prémunir contre des abus. Il reste qu’on ne sait pas toujours quels sont les vérificateurs, et ce d’autant plus que parfois le contrôle s’exercerait par des systèmes de vérifications algorithmiques, notamment quand il s’agit de comparer la photo de la pièce d’identité avec celle de la webcam. Il est probable que ces données sont en fait vérifiées par des tiers fort mal payés à l’autre bout de la planète. Le vol de données est alors une crainte légitime et ce, d’autant que les indexations en tout genre prolifèrent, notamment en matière de données de santé. Comment se prémunir contre le fait que les données de type ADN finissent par transiter d’entreprise en entreprise au point de se voir refuser un prêt ?
Cependant, s’il faut clairement développer des stratégies de prudence, de méfiance, voire de résistance, il semble qu’il faille également préserver l’essence des processus documentaires et des enjeux organisationnels, notamment en considérant que le travail d’indexation des personnes peut s’avérer également bénéfique pour les individus, car il s’agit aussi de pouvoir leur accorder des droits. Faire disparaître totalement ces processus revient au final à considérer que l’identité devient volatile, qu’il n’existe plus de nationalité, de reconnaissance associée :

« Que se passerait-il si vous perdiez définitivement l’accès à toutes vos données d’un seul coup ! Au-delà du simple vol d’identité ou de l’égarement des données, imaginez un scénario de suppression permanente des données personnelles. Cette perspective, une fois réfléchie, est vraiment effrayante. Que feriez-vous si vous deviez, d’une manière ou d’une autre, vous détacher définitivement de toutes vos données personnelles ! Que feriez-vous si vous deveniez d’une manière ou d’une autre définitivement non reconnue par tous les systèmes de données ! C’est précisément ce que la personne informationnelle redoute le plus : l’effacement permanent et irréversible de la totalité de ses informations personnelles et donc de son identité informationnelle. Pas de permis de conduire, pas de passeport, pas de numéro de compte bancaire, pas de rapport de crédit, pas de relevé de notes d’université, pas de contrat de travail, pas de carte d’assurance médicale, pas de dossier médical et, au fond, pas de certificat de naissance enregistré. Le scénario est effrayant : tout le monde autour de vous est bien attaché à ses données alors que vous êtes sans données, sans informations, et par conséquent vraiment sans défense. Que feriez-vous de vous-même ! Que pourraient faire de vous les autres ! Que pourrait faire la bureaucratie lorsque vous lui faites part de votre détresse, étant donné qu’aucune bureaucratie ne peut traiter un sujet autrement que par ses informations !5 » (Koopman, 2019, p. 4)

La recherche de l’équilibre

Une position équilibrée apparaît ici nécessaire en plaidant pour une éthique de l’indexation qui repose sur des décisions politiques plutôt que sur des stratégies d’ethics washing.
L’enjeu est aussi de plaider pour un renouveau de l’organisation des connaissances qui a toujours été un domaine d’innovation et d’exploration, mais qui s’avère actuellement dominé en la matière par les recherches au niveau de l’indexation de nos activités privées et personnelles à des fins marketing ou policières. Le couplage des index et des algorithmes permet à des catalogues comme ceux d’Amazon ou de Netflix d’anticiper au mieux les besoins des usagers en privilégiant des logiques qui sont celles d’une « économie de la jouissance » qui est éloignée des formes pensées pour accéder à la connaissance.
Comment réinjecter de l’innovation et un intérêt grandissant au profit d’une écologie de la raison ! On espère apporter quelques solutions dans les prochaines années aux lecteurs d’InterCDI.
L’indexation n’est pas le territoire réservé des professionnels de l’information, comme les questions algorithmiques ne concernent pas seulement les informaticiens et les mathématiciens. Cela implique de nouvelles formes de collaborations et de recherche-développement pour que les instruments de l’indexation et de l’algorithmique ouvrent des potentialités classificatoires et de nouveaux moyens de manipulation de l’information à des fins intellectuelles.
Guillaume de Baskerville n’a pas dit son dernier mot.