L’évolution de la recherche d’informations, de la « retrouvabilité » à la prédictibilité

Le type d’informations requises évolue. Ainsi, pendant des siècles, c’est le besoin d’accumuler qui prédomine avec la nécessité de ne plus perdre des savoirs anciens que les aléas de l’Histoire ont pu faire disparaître. Une logique qui bien sûr se retrouve souvent en porte-à-faux avec le dogme privilégiant la sélection des textes officiels. La « retrouvabilité » de l’information repose ainsi sur la nécessité d’une conservation des savoirs. Les compilateurs craignent des âges obscurs qui verraient la disparition des savoirs anciens et le temps passé à les redécouvrir. Cette logique est aussi celle de la célébration d’une Antiquité jugée supérieure, dont on déplore les textes perdus. Cependant, le passé est souvent chargé d’erreurs, notamment avec ces idola ou fausses connaissances anciennes dont il convient de se départir. C’est la prise de conscience progressive qu’il reste encore des savoirs à acquérir, et que, par conséquent, des domaines d’étude sont en construction et donc incomplets. Ces positions nouvelles émergent peu à peu, et notamment à partir de la Renaissance où les tabulae (tables des matières) s’accompagnent d’une volonté d’organiser les connaissances qui vont aboutir au projet encyclopédique de Diderot et d’Alembert et aux logiques classificatoires qui visent à ordonner les savoirs ainsi que les documents.

Invenire : du besoin de rechercher ce que l’on connaît déjà au besoin de trouver du nouveau

« On a vu que la notion d’inventio change avec Bacon : de recherche de ce que l’on savait déjà, elle se transforme en découverte de ce qu’on ne savait pas encore. Mais à ce compte, fouiller dans le répertoire du savoir revient à mettre sens dessus dessous un immense magasin dont on ne connaît pas encore l’extension, et à y chercher quelque chose non seulement pour l’utiliser pour ce qu’il est, mais aussi pour se livrer, d’une certaine manière, à une opération de bricolage et trouver de nouvelles possibilités de fusion, de rapport, d’emboîtement entre des choses qui, initialement ne présentaient aucun rapport de réciprocité. » (Eco, 2010, p. 65)
Dès lors, invenire désigne de plus en plus le fait de trouver quelque chose de nouveau, notamment une nouvelle relation, plutôt que de simplement retrouver l’information. En effet, jusque-là, c’était le besoin de la retrouver le plus rapidement possible qui dominait avec le statim invenire de la période médiévale, qui va notamment s’appuyer sur les tabulae et sur les index. L’importance de pouvoir retrouver l’information implique des dispositifs spécifiques. Il est possible de citer ici les travaux qui permettent notamment l’amélioration de la structure de la page du manuscrit, avec Hugues de Saint-Victor : ce dernier amorce un travail qui consiste à produire des manuscrits en tant qu’outils qui permettent une lecture studieuse. Son ouvrage, le Didalisco de studium legendi, a été notamment bien analysé par Ivan Illich.
Cette volonté de retrouvabilité de l’information va se manifester dans le besoin de disposer d’outils de recherche rapide, notamment au sein d’ouvrages régulièrement consultés et qui font figure de miroir de connaissances de l’époque. C’est le cas de la constitution d’index comme celui réalisé par l’équipe de moines de Jean Hautfuney sur le Speculum historiale de Vincent de Beauvais. Peu à peu l’essor de nouvelles logiques d’étude vont de pair avec la nécessité de mieux organiser les savoirs et les lieux de savoir.

De l’invenire à l’a-venir

L’évolution de la recherche d’information s’est faite petit à petit vers une anticipation du besoin d’information via des démarches de veille qui permettent de récupérer de l’information et de la catégoriser selon des caractéristiques précises au désir d’anticiper à l’avance quel sera le besoin d’information lui-même… parfois avant même qu’il ne soit exprimé !
Le processus d’automatisation couplé à des logiques prédictives permet d’envisager de nouvelles potentialités. On peut désormais imaginer des systèmes d’information qui vous donneraient des éléments du type « vous pourriez avoir besoin de ce document » ou « vous pourriez avoir besoin d’analyser cette thématique pour laquelle le système a déjà repéré plusieurs informations ». Pour que cela fonctionne, il faut confier au système un maximum de données. C’est en partie de cette manière que fonctionnent les moteurs de recherche qui, en tentant d’ajouter des critères, proposent une personnalisation des résultats en fonction de notre localisation, des requêtes précédentes et parfois en fonction des relations sociales déclarées. Si un de vos amis a consulté tel site ou s’il est le créateur de la ressource ou d’un signalement, cela peut s’avérer un signe positif à prendre en compte. Sur Google Scholar par exemple, un chercheur se voit mentionner les articles que le chercheur a lui-même cités.
Le réseau affinitaire s’étend le plus souvent par des systèmes de similarité ou simplement de co-occurrences. Si vous avez acheté tel produit, le système vous propose des produits qui sont le plus souvent achetés en même temps par d’autres clients, même chose pour les emprunts à la bibliothèque. Cette logique est associée aux produits consultés, mis de côté, sur des listes d’achats futurs, potentiels ou désirés. C’est justement la tension entre le like et le want, entre le fait d’aimer quelque chose et le désir d’achat. Amazon a développé toute une logistique sophistiquée qui permet d’anticiper les achats futurs de ses clients réguliers. Si parfois l’exagération consiste à faire croire que le panier d’achats existe déjà, il s’agit surtout d’un système de gestion de stocks afin que le produit soit prêt à être expédié en cas d’achat.
Au niveau informationnel, il s’agit de vous envoyer des informations ou des documents sans que vous n’ayez fait de suggestions particulières. Au début, on constate surtout des envois informationnels de type météo ou informations généralistes, mais l’objectif à terme est d’affiner cette perspective avec des propositions de plus en plus personnalisées grâce à des outils comme des agents intelligents évolués. Ce n’est donc plus de la sérendipité mais une anticipation informationnelle qui réside sur des systèmes automatisés et qui minimise les interventions humaines pour tenter de se rapprocher des habitudes de requêtes et de consultations.

Des systèmes qui supposent une maîtrise

Ces systèmes souvent exagérément qualifiés d’intelligence artificielle ou de système de deep learning fonctionnent sur l’agrégation de données avec des traitements statistiques et des méthodes de classification qui mêlent traitement automatique du langage et microtâches humaines pour tenter de fournir une information sélectionnée et personnalisée.
Cependant, au lieu d’assurer une information de qualité, ces systèmes peuvent également renforcer les effets de bulles de filtre et on finit par obtenir assurément l’information que l’on désire… à savoir celle qui conforte notre opinion, ce qui aboutit à un résultat inverse de celui désiré ! Au lieu de produire une augmentation par l’apport d’informations nouvelles qui pourraient se transformer en un savoir renouvelé, il s’agit surtout d’une réduction des capacités de réflexion. Les systèmes dits d’intelligence artificielle ont dès lors plus de chance de se nourrir de bêtise collective que d’intelligence collective s’il n’est pas possible pour l’individu de comprendre a minima comment fonctionne le dispositif afin de pouvoir le « hacker », c’est-à-dire d’en tirer véritablement la quintessence.
C’est la logique première des théories de l’augmentation qui recherchent des moyens pour aider l’homme à être plus performant dans son travail intellectuel. La mise à disposition de tels outils à des non-professionnels de l’information non formés aboutit non pas à une démocratisation, mais à une nouvelle forme de manipulation de l’esprit.
Une nouvelle fois, l’accès aux Lumières des lettrés du digital suppose un effort, une sortie hors de l’état de minorité à la fois technique et intellectuelle dans laquelle peuvent nous mener de tels systèmes, car l’individu se montre capable de les utiliser de manière intuitive via des interfaces aisées ou quasiment invisibles, mais incapables de pleinement les comprendre. Or, l’effort suppose une capacité à paramétrer le dispositif et à en comprendre les présupposés et les limites. Kant dirait que nos directeurs de conscience sont aussi humains que techniques désormais.
Si on comprend l’intérêt pour un chercheur ou un spécialiste d’un domaine, voire pour une organisation, de pouvoir anticiper des besoins informationnels précis et stratégiques, l’individu risque de produire un enfermement informationnel du même niveau que le spectateur de TF1 qui ne regarde plus que Jean-Pierre Pernaut.
Plusieurs pistes techniques peuvent être évoquées : celle du hasard (random), c’est-à-dire le signalement de ressources en dehors des sphères informationnelles traditionnellement consultées. Mais cela ne garantit en aucun cas son intelligibilité et sa lisibilité pour un individu qui peut en trouver le contenu trop difficile, ou trop en désaccord avec ses propres opinions.
Il est aussi possible d’envisager la piste de l’index ou de l’annuaire humain qui consisterait à valoriser les ressources dites fiables et à pénaliser les plus hasardeuses. Si ces systèmes sont en déclin depuis la disparition successive des annuaires de Yahoo et de Dmoz, un retour à la médiation humaine pose évidemment la question de la légitimité des référenceurs. Les pistes Decodex impulsées par Le Monde restent opportunes, mais nécessitent des logiques qui mêlent expertises et contre-pouvoirs sous peine de censure. C’est aussi le rappel que les signets sociaux furent un temps une piste opportune que les moteurs de recherche ont négligée ou ont tenté de réduire à un traitement statistique des likes et des plus.
Si ces systèmes de médiation humaine peuvent être critiqués, ils semblent plus souhaitables que ceux qui consistent à valoriser les contenus dits populaires qui émanent sur les réseaux sociaux, fonctionnant bien souvent sur le registre de l’émotion plutôt que sur celui de la raison.
Il reste bien évidemment l’enjeu essentiel de la formation à ces systèmes informationnels, ce qui signifie que l’éducation aux médias et à l’information est clairement une éducation aux dispositifs et à la question du medium.
Finalement, la question de la prédictibilité repose en grande partie sur l’étude de ce que l’on sait déjà, de la constitution de modèles ou patterns qu’on applique à une situation donnée, si bien que paradoxalement on finit toujours par rechercher ce que l’on savait déjà… alors qu’on espère toujours obtenir du nouveau. Or, le nouveau réside souvent dans ce qui est justement difficile à identifier. Le système idéal est alors celui qui détecte la petite fenêtre vers d’autres possibles, un monde de Was ist das ?

Un art du filtrage

Pour cela, il faut développer un art du filtrage comme le recommandait Umberto Eco*, qui consiste à opérer des sélections et donc à créer de l’oubli dans les dispositifs sous peine de ne plus pouvoir avoir l’esprit clair, car il y a trop d’éléments à mobiliser, un peu comme ces personnes qui possèdent une mémoire tellement importante qu’ils finissent par oublier, car ils ne parviennent plus à distinguer l’important dans la masse d’informations.
Alors que les outils mobilisés paraissent des instruments de mémoire puisqu’ils font le choix de tout collecter pour y greffer des patterns, il faut au contraire retrouver le moyen de produire de l’oubli de façon consciente plutôt que de déléguer cette opération. Paradoxalement, les outils finissent par faire oublier le coupable de l’histoire, l’auteur lui-même des sélections et des choix, lequel finit par oublier qu’il tourne en rond dans le même univers informationnel par sa propre incapacité à en sortir alors qu’il finira par accuser le système lui-même. Le système produit des narrateurs qui en oublient leur propre histoire. Or, il s’agit de devenir des Don Isidro Parodi, du nom du héros des nouvelles de Borges et de Casarès (publié sous le pseudonyme de H. Bustos Domecq) qui parvient à démêler le vrai du faux et à trouver les éléments essentiels dans des histoires pleines de détails dont il est impossible de percevoir quels sont ceux qui font sens à la fin :
« Don Isidro Parodi, de l’intérieur d’une prison, sans cesse à l’écoute des récits et des rapports de personnages extravagants et fort peu dignes de foi, finit toujours par venir à bout de l’énigme et s’il y parvient, c’est parce qu’il a considéré comme pertinente une certaine donnée dont parlait le récit. Si bien qu’à la fin, le lecteur est tenté de se demander pourquoi il n’a pas aussi gagné la partie, étant donné qu’il avait en main les mêmes cartes qu’Isidro Parodi. La malice de Borges tient au fait que les détails qui s’accumulent dans le récit sont très nombreux, et tous également emphatisés (où tous racontés à un degré zéro de l’emphase) ; il n’y avait donc aucune raison pour que le lecteur dût mémoriser le détail A plutôt que le détail B. De fait, il n’y a aucune raison non plus pour que le détail A dût être relevé comme pertinent par Don Isidro. Don Isidro est un monstre, et plus encore que Funes, car non seulement il n’oublie rien, mais à l’intérieur du flux mémoriel qui l’obsède, il parvient à faire ressortir l’unique chose qui compte en vue de la solution. Le texte borgésien, en faisant le récit d’un personnage qui se rappelle tout, nous parle en effet méta-narrativement d’un lecteur qui ne se rappelle rien, et d’un texte qui fait tout pour le pousser à oublier. » (Eco ; idem, p. 137)
Alors qu’il est tentant de penser que nous sommes entrés dans des périodes dystopiques qui puisent dans les nouvelles et séries de science-fiction avec des entités artificielles qui pourraient nous dominer, il est plus raisonnable de penser que nous ne sommes pas vraiment sortis des univers à la Borges, ce qui oblige à plus de modestie et à la nécessité de trouver un équilibre dans des labyrinthes informationnels et documentaires dont nous ne parvenons jamais à pleinement saisir la signification.