L’industrie du livre au Québec repose sur près d’un million de titres francophones en circulation. Se pose alors la question de comment faciliter la recherche d’un livre pour un lecteur, ou lui faire découvrir un titre dont il ne connaît pas l’existence. En complément des usages traditionnels, l’intelligence artificielle (IA) serait un outil précieux pour optimiser la découvrabilité des livres. Zoom sur un projet dont l’application s’annonce prometteuse.
Actuellement, avant de commercialiser un livre, l’éditeur doit renseigner les catégories qui décrivent le mieux l’œuvre (par exemple : littérature québécoise, bande dessinée, roman historique…). Les catégories utilisées sont issues de référentiels internationaux, ce qui a le mérite de faciliter la classification des livres et ainsi la recherche.
Un projet a émis l’hypothèse qu’au moyen des outils du traitement automatique du langage naturel, il serait possible d’enrichir davantage les descriptions actuelles – (métadonnées) des livres et de leurs couvertures, améliorant par là même leur découvrabilité. La recherche de livre pourrait alors être plus précise et efficace.
Il s’agit du projet TAMIS, mis sur pied par Gilles Herman, directeur aux éditions du Septentrion ainsi que Christian Roy et Clément Laberge, associés chez A10s, firme technologique œuvrant au service de la culture.
Le principe? Analyser le texte intégral et les images de couverture de livres pour les classer de façon plus précise en utilisant le standard international du livre (BISAC) et en faire ressortir des mots clés. Mots clés qui reviendraient dans la chaîne du livre afin d’outiller les passeurs (libraires, bibliothèques, site web…) à mieux accompagner les lecteurs dans leur recherche.
Mais pas seulement, les mots clés pourraient aussi être reliés à la base de données de Wikidata. “Une façon de valoriser la culture québécoise” précise Christian Roy.
DÉVELOPPEMENT DU PROJET EN MODE RECHERCHE-ACTION
Le projet TAMIS est un projet en recherche-action qui a commencé il y a quelques années grâce à un financement du Conseil des Arts du Canada puis de la SODEC. La démarche d’un tel projet repose sur une partie recherche appliquée à la réalité du terrain donc ici le secteur du livre “Nous n’avions pas idée de la faisabilité concrète, uniquement des hypothèses. Le fait que ce soit un projet de recherche-action nous a permis d’appliquer de façon concrète notre théorie et les principes du web sémantique aux outils actuels et concrets de la chaîne du livre” témoigne Christian Roy.
Après avoir réalisé un benchmark des algorithmes open source disponibles par les fournisseurs comme Google, Microsoft, IBM.. Gilles Herman et Christian Roy lancent un appel à contribution auprès d’éditeurs québécois afin de constituer un corpus de textes qui soit suffisamment conséquent pour entraîner leurs algorithmes. 5000 textes sont mis à disposition en échange de l’accès à leur outil.
DES ALGORITHMES UTILISÉS POUR GÉNÉRER DES MOTS-CLÉS
La console du projet TAMIS permet plusieurs applications. La première est de décrire les couvertures. En passant la couverture du livre au tamis, l’IA permet d’analyser les pixels pour décrire les éléments qui s’y trouvent.
Ainsi un libraire pourrait orienter un lecteur cherchant un livre dont le titre lui échappe mais qui a un vague souvenir de ce qui se trouve sur la couverture. Christian Roy donne l’anecdote “d’un lecteur qui demande à un bibliothécaire de trouver un roman policier dont la couverture est rouge avec un scarabée. Actuellement c’est impossible mais l’outil TAMIS le permettra sûrement bientôt”.
La seconde application est de parcourir le texte. En passant le texte intégral au tamis, l’IA peut extraire des entités (mots-clés) mentionnées dans un texte (par exemple : le nom d’une ville, le lieu, l’époque, le nom des personnages) et les relier aux données de Wikidata. “C’est une vraie mine d’or pour faire du référencement et optimiser la promotion des livres” mentionne Gilles Herman, directeur de la maison d’édition Septentrion et à l’origine du projet.
C’est d’ailleurs l’idée du projet en cours développé en collaboration avec l’Institut Canadien de Québec. Le point de départ est de “faire vivre la littérature associée à la ville de Québec dans le web des données liées” explique Christian Roy. La plateforme Tamis permet de repérer parmi le corpus actuel : les livres publiés à Québec, ou dont l’action se déroule dans un lieu répertorié à Québec. “On les repère grâce à l’outil TAMIS et on enrichit les informations sur les livres dans Wikidata”.
“Ainsi un internaute qui part visiter Québec, pourrait rechercher et trouver facilement des livres dont l’histoire se déroule à Québec, à côté du château de Frontenac”. – Christian Roy, associé chez A10s
Cette application pourrait aussi être pertinente pour d’autres œuvres culturelles (les synopsis de films, les paroles de chanson…).
L’INTERVENTION HUMAINE NÉCESSAIRE EN BOUT DE LIGNE
Les mots-clés générés doivent être vérifiés par un humain avant de retourner dans la chaîne du livre : “l’IA est un outil d’aide mais le filtre humain est indispensable. Par exemple, si dans les mots-clés générés on risque de révéler l’intrigue du livre, on doit le retirer” précise Christian Roy.
Pour le moment les mots clés générés par les algorithmes sont envoyés à l’entrepôt des livres numériques De Marque mais des développements sont en cours pour pouvoir les transmettre à la banque de titres en langue française pour les livres imprimés (BTLF).
Une fois la preuve de concept réalisée, la commercialisation de l’outil sera possible.
Le processus du projet est documenté sur le site web du projet (accessible en cliquant sur ce lien) et les benchmarks des solutions sont mis en ligne sur Github, une plateforme qui permet aux développeurs de partager et stocker leur code.
Crédit Photo de mentatdgt provenant de Pexels