Qu’est-ce que LODEX et quelle est la signification de son acronyme ?
Historiquement, la création de LODEX coïncide avec une expérimentation de l’Inist-CNRS visant à publier des données du fonds ISTEX selon les normes du web sémantique. L’objectif initial était de mettre à disposition un outil intuitif permettant de valoriser un jeu de données structurées via le web de données ou « Linked Open Data » (« données ouvertes liées »), cette notion renvoyant au concept duquel LODEX tire son acronyme : « Linked Open Data EXperiment ».
Le logiciel s’est ensuite développé en se confrontant à différents usages tels que la mise en ligne de base de données et référentiels de données, la création de rapports analytiques/bibliométriques et l’exploration de corpus documentaires entre autres. Aujourd’hui, LODEX est bien plus qu’un outil de visualisation de données mais une véritable plateforme intégrant de multiples possibilités : exposition des données structurées sur le web à partir de formats variés (CSV, TSV, JSON, BIBTEX, XML…), publication de rapports web dynamiques grâce à de nombreuses visualisations disponibles (diagrammes à barres, graphiques sectoriels, cartes de chaleur, graphiques hiérarchiques…), transformation et enrichissement des données (connexion à des API tierces, curation de données), filtrage dynamique et multicritères des données proposant différents angles d’analyse et aussi la possibilité d’appliquer des traitements de TDM (« Text and Data Mining ») notamment pour l’extraction et la classification automatiques de termes spécifiques.
Quelle est la meilleure manière de citer LODEX dans mon travail ?
En citant la plateforme en tant que produit open source développé par l’INIST (Institut de l’information Scientifique et technique, unité d’appui à la recherche du CNRS), en faisant référence au site web www.lodex.fr ou encore en citant un article de conférence écrit à l’occasion de l’atelier web des données de la 19e conférence sur l’Extraction et la Gestion des Connaissances (EGC) tenu en Janvier 2019 à Metz en France (disponible dans la base de données HAL-CNRS sous la référence hal-01990444v1) :
Stéphanie Gregorio, Alain Collignon, François Parmentier, Nicolas Thouvenin. LODEX : des données structurées au web sémantique. Atelier Web des Données de la 19ème Conférence sur l’Extraction et la Gestion des Connaissances (EGC 2019), Jan 2019, Metz, France. ⟨hal-01990444⟩
@inproceedings{gregorio:hal-01990444,
TITLE = {{LODEX : des donn{\’e}es structur{\’e}es au web s{\’e}mantique}},
AUTHOR = {Gregorio, St{\’e}phanie and Collignon, Alain and Parmentier, Fran{\c c}ois and Thouvenin, Nicolas},
URL = {https://hal.science/hal-01990444},
BOOKTITLE = {{Atelier Web des Donn{\’e}es de la 19{\`e}me Conf{\’e}rence sur l’Extraction et la Gestion des Connaissances (EGC 2019)}},
ADDRESS = {Metz, France},
YEAR = {2019},
MONTH = Jan,
PDF = {https://hal.science/hal-01990444v1/file/EGC_2019.pdf},
HAL_ID = {hal-01990444},
HAL_VERSION = {v1},
}
Puis-je créer, modifier et présenter des travaux dérivés à partir de LODEX en exploitant l’ensemble ou une partie de ses fonctionnalités et/ou de son contenu dans mes travaux ?
Oui, LODEX est une plateforme open source et est régie par la licence CECILL (acronyme de CEA CNRS INRIA Logiciel Libre) qui est compatible avec la licence GNU GPL. Vous pouvez vous référer à cette licence pour plus d’informations au sujet du cadre juridique qui lui est associé : http://www.cecill.info/licences.fr.html.
Puis-je utiliser des captures d’écran de LODEX et les présenter dans le cadre de mes travaux ?
Oui, vous pouvez utiliser des captures d’écran de la plateforme, de la documentation (incluant les tutoriels et les ressources pédagogiques) et tout autre contenu ayant été préalablement publiquement diffusé. Cependant, veillez à ce que ces captures soient fidèles au contenu original, vous pouvez néanmoins y ajouter des annotations (marqueurs, étiquettes, commentaires). Quelques autres contraintes d’usage sont aussi à noter : ne pas impliquer l’INIST-CNRS au niveau du contenu des travaux mais uniquement pour le développement et la mise à disposition de la plateforme, prendre garde à ne pas dévoiler des données personnelles, des informations confidentielles ou du contenu issu d’une tierce partie.
Y a-t-il une limite au niveau de la quantité de données que LODEX peut gérer ?
Si les données sont chargées à partir d’un fichier (en local ou via un accès distant), la taille de ce dernier ne doit pas excéder 1 Go. Sinon, au niveau du nombre de lignes et de colonnes ainsi que du contenu des cellules, il n’y a pas de limite clairement définie, mais à titre d’exemple, il est tout à fait possible de charger des corpus documentaires contenant plus de 500 000 notices comportant une cinquantaine de champs avec des cellules contenant de grands volumes d’information (« abstracts », données au format JSON, etc.). En cas de problème, il est possible de charger les données en les fractionnant. Il est aussi à noter que dans le cas d’un hébergement de vos instances à l’INIST (pour les ayants-droits ISTEX), l’espace de stockage initial qui vous est alloué est d’environ 30 Go pour l’ensemble du fonctionnement (conteneur, modèles, données, stockage annexe) et peut être modulé en fonction de vos besoins.
LODEX est-il compatible avec tous les navigateurs Internet ?
À priori oui, mais comme nous rencontrons parfois quelques difficultés avec certains navigateurs. Par exemple, nous rencontrons actuellement des difficultés pour charger des jeux de données volumineux avec « Firefox Browser v130.0.1 ». Ceci étant, en attendant la résolution de ce problème temporaire, il est tout à fait possible de « jongler » avec des navigateurs différents en fonction des opérations à effectuer (par exemple : chargement des données avec « Brave », navigateur open source gratuit basé sur « Chromium », puis élaboration du modèle et /ou création de l’instance avec le même navigateur ou avec un autre).
Peut-on travailler avec plusieurs jeux de données dans une même instance ?
LODEX n’a pas été initialement conçu pour cela, une instance correspondant à un seul jeu de données (« datasets »). Ceci étant, la possibilité de pouvoir ajouter des données structurées différemment (par exemple : ajouter des données des données comportant des colonnes supplémentaires par rapport au premier « dataset » chargé) permet l’accès à la construction d’un tableau de tableaux. La figure ci-dessous présente ce que l’on peut obtenir en ajoutant successivement 3 jeux de données présentant des noms de colonnes différents. Dans le cas de « datasets » ou de corpus documentaires avec un nombre modéré de colonnes, la comparaison et/ou l’application de traitements différents à ces 3 sous-ensembles peut ainsi se faire sans contraintes particulières hormis l’adoption d’une convention de nommage des colonnes adaptée.
Est-il possible d’utiliser plusieurs couples de login – mot de passe pour se connecter à une instance pour par exemple donner un caractère privé à certaines informations ?
Actuellement non car cela impliquerait un développement technique supplémentaire avec une administration des utilisateurs potentiellement au détriment de la création de nouvelles fonctionnalités liées aux usages de Lodex : une instance (c’est-à-dire un site LODEX) est donc associée à deux couples login – mot de passe (un accès utilisateur et un accès administrateur), mais peut aussi être configurée pour être utilisée sans authentification (pas de login/mdp à rentrer). Nous préférons axer le développement de la plateforme au niveau de ses fonctionnalités et de son ergonomie. Cependant, il est possible de créer autant d’instances qu’il y a d’utilisateurs dans un même conteneur (à partir de la version 14, la gestion des instances s’effectue à partir d’une instance « maître » faisant office de conteneur d’instances) permettant ainsi de décliner un même site LODEX avec des contenus différents en fonction du niveau de confidentialité des données et résultats présentés.
Je viens de débuter avec LODEX, comment dois-je m’y prendre pour créer un nouveau projet (nouvelle instance) ?
Après s’être authentifié en tant qu’administrateur à partir de la page https://xxxx.lodex.fr/instances/login, on arrive à la page de « Configuration des instances » (https://xxxx.lodex.fr/instances/admin) où une instance par défaut est déjà présente. Pour en créer une nouvelle, il suffit cliquer sur « ADD » ou « AJOUTER », puis de lui attribuer un nom technique (composé uniquement de minuscules, chiffres et tiret « – »), une description et un auteur. Puis en cliquant en bas à droite sur l’icône « More » ou « Plus », puis sur l’icône « Admin », on arrive dans l’espace de travail qui propose par défaut en premier de charger des données dans l’instance. Trois possibilités sont offertes : glisser/déposer le fichier à charger dans le cadre dédié ou cliquer sur le nuage fléché pour sélectionner un fichier en parcourant l’arborescence des répertoires de fichiers, entrer une URL pour importer un fichier distant ou encore utiliser le 3e onglet pour effectuer une requête sur des bases de données auxquelles Lodex peut directement se connecter via leurs APIs respectives (Hal Cnrs, Conditor, ISTEX et OpenAlex). Avant de charger les données en cliquant sur le bouton « UPLOAD DATA » ou « IMPORT DONNÉES », il convient de s’assurer que le « loader » choisi correspond bien au format du fichier à charger ou au type de requête effectuée.
J’ai à ma disposition une instance avec des données chargées, comment dois-je procéder pour créer ma première visualisation ?
Pour créer un graphique, il faut appliquer une routine de calcul à une ressource principale puis définir son format d’affichage. À titre d’exemple, voici la marche à suivre pour construire un diagramme en barres (« bar-chart ») représentant la répartition des documents publiés par années dans le cas d’un corpus documentaire (jeu de données constitué de notices bibliographiques) :
- Aller dans l’onglet « DISPLAY » ou « AFFICHAGE »
- Créer une ressource principale « Années » : cliquer sur « Main resource » ou « Ressource principale » dans le menu de gauche puis cliquer sur « NEW FIELD » ou « NOUVEAU CHAMP ».
- Compléter les champs proposés pour attribuer une icône, un titre (par exemple « Années ») et un nom interne à la ressource (non obligatoire).
- Sélectionner une source pour les valeurs à traiter (« EXISTING COLUMN(S) » ou « COLONNE(S) EXISTANTE(S) » dans le cas présent) puis entrer le nom de la colonne du « dataset » correspondant aux années de publication dans le champ sous-jacent.
- Des opérations de transformation « transformers » sont disponibles pour mettre en forme l’affichage des données si le format ne convient pas de prime abord.
- Sauvegarder la ressource créée, puis sélectionner « Graphs » ou « Graphiques » dans le menu de gauche et cliquer sur « NEW FIELD » ou « NOUVEAU CHAMP ».
- Comme précédemment pour la création de la ressource, compléter les champs pour attribuer une icône, un titre et un nom interne au graphique dans l’onglet « GENERAL ».
- Choisir une routine appropriée à la visualisation que vous souhaitez construire (par exemple « distinct-by » ou « distinct-by-field » et l’appliquer à la ressource (« Années ») : cette routine va compter les documents du corpus pour chaque année de publication rencontrée dans la ressource « Années ».
- Aller dans l’onglet « DISPLAY » ou « AFFICHAGE », choisir de rendre le graphique visible et lui appliquer un format (i.e. « Graph – Bar Chart »). Un sous-menu « Data Parameters » permet de choisir le nombre d’années à afficher, de les filtrer en définissant des valeurs maximales et minimales et fournit aussi un panel d’options pour les trier. Il est en dessous possible de choisir les couleurs du graphique, d’afficher un « tool-tip » ou « info-bulle », l’échelle (linéaire/logarithmique), la largeur des barres ainsi que le rapport d’aspect pour l’affichage du graphique. Il est aussi possible d’aller encore plus loin dans la « customisation » du graphique et passant en « mode avancé » pour accéder à une console de script capable d’interpréter la syntaxe « Vega-lite » (cf. A Grammar of Interactive Graphics). Quelques exemples de graphiques réalisés avec cette “grammaire” sont disponibles dans la section “Pour aller plus loin…”.
- Sauvegarder le graphique, publier les données, afficher l’instance en cliquant sur l’œil, cliquer sur l’icône dédiée aux graphiques en bas à droite, et vous pouvez maintenant accéder à votre première visualisation réalisée avec Lodex.
Je viens de déclarer une nouvelle facette dans le menu 'Recherche et facettes' de l'onglet 'AFFICHAGE' dans la partie 'Admin' mais je n'ai aucun élément visible pour ce filtre lorsque je consulte les données publiées. Comment y remédier ?
Ce problème peut arriver à certains moments pour des raisons liées à la (non-)mise en cache de certaines informations par le navigateur utilisé. Dans ce cas pour afficher les éléments de la facette, il convient de se rendre sur la ressource concernée pour la resauvegarder. Si cela ne suffit pas pour rendre le filtre fonctionnel, il peut être nécessaire de vider la mémoire cache du navigateur voire parfois de dépublier et republier les données de l’instance. Il est aussi à noter que ces manipulations sont nécessaires pour la l’affichage et la mise à jour d’un graphique de type “arbre hiérarchique”.
J'ai à ma disposition une machine de production pour administrer mes instances Lodex avec l'interface 'EzMaster' et je constate assez souvent que l'utilisation de la mémoire vive ('RAM usage') est au maximum (98%) avec des ralentissements dans le chargement de mes instances. Est-il possible d'y remédier ?
Le dimensionnement de l’architecture technique d’une machine de production dédiée à LODEX est essentiellement fixé par le volume de données à traiter, l’intensité du trafic généré (affluence de visites sur les instances) ainsi que par le choix de certains graphiques/routines. Les calculs générés peuvent être plus ou moins coûteux en terme de sollicitation des CPUs et en particulier de la RAM. À la création d’une VM (machine virtuelle), la configuration initiale des serveurs Linux pour le fonctionnement de LODEX est au minimum de 4 CPUs (correspondant aux 4 middlewares sous-jacents : la base données Mongo, 1 serveur web, 1 serveur dédié aux traitements ainsi qu’1 autre dédié aux tâches de fond) associés à 32Go de RAM et un disque dur de 64 Go. En cas de problème et/ou d’une utilisation plus intensive, cette configuration peut être doublée.
Comment puis-je modifier le thème d’affichage de mon instance en appliquant des typographies et couleurs différentes pour le titre et les intitulés des graphiques et ressources ?
LODEX propose par défaut plusieurs chartes graphiques (thèmes). Certains sont à accès restreint (dédiés à l’INIST ou aux productions ISTEX) et les autres destinés à un usage public ou personnel : « System », « Nougat », « Void » (couleur pourpre) et « Voscouleurs ». Ce dernier est un thème facilement personnalisable grâce à un script de configuration permettant d’ajouter une bannière customisable (logo, image titre), de définir les couleurs des différents éléments du rapport web dynamique ainsi que les polices de caractères.
Comment fonctionne le moteur de recherche interne de LODEX ?
À partir de l’onglet « Search » ou « Recherche », il est possible de sélectionner une ou plusieurs publications en entrant des mots-clés dans le champ de saisie libre situé en haut de la page. Il est important de noter que l’opérateur booléen par défaut est « OU ». Ainsi, si climate change est saisi, le moteur de recherche recherchera [climate OU change], soit les articles comportant climate avec ceux comportant change. Si seules les notices comportant le terme composé « climate change » intéressent, il faut utiliser des guillemets comme suit : “climate change”. En mettant des guillemets à chaque terme : “climate” “change”, on obtient les documents contenant ces deux termes qu’ils soient consécutifs ou non dans les champs de recherche impliqués. Ces derniers sont au préalable à déclarer dans la partie « Search & Facets » (« Recherche et Facettes ») à partir du menu de gauche de l’onglet « DISPLAY » ou « AFFICHAGE » en les renseignant dans le champ de saisie nommé « Search inputs » ou « Entrées de recherche » (positionné en haut de la page).
Je souhaite créer une instance LODEX visualisable en ligne : comment dois-je procéder ?
Vous pouvez utiliser notre formulaire de contact en ligne pour exprimer votre demande (prise d’informations, besoin d’une présentation de la plateforme, mise en place d’un hébergement…) et nous vous répondrons dans les plus brefs délais. Celui-ci est disponible via un bouton orange « Démarrez avec nous » en haut à gauche de la page d’accueil du site www.lodex.fr et via le lien suivant : https://www.lodex.fr/contact/.
En dehors de la documentation, existe-t-il une communauté d'utilisateurs ou un système de support en ligne ?
Oui, LODEX est un logiciel open source disponible sur GitHub et une communauté d’utilisateurs et d’échanges autour de la plateforme est en cours de construction : une liste de diffusion a été créée dans ce but : lodex@groupes.renater.fr. Outre la diffusion d’informations à propos des mises à jour et autres nouveautés, cette adresse permet également de poser des questions (des utilisateurs aguerris de l’Inist y sont déjà inscrits), de partager des astuces et de faire des retours d’expérience dans le cadre d’un processus d’amélioration continue. Pour vous y inscrire, suivez le lien suivant : https://groupes.renater.fr/sympa/info/lodex. À bientôt sur lodex@groupes.renater.fr !