Ajout d'un modèle de présentation des web services ISTEX dans la galerie dédiée

Ajout d’un modèle de présentation des web services ISTEX dans la galerie dédiée

29/04/2025

La galerie de modèles LODEX vient de s’étoffer d’un nouvel exemple réalisé par le service « Text & Data Mining » de l’Inist. Toutes les données nécessaires sont aussi disponibles sur GitHub.

Ce modèle est associé à un exemple de corpus issu d’ISTEX-SEARCH. Ce « dataset » constitué de 50 documents ne possède pas de thématique particulière, son objectif principal étant d’illustrer le fonctionnement et l’intérêt des différents web services développés par l’équipe ISTEX-TDM. Le modèle propose ainsi des exemples d’utilisation pour 6 précalculs et 80 enrichissements dont 26 correspondant directement à l’appel d’un script distant, les autres étant des scripts Lodash nécessaires pour des prétraitements (possibilité de les lancer en une seule fois depuis la sortie de la version 14.0.67 de LODEX). Les services de précalculs et d’enrichissement présentés dans le modèle et ci-dessous sont issus de 42 outils de fouille de texte accessibles en ligne depuis LODEX (guide d’utilisation).

Comment utiliser Lodex avec les web-services TDM

Découvrir l’instance Lodex modèle pour les web services avec des données issues d’Istex…

Exploiter le modèle Lodex dédié aux web services de fouille de textes pour analyser et enrichir vos données

Rappel sur les différences entre les web services de précalculs et les enrichissements basés sur l’appel de scripts distants :

web services de précalcul : fonctionnement asynchrone, données calculées non stockées dans le « dataset » mais disponibles comme sources de valeurs lors de la création d’un graphique
web service d’enrichissement : calcul en temps réel et création systématique d’une nouvelle colonne pour le stockage des résultats

Exemples d’utilisation de 6 web services précalculs différents :

Parmi la liste des précalculs disponibles, des exemples d’utilisation sont fournis pour les suivants.

ldaClass-5 : extraction de 5 thématiques d’un corpus caractérisées par 10 mots-clés dont au moins un est attribué à chaque document
ldaClass-Graphe : officiellement nommé « ldaSegment » dans le catalogue, son objectif est identique au précalcul précédent mais renvoie les résultats dans un format adapté à la création de graphiques
noiseDetect : repérage des identifiants des documents considérés comme non pertinents vis-à-vis de la thématique du corpus
TermSuite : extraction par défaut des 500 termes les plus spécifiques rencontrés à l’échelle du corpus de documents
textClustering : partitionnement d’un corpus par regroupement des documents en fonction de leur similarité
topRefExtract : extraction des références les plus citées d’un corpus

Exemples d’utilisation de 26 web services d’enrichissement :

addressSplit : décomposition d’une adresse dans le but de détecter si le texte a été généré par intelligence atificielle ou non
astroTag : détecte des entités nommées en astronomie sur des textes anglais et les répartit entre 16 classes prédéfinies
authorDistinct : désambiguïsation d’auteurs via ORCID
bibCheck : contrôle une référence bibliographique en vérifiant sa présence dans CrossRef
chemTag : extraction d’entités nommées en chimie dans un texte anglais
cnrsDetect : détection d’un code unité du CNRS dans une affiliation-adresse et lui associe des informations
corpoDetect : renvoie, pour chaque affiliation du WOS ou de Scopus, l’information d’appartenance au secteur privé ou public
countryDetect : détecte le pays d’origine d’une affiliation-adresse, qu’il soit absent ou présent dans celle-ci
diseaseTag : extraction d’entités nommées de maladies sur des textes en anglais
doiEnrich : récupération des métadonnées d’un article scientifique dans une base documentaire donnée,( Onditor, HAL, Inspirehep, ISTEX, OpenAlex ou Unpaywall) à partir du DOI d’un document
engLemma : lemmatisation de termes anglais
entityTag : détecte dans les textes, différentes entités nommées (personne, localisation, organisme…) quand le corpus comporte des textes dans plusieurs langues
funderTag : détecte des financeurs dans un article en anglais
genderDetect : retourne le genre de l’auteur
geoTag : détecte des entités géographiques dans un texte en anglais et renvoie la liste des localisations trouvées dans ce texte
halClass : classe des documents en anglais selon les 13 grands domaines (en français) du plan de classement utilisé par la base HAL
idRorDetect : renvoie un identifiant ROR en interrogeant l’API
langDetect : détecte la langue d’un document
PascalFrancisClass : classe automatiquement des documents scientifiques en anglais selon le plan de classement « Pascal » (sciences, techniques et médecine) ou « Francis » (sciences humaines et sociales)
quantityExtract : extraction de quantités (ex : 5 kg, 6 weeks…) dans un texte en anglais
rnsrLearnDetect-v3 : attribution d’un ou plusieurs identifiant(s) RNSR à partir d’une adresse d’affiliation d’auteur en langue française (apprentissage)
rnsrRuleDetect : attribution à l’aide de règles d’un ou plusieurs identifiant(s) RNSR et des informations à partir d’une adresse d’affiliation d’auteur et d’une année de publication(alignements)
sciencemetrixClass : classe des documents en anglais selon les 3 niveaux de la classification Science-Metrix
speciesTag : détecte dans un texte les noms scientifiques d’espèces animales et végétales ( ainsi que les virus, bactéries, champignons…)
Teeft-eng : extraction des 5 ou 10 termes (à définir) les plus spécifiques d’un texte (disponible pour l’anglais et le français)
textNormalize : normalisation d’un texte, d’un terme ou plus généralement d’une chaîne de caractères

Yann pour l’équipe LODEX

Retour à la page Actualités