Ajout d’un modèle de présentation des web services ISTEX dans la galerie dédiée
29/04/2025

La galerie de modèles LODEX vient de s’étoffer d’un nouvel exemple réalisé par le service « Text & Data Mining » de l’Inist. Toutes les données nécessaires sont aussi disponibles sur GitHub.

Ce modèle est associé à un exemple de corpus issu d’ISTEX-SEARCH. Ce « dataset » constitué de 50 documents ne possède pas de thématique particulière, son objectif principal étant d’illustrer le fonctionnement et l’intérêt des différents web services développés par l’équipe ISTEX-TDM. Le modèle propose ainsi des exemples d’utilisation pour 6 précalculs et 80 enrichissements dont 26 correspondant directement à l’appel d’un script distant, les autres étant des scripts Lodash nécessaires pour des prétraitements (possibilité de les lancer en une seule fois depuis la sortie de la version 14.0.67 de LODEX). Les services de précalculs et d’enrichissement présentés dans le modèle et ci-dessous sont issus de 42 outils de fouille de texte accessibles en ligne depuis LODEX (guide d’utilisation).   

Comment utiliser Lodex avec les web-services TDM

Découvrir l’instance Lodex modèle pour les web services avec des données issues d’Istex…

Exploiter le modèle Lodex dédié aux web services de fouille de textes pour analyser et enrichir vos données

Rappel sur les différences entre les web services de précalculs et les enrichissements basés sur l’appel de scripts distants :

  • web services de précalcul : fonctionnement asynchrone, données calculées non stockées dans le « dataset » mais disponibles comme sources de valeurs lors de la création d’un graphique
  • web service d’enrichissement : calcul en temps réel et création systématique d’une nouvelle colonne pour le stockage des résultats

Exemples d’utilisation de 6 web services précalculs différents :

Parmi la liste des précalculs disponibles, des exemples d’utilisation sont fournis pour les suivants.

  • ldaClass-5 : extraction de 5 thématiques d’un corpus caractérisées par 10 mots-clés dont au moins un est attribué à chaque document
  • ldaClass-Graphe : officiellement nommé « ldaSegment » dans le catalogue, son objectif est identique au précalcul précédent mais renvoie les résultats dans un format adapté à la création de graphiques
  • noiseDetect : repérage des identifiants des documents considérés comme non pertinents vis-à-vis de la thématique du corpus
  • TermSuite : extraction par défaut des 500 termes les plus spécifiques rencontrés à l’échelle du corpus de documents
  • textClustering : partitionnement d’un corpus par regroupement des documents en fonction de leur similarité
  • topRefExtract : extraction des références les plus citées d’un corpus

Exemples d’utilisation de 26 web services d’enrichissement :

  • addressSplit : décomposition d’une adresse dans le but de détecter si le texte a été généré par intelligence atificielle ou non
  • astroTag : détecte des entités nommées en astronomie sur des textes anglais et les répartit entre 16 classes prédéfinies
  • authorDistinct : désambiguïsation d’auteurs via ORCID
  • bibCheck : contrôle une référence bibliographique en vérifiant sa présence dans CrossRef
  • chemTag : extraction d’entités nommées en chimie dans un texte anglais
  • cnrsDetect : détection d’un code unité du CNRS dans une affiliation-adresse et lui associe des informations
  • corpoDetect : renvoie, pour chaque affiliation du WOS ou de Scopus, l’information d’appartenance au secteur privé ou public
  • countryDetect : détecte le pays d’origine d’une affiliation-adresse, qu’il soit absent ou présent dans celle-ci
  • diseaseTag : extraction d’entités nommées de maladies sur des textes en anglais
  • doiEnrich : récupération des métadonnées d’un article scientifique dans une base documentaire donnée,( Onditor, HAL, Inspirehep, ISTEX, OpenAlex ou Unpaywall) à partir du DOI d’un document
  • engLemma : lemmatisation de termes anglais
  • entityTag : détecte dans les textes, différentes entités nommées (personne, localisation, organisme…) quand le corpus comporte des textes dans plusieurs langues
  • funderTag : détecte des financeurs dans un article en anglais
  • genderDetect : retourne le genre de l’auteur
  • geoTag : détecte des entités géographiques dans un texte en anglais et renvoie la liste des localisations trouvées dans ce texte
  • halClass : classe des documents en anglais selon les 13 grands domaines (en français) du plan de classement utilisé par la base HAL
  • idRorDetect : renvoie un identifiant ROR en interrogeant l’API
  • langDetect : détecte la langue d’un document
  • PascalFrancisClass : classe automatiquement des documents scientifiques en anglais selon le plan de classement « Pascal » (sciences, techniques et médecine) ou « Francis » (sciences humaines et sociales)
  • quantityExtract : extraction de quantités (ex : 5 kg, 6 weeks…) dans un texte en anglais
  • rnsrLearnDetect-v3 : attribution d’un ou plusieurs identifiant(s) RNSR à partir d’une adresse d’affiliation d’auteur en langue française (apprentissage)
  • rnsrRuleDetect : attribution à l’aide de règles d’un ou plusieurs identifiant(s) RNSR et des informations à partir d’une adresse d’affiliation d’auteur et d’une année de publication(alignements)
  • sciencemetrixClass : classe des documents en anglais selon les 3 niveaux de la classification Science-Metrix
  • speciesTag : détecte dans un texte les noms scientifiques d’espèces animales et végétales ( ainsi que les virus, bactéries, champignons…)
  • Teeft-eng : extraction des 5 ou 10 termes (à définir) les plus spécifiques d’un texte (disponible pour l’anglais et le français)
  • textNormalize : normalisation d’un texte, d’un terme ou plus généralement d’une chaîne de caractères

 

Yann pour l’équipe LODEX