Documentation du loader « TXT – requête OpenAlex pour modèle Lodex
Cette documentation décrit les transformations appliquées par le loader aux données issues d’OpenAlex lors de leur import dans LODEX.
Ce loader est associé au modèle OpenAlex du Catalogue LODEX, développé par l’INIST-CNRS.
Lors de leur import dans LODEX, les données issues d’OpenAlex sont structurées en colonnes (onglet Données).
Certaines de ces colonnes sont ensuite utilisées pour produire des champs dans l’interface, utilisés pour créer des indicateurs, des facettes ou des graphiques.
Seules les données modifiées ou enrichies sont présentées ici.
Les autres données fournies par OpenAlex sont conservées telles quelles dans LODEX, mais ne sont pas nécessairement exploitées pour produire des indicateurs ou des graphiques.
Pour une description complète des données d’origine, consultez la documentation officielle d’OpenAlex.
Identifiant unique
« uri »
Identifiant unique du document dans LODEX.
Construit à partir de l’identifiant OpenAlex (ex. : https://openalex.org/W2741809807 → uid:/W2741809807).
Permet notamment de dédoublonner les documents.
DOI
« doi »
OpenAlex fournit le DOI sous forme d’URL (ex. : https://doi.org/10.1000/xyz123).
Le loader conserve uniquement le DOI en minuscules (ex. : 10.1000/xyz123).
Titre
« title » (champ « Titre »)
Nettoyage du texte : suppression des entités HTML, des balises et des espaces inutiles.
Année de publication
« publication_year » (champ « Année de publication »)
Convertie en texte pour être utilisée dans les graphiques LODEX.
Langue
« language » (champ « Langue de publication »)
Conversion du code ISO (ex. : « en », « fr ») en libellé français (« Anglais », « Français »).
Valeur par défaut : « n/a ».
Accès ouvert
« open_access.is_oa » (champ « Accès ouvert »)
Booléen converti en « Oui », « Non » ou « Inconnu » si éventuellement le champ n’est pas renseigné.
« open_access.oa_status » (champ « Voie d’accès »)
Statut de l’accès ouvert (« gold », « green », etc.) avec majuscule initiale (« Gold », « Green », etc.).
Indicateurs divers
Champs qui renvoient des booléens, convertis en « Oui », « Non » ou « Inconnu » si éventuellement le champ n’est pas renseigné :
- « has_fulltext » : texte intégral disponible
- « is_retracted » : document rétracté
- « is_paratext » : document de type paratexte
- « is_xpac » : document issu de XPAC
Objectifs de développement durable
« sustainable_development_goals » (champ » Sustainable Development Goals »)
Formaté en texte lisible (ex. : « Goal 3 : Good Health and Well-being »).
Valeur par défaut : « No sustainable development goal ».
Institutions
« authorsInstitutionsTree » (champ « Auteurs et leurs institutions »)
Associe chaque auteur à ses institutions (sans doublons) sous forme de liste à puces à 2 niveaux. Une puce par auteur, autant de sous-puces qu’il a d’affiliations.
Valeur « n/a » si aucune institution.
« uniqFlattenInstitutions » (champ » Institution »)
Liste dédoublonnée de toutes les institutions du document.
Présence dans HAL
« is_hal »
Indique si une URL du document pointe vers HAL (« Oui » / « Non »).
« indexed_in_hal_enriched » (champ « Indexé dans »)
Depuis « is_hal » ajoute « hal » à la liste « indexed-in ».
Liste triée et sans doublons.
Sources
« source » (champ « Source originale (OpenAlex) »)
Nom de la source principale (primary_location) tel que fourni par OpenAlex, sans transformation.
« nonRepositorySource » (champ « Source retravaillée »)
Retourne le nom de la source principale uniquement si :
- la source n’est pas un dépôt (repository)
- et la version correspond à celle publiée par l’éditeur
Sinon : « n/a ».
Permet d’identifier la source éditoriale officielle, en excluant les dépôts (HAL, archives, etc.).
Éditeurs
« topLevelPublisher » (champ « Groupe éditorial »)
Remonte à l’organisation mère la plus élevée associée à la source principale (ex. : Nature Portofolio devient à Springer Nature car elle en est une filiale).
Valeur « n/a » si aucune organisation n’est trouvée.
« nonRepositoryTopLevelPublisher » (champ « Groupe éditorial retravaillé »)
Même principe, mais uniquement si la source principale n’est pas un dépôt.
Si »nonRepositorySource »= « n/a », alors ce champ vaut aussi « n/a ».
Permet d’identifier le groupe éditorial de référence, uniquement pour les sources éditeurs.
Pays
« codes_iso2 » (champ « Pays codes ISO2 »)
Liste dédoublonnée des codes pays (2 lettres uniquement).
« countries » (champ « Pays »)
Conversion en noms de pays en français à partir de « codes_iso2 ».
Collaboration internationale
« collaborationCountries » (champ « Pays pour réseau de collaborations »)
Liste des pays s’il y en a au moins deux sont différents.
« hasInternationalCollaboration » (champ « Collaboration internationale »)
« Oui » si au moins deux pays différents sont présents, sinon « Non ».
Résumé
« abstract » (champ « Résumé »)
OpenAlex fournit les résumés sous forme d’index inversé (chaque mot est associé à ses positions dans le texte).
Le loader :
- reconstitue le texte en remettant les mots dans l’ordre
- nettoie le résultat (HTML, balises, espaces)
Le champ d’origine est ensuite supprimé.
Résultat : un résumé continu, lisible et exploitable.
Gestion
« importedDate » (champ « date »)
Date d’import dans LODEX.
« query » (champ « Document récupéré par la requête »)
Requête utilisée pour récupérer les données.