Poser une question…
K
Links

Les différents types de moissonneurs

Les différents moissonneurs

Aujourd’hui, data.gouv.fr peut moissonner les plateformes ou formats suivants :
  • DCAT (GeoNetwork, OpenDataSoft, etc.)
  • CKAN
  • DKAN, une variante du moissonneur CKAN
DCAT
CKAN
OpenDataSoft (déprécié)

DCAT

DCAT est un vocabulaire RDF pour décrire des jeux de données. La Commission européenne a publié son extension de DCAT, appelée DCAT-AP.

Spécificités techniques

Ce moissonneur attend l’URL d’un catalogue DCAT (dcat:Catalog).
Plusieurs formats sont supportés et découvrables à travers la négociation de contenu :
  • RDF XML
  • JSON-LD
  • Turtle
  • N3
  • NT
  • Trig
La pagination est supportée via l’ontologie Hydra (ainsi que l’ancienne version).

Correspondance des champs du modèle

Jeu de données

La notion équivalente au jeu de données sur data.gouv.fr (Dataset) est un noeud de type dcat:Dataset en RDF.
Text
DATA.GOUV.FR
RDF
NOTES
Titre
title
dct:title
Acronyme
acronym
skos:altLabel
Description
description
dct:description + dct:abstract
Éventuellement HTML transformé en Markdown. dct:description est à privilégier
Mots-clés
tags
dcat:keyword + dcat:theme
Les RdfResource ne sont pas supportées pour le champ dcat:theme. dcat:keyword est à privilégier
Licence
license
dct:license et dct:right depuis dcat:distributions
Couverture spatiale
spatial
Couverture temporelle
temporal_coverage
dct:temporal
Séparé par / dans le cas de dates de début et de fin, ex: 2011-01-01/2011-12-31
Fréquence de mise à jour
frequency
dct:accrualPeriodicity
Dublin Core Frequency ou un équivalent au plus proche des Fréquences Européennes
Autres métadonnées
Certaines propriétés additionnelles sont conservées dans l’attribut harvest par soucis de traçabilité. Les informations de date sont sauvegardées dans ces métadonnées.
Text
DATA.GOUV.FR HARVEST
RDF
NOTES
Identifiant distant
remote_id
dct:identifier
Conservé aussi sous dct:identifier
URI
uri
ID du noeud
URIRef
URL de consultation
remote_url
dcat:landingPage ou l’identifier RDF s’il s’agit d’une URI
Date de création
created_at
dct.issued
Date de modification
modified_at
dct.modified

Ressource

La notion équivalente à la ressource sur data.gouv.fr (Resource) est un noeud de type dcat:Distribution en RDF.
Text
DATA.GOUV.FR
RDF
NOTES
Titre
title
dct:title
Propriété facultative, un nom est généré sinon
Description
description
dct:description
Éventuellement HTML transformé en Markdown
URL
url
dcat:downloadURL et dcat:accessURL
Priorité à dcat:downloadURL
Taille
filesize
dcat:byteSize
Type MIME
mime
dcat:mediaType
Format
format
dct:format
Somme de contrôle
checksum
spdx:checksum (spdx:algorithm + spdx:checksumValue)
Autres métadonnées
Certaines propriétés sont conservées dans l’attribut harvest par souci de traçabilité :
Text
DATA.GOUV.FR RESOURCE HARVEST
RDF
NOTES
Identifiant distant
dct:identifier
dct:identifier
URI
uri
dct:identifier
Si dct:identifier est un URIRef
Date de création
created_at
dct.issued
Date de modification
modified_at
dct.modified

Logiciels supportés

La plupart des logiciels exposant du DCAT (v3 à date) devraient être compatibles a minima avec le moissonneur DCAT de data.gouv.fr. Ci-dessous quelques exemples de logiciels supportés.

GeoNetwork

Si vous avez une instance de Geonetwork, vous pouvez publier sur data.gouv.fr.

GeoNetwork v2 ou v3

En version 2 ou 3, il existe un endpoint DCAT alternatif au endpoint CSW habituellement utilisé comme documenté sur la doc Geonetwork officielle.

GeoNetwork v4

GeoNetwork v4 est maintenant supporté au moissonnage via CSW avec l'export DCAT ! Il faut alors choisir le moissonneur de type csw-dcat et configurer l'URL pour pointer vers l'endpoint csw, ex : https://geosas.fr/geonetwork/srv/fre/csw.
Une requête POST est alors effectuée par le moissonneur avec la requête suivant :
<csw:GetRecords xmlns:csw="http://www.opengis.net/cat/csw/2.0.2"
xmlns:gmd="http://www.isotc211.org/2005/gmd"
service="CSW" version="2.0.2" resultType="results"
startPosition="1" maxPosition="200"
outputSchema="http://www.w3.org/ns/dcat#">
<csw:Query typeNames="gmd:MD_Metadata">
<csw:ElementSetName>full</csw:ElementSetName>
<ogc:SortBy xmlns:ogc="http://www.opengis.net/ogc">
<ogc:SortProperty>
<ogc:PropertyName>identifier</ogc:PropertyName>
<ogc:SortOrder>ASC</ogc:SortOrder>
</ogc:SortProperty>
</ogc:SortBy>
</csw:Query>
</csw:GetRecords>
Attention, si des entrées du catalogue cible ne sont pas convertibles en DCAT, il faut mettre en place un sous-portail dédié en filtrant par exemple sur les entrées de type documentStandard pour n'exposer que les entrées compatibles.

OpenDataSoft

Opendatasoft est un service en PaaS permettant de mettre en œuvre ce qu’on appelle un datastore et le portail de données associé.
Le moissonneur utilise l'export au format DCAT de chaque portail OpenDataSoft pour récupérer les métadonnées.
Spécifications techniques : Ce moissonneur attend l’URL publique d'export DCAT de votre portail Opendatasoft. Ce sera par exemple https://data.ma-compagnie.com/api/explore/v2.1/catalog/exports/dcat/. Il est possible (et souvent nécessaire) de renseigner dans l'URL les filtres des jeux de données cibles à moissonner (afin par exemple de moissonner les jeux de données du producteur X avec le mot clé Y). Vous trouverez plus d'information sur la mise en place d'un moissonneur DCAT pour un portail OpenDataSoft sur la documentation dédiée d'OpenDataSoft.
Attention: OpenDataSoft utilise le slug (la portion identifiant le jeu de données dans les URLs) comme identifiant technique. L’outil laisse la possibilité de changer ce slug ce qui pose un vrai problème de pérennité des identifiants. Ayez donc à l’esprit que ce changement d’identifiant créera des doublons au moissonnage.

Isogeo

Les portails Isogeo exposent du DCAT et sont donc moissonnables par data.gouv.fr.
Cette documentation officielle explique en détail la mise en place d’un moissonneur DCAT pour un portail Isogeo.

Namespaces utilisés

Par souci de lisibilité, les namespaces suivants sont déclarés :
  • dcathttp://www.w3.org/ns/dcat#
  • dcthttp://purl.org/dc/terms/
  • foafhttp://xmlns.com/foaf/0.1/
  • hydrahttp://www.w3.org/ns/hydra/core#
  • rdfshttp://www.w3.org/2000/01/rdf-schema#
  • scvhttp://purl.org/NET/scovo#
  • skoshttp://www.w3.org/2004/02/skos/core#
  • vcardhttp://www.w3.org/2006/vcard/ns#
  • xsdhttp://www.w3.org/2001/XMLSchema#
  • freqhttp://purl.org/cld/freq/

Contribuer

Ce moissonneur fait partie du coeur de udata, son code est disponible sur github. Vous pouvez donc soumettre des améliorations ou signaler des anomalies.

CKAN

CKAN est un logiciel libre permettant de mettre en oeuvre des portails de données.
Le moissonneur utilise l’API de CKAN pour récupérer les métadonnées.

Spécifications techniques

Ce moissonneur attend l’URL racine de l’instance CKAN et non du portail (dans le cas où CKAN est couplé à Drupal par exemple).
Comme le moissonneur utilise l’API de CKAN, il nécessite que celle-ci soit accessible.
Ce moissonneur n’est pas compatible avec les changements de modèles qui peuvent être effectués par certains plugins. Les champs d’un jeu de données doivent rester les mêmes, et le format de leur contenu aussi.
Les champs additionnels du modèle sont ignorés.

Correspondance des champs du modèle

Jeu de données

La notion équivalente au jeu de données sur data.gouv.fr (Dataset) est le Package dans CKAN.
Text
DATA.GOUV.FR
CKAN
NOTES
Slug
slug
name
Création uniquement, si disponible
Titre
title
title
Acronyme
acronym
Description
description
notes
Mots-clés
tags
tags.name
Date de création
created_at
metadata_created
Date de mise à jour
last_modified
metadata_modified
Licence
license
license_id et license_title
deviné
Couverture spatiale
spatial
extras.spatial et extras.spatial-test
deviné
Couverture temporelle
temporal_coverage
extras.temporal_start et extras.temporal_end
Fréquence de mise à jour
frequency
extras.frequency
Autres métadonnées
Certaines propriétés additionnelles sont conservées dans l’attribut harvest par soucis de traçabilité. Les informations de date sont sauvegardées dans ces métadonnées.
Text
DATA.GOUV.FR HARVEST
CKAN
NOTES
Identifiant distant
remote_id
id
Slug
ckan_name
name
Car slug peut déjà être pris
URL de consultation
remote_url
url
Conservé dans ckan:source si URL invalide
Tous les attributs extras de CKAN qui ne font pas l’objet d’un traitement particulier sont aussi conservés dans l’attribut extras.

Ressource

La notion équivalente à la ressource sur data.gouv.fr (Resource) est aussi la Resource dans CKAN.
Text
DATA.GOUV.FR
CKAN
NOTES
Identifiant
id
id
Un UUID valide
Titre
title
name
Description
description
description
URL
url
url
Type
filetype
resource_type
api ou remote
Type MIME
mime
mimetype
Format
format
format
Date de création
harvest.created_at
created
Date de mise à jour
harvest.modified_at
last_modified

Filtrage

La filtrage donne la possibilité d’inclure ou d’exclure un sous-ensemble de jeux de données du moissonnage.
Lorsqu’un ou plusieurs filtres sont déclarés, seuls les jeux de données remplissant toutes les conditions (ET) seront traités.

Portail multiproducteur : restriction à une organisation

Exemple de restriction à une seule organisation

Exclusion de mots-clés

Exemple d'exclusion de mots-clés

Combinaisons multiples

Exemple de combinaison de filtres

Contribuer

Le moissonneur CKAN est publié sur github dans le plugin udata-ckan. Vous pouvez donc soumettre des améliorations ou signaler des anomalies.

OpenDataSoft

Attention : Le moissonnage des plateformes OpenDataSoft se fait maintenant via DCAT. Retrouvez plus d'infos dans la section dédié OpenDataSoft des Logiciels supportés via DCAT.
Opendatasoft est un service en PaaS permettant de mettre en œuvre ce qu’on appelle un datastore et le portail de données associé.
Le moissonneur utilise l’API de chaque portail OpenDataSoft pour récupérer les métadonnées.

Spécifications techniques

Ce moissonneur attend l’URL racine de votre portail Opendatasoft. C’est bien l’URL publique (https://data.ma-compagnie.com) qui est attendue, et non l’URL noire Opendatasoft (https://ma-compagnie.opendatasoft.com).
Attention: Opendatasoft utilise le slug (la portion identifiant le jeu de données dans les URLs) comme identifiant technique. L’outil laisse la possibilité de changer ce slug ce qui pose un vrai problème de pérénité des identifiants. Ayez donc à l’esprit que ce changement d’identifiant créera des doublons au moissonnage.

Inspire

Il est possible de filtrer les jeu de données identifiés comme venant d’Inspire par Opendatasoft (propriété interop_metas.inspire). Pour cela il suffit de cocher ou non l’option Inspire du moissonneur. Cela permettra d’éviter des doublons pour les jeux de données déjà moissonnés par ailleurs. Il n’y a pas de règle universelle à son usage, c’est du cas par cas et il est de votre responsabilité de vérifier si ces jeux de données sont déjà pris en charge par une autre source de moissonnage.

Correspondance des champs du modèle

Jeu de données

Text
DATA.GOUV.FR
OPENDATASOFT
NOTES
Title
title
title
Acronyme
acronym
Description
description
description
HTML converti en Markdown
Mots-clés
tags
keywords + themes
Licence
license
license
champ libre: deviné sinon LOv2
Couverture spatiale
spatial
Couverture temporelle
temporal_coverage
Fréquence de mise à jour
frequency
Autres métadonnées
Certaines propriétés additionnelles sont conservées dans l’attribut harvest par soucis de traçabilité. Les informations de date sont sauvegardées dans ces métadonnées.
Text
DATA.GOUV.FR HARVEST
OPENDATASOFT
NOTES
Identifiant distant
harvest:remote_id
datasetid
⚠ Attention au changement
URL de consultation
ods_url
site/explore/dataset/datasetid/
Référence interne
ods_reference
reference
Présence de données
ods_has_records
has_records
Données spatiales
ods_geo
features.geo
Date de modification
modified_at
metas.modified

Ressources

Il existe 3 types de ressources identifiés chez Opendatasoft :
  • l’API de données qui donnera lieu à plusieurs ressource sur data.gouv.fr :
    • un export au format CSV
    • un export au format JSON
    • un export au format GeoJSON dans le cas de données spatiales
    • un export au format Shapefile dans le cas de données spatiales
  • les pièces jointes (attachments dans l’API Opendatasoft) qui seront chacune reconnue comme une ressource
  • les exports alternatifs (alternative_exports dans l’API Opendatasoft) qui seront chacun reconnu comme une ressource

Filtrage

La filtrage donne la possibilité d’inclure ou d’exclure un sous-ensemble de jeux de données du moissonnage.
Lorsqu’un ou plusieurs filtres sont déclarés, seuls les jeux de données remplissant toutes les conditions (ET) seront traités.

Portail multiproducteur : restriction à une organisation

Exemple de restriction à une seule organisation

Exclusion de mots-clés

Exemple d'exclusion de mots-clés

Combinaisons multiples

Exemple de combinaison de filtres

Contribuer

Le moissonneur Opendatasoft est publié sur github dans le plugin udata-ods. Vous pouvez donc soumettre des améliorations ou signaler des anomalies.

Métadonnées communes

Les jeux de données moissonnés possèdent les attributs suivants dans leur champ extras pour la traçabilité :
ATTRIBUT
CONTENU
harvest:domain
Nom de domaine moissonné
harvest:source_id
Identifiant technique du moissonneur
harvest:remote_id
Identifiant distant du jeu de données
harvest:last_update
Date du dernier moissonnage

Détection des licences par le moissonnage

Lors du moissonnage, la liste de référence de data.gouv.fr, disponible ici au format json, est utilisée pour détecter la licence du jeu de données distant.
Cette détection utilise les attributs suivants :
  • id
  • title
  • alternate_titles
  • url
  • alternate_urls
Le meilleur moyen d’assurer une compatibilité parfaite est d’utiliser l’id sur le flux distant lorsque c’est possible.