Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Le moissonnage n’a aucune connaissance de l’usage que vous faites du modèle de données. Il s’appuie uniquement sur les spécifications de chaque protocole ou plateforme pour récupérer les informations. Il y a donc certaines limitations techniques liées aux spécificités de chaque plateforme. Certaines limitations sont communes et détaillées ci-dessous.
Certains champs du modèle de data.gouv.fr possèdent un équivalent qui peut être sous spécifié dans certains protocoles ou sur certaines plateformes, ou bien alors être spécifié différemment, sur plusieurs champs. Dans ce cas, la valeur du champ est récupérée en “best effort’, c’est-à-dire qu’elle va être devinée en fonction des éléments à disposition. Se référer à la page de chaque moissonneur pour savoir lesquels sont dans ce cas pour chaque implémentation.
Lors d'une suppression à la source (un ou plusieurs jeux de données qui ne sont plus présents sur la plateforme moissonnée), data.gouv.fr conserve les jeux de données sur sa plateforme. Le but est d'éviter les suppressions en masse par erreur, ce qui entraînerait une perte des statistiques, des discussions et des ressources communautaires de chaque jeu de données.
Au bout d'une période de 7 jours, ils sont marqués comme archivés. L'archivage des jeux de données implique qu'ils ne soient plus indexés ou visibles dans les statistiques des producteurs, mais bien accessibles par lien direct pour les utilisateurs qui souhaiteraient continuer à y accéder.
Dans le cas d’une suppression ponctuelle, nous vous invitons à supprimer manuellement le jeu de données moissonné qui a perdu sa source.
Dans le cas d’une suppression massive de jeu de données, veuillez nous contacter afin de trouver une solution satisfaisante.
Les moissonneurs utilisent les identifiants de jeu de données distants pour retrouver leurs données entre deux moissonnages. Il est donc important de veiller à ce qu’un jeu de données conserve son identifiant au fil du temps et des modification successives. Dans le cas contraire, cela donnera lieu à la création d’un doublon.
Il faut donc aussi veiller à ne pas supprimer puis recréer un jeu de données ou une ressource pour faire sa mise à jour.
geo.data.gouv.fr n’est plus activement maintenu. Plus d’informations à propos de l’extinction de geo.data.gouv.fr sont disponibles ici.
En plus du moissonnage et de l’utilisation de l’API, il existait un autre moyen automatisé de récupération des métadonnées sur data.gouv.fr : geo.data.gouv.fr, anciennement inspire.data.gouv.fr. Ce site pivot permettait de récupérer les métadonnées de jeux de données exposées selon la directive européenne Inspire (obligation légale de publication des metadonnées geographiques selon le modèle de données ISO 19115, au format de données ISO 19139).
Du fait de l’extinction de la plateforme geo.data.gouv.fr, vous pouvez au choix :
attendre que le Geocatalogue publie directement des flux DCAT depuis vos flux Inspire ;
si vous utilisez Geonetwork, utilisez son endpoint DCAT alternatif ;
utiliser le moissonnage DCAT avec un grand nombre de logiciels compatibles ou avec un flux à façon ;
enfin, nous supportons également le moissonnage des plateformes CKAN et OpenDataSoft.
Le principe du moissonnage sur data.gouv.fr se décompose en plusieurs étapes :
Vous créez un moissonneur sur data.gouv.fr afin que data.gouv.fr suive l’activité de votre plateforme ;
Vous publiez des données sur votre plateforme open data ;
Vous demandez la validation de votre moissonneur sur le support data.gouv.fr ;
La configuration du moissonneur est validée par l’équipe en charge de data.gouv.fr ;
Le moissonneur de data.gouv.fr vient automatiquement récupérer les données de votre plateforme ;
Les données de votre plateforme sont référencées et visibles sur data.gouv.fr.
Si vous souhaitez tester la mise en place d'un moissonneur et observer le résultat du moissonnage avant une mise en production sur data.gouv.fr, vous pouvez le créer sur la plateforme de démo https://demo.data.gouv.fr/ pour effectuer vos tests dans un premier temps. L'ensemble des étapes sont les mêmes que celles décrites sur cette page.
La création d’un moissonneur sur data.gouv.fr nécessite la création d’un compte gratuit.
Pour créer un nouveau moissonneur :
Rendez-vous sur votre tableau de bord, en cliquant sur Administration en haut à droite de votre écran ;
Cliquez sur l’icône en forme de plus (+
) qui se trouve à gauche de votre avatar ;
Cliquez sur Un moissonneur.
À partir de là, la création du moissonneur se déroule en 3 étapes.
Une fois moissonnées, c’est-à-dire récupérées sur votre plateforme, vos données sont publiées sur data.gouv.fr. L’étape 1 vous permet de choisir le compte qui sera associé à la publication sur data.gouv.fr des données moissonnées sur votre site.
Il peut s’agir de :
votre propre compte, pour une publication à titre individuel, sous votre propre nom ;
le compte d’une organisation dont vous êtes membre, pour une publication à titre collectif.
Si vous êtes membre d’une organisation, nous vous conseillons de publier vos jeux de données en son nom. Une fois votre choix effectué, cliquez sur le bouton Suivant pour accéder à l’étape 2.
L’étape 2 vous permet de configurer votre moissonneur. Cette étape est importante pour que les données récupérées par data.gouv.fr soient aussi complètes que celles publiées sur votre plateforme à l’origine.
Donnez un nom à votre moissonneur. Il s’agit d’une référence interne, qui vous permet de vous y retrouver si vous créez plusieurs moissonneurs. Le nom de votre moissonneur ne sera pas public.
Mauvais nom : Moissonneur de mon portail
Bon nom : Plateforme open data Grand Lyon
Le nom du moissonneur est obligatoire.
Vous pouvez ajouter des précisions sur votre moissonneur dans le champ description. Là encore, il s’agit d’une référence interne qui n’a de valeur que pour vous.
La description est facultative.
Saisissez ici l’URL du portail à moissonner. Il s’agit généralement de l’URL de la page d’accueil de votre portail d’open data. L’URL permet au moissonneur de parcourir et récupérer tous vos jeux de données.
Mauvaise source : data.angers.fr
Bonne source : https://data.angers.fr
L’URL est obligatoire.
Choisissez ici le format des métadonnées associées aux jeux de données publiés sur votre plateforme. Ce format permet au moissonneur de savoir comment lire et interpréter vos métadonnées, pour bien les retranscrire sur data.gouv.fr.
Certaines implémentations permettent d’ajouter des filtres, dans le but d’inclure ou d’exclure certains jeux de données du moissonnage. Consultez la section dédiée à votre implémentation dans la documentation de moissonnage.
Le type d’implémentation est obligatoire.
Cochez la case pour que votre moissonneur se mette au travail dès qu’il aura été validé par l’équipe en charge de data.gouv.fr. Laissez-la décochée pour activer votre moissonneur à la main.
Ce champ est obligatoire.
Une fois tous les champs obligatoires remplis, cliquez sur le bouton Suivant pour terminer la création de votre moissonneur.
Une fois votre moissonneur configuré, demandez validation de votre moissonneur sur le support data.gouv.fr. Il va être examiné par l’équipe en charge de data.gouv.fr, pour vérifier qu’il est bien réglé. Si c’est le cas, le moissonneur sera validé et vous recevrez une notification.
De votre côté, vous pouvez vérifier que votre moissonneur moissonne correctement votre site. Pour ce faire :
Cliquez sur le bouton Voir dans l’administration une fois votre moissonneur créé ;
Cliquez sur le bouton Prévisualiser ;
Vérifiez que le moissonneur récupère bien des jeux de données.
Tant que votre moissonneur n’est pas validé, il ne référence aucun jeu de données sur data.gouv.fr.
Qu'est-ce que le moissonnage sur data.gouv.fr ? Le moissonnage est un mécanisme permettant de collecter les métadonnées sur un catalogue distant et de les stocker sur une autre plateforme afin de proposer un second point d’accès aux données.
Le service de moissonnage mis à votre disposition permet de référencer sur data.gouv.fr les jeux de données publiés sur d’autres catalogues de données en ligne. De cette manière, vous n’avez pas besoin d’importer à la main sur data.gouv.fr les jeux de données que vous avez déjà importés sur votre propre plateforme.
Si vous mettez en ligne des données publiques sur une plateforme ouverte, dans un format dont les métadonnées correspondent à la syntaxe ODS, CKAN, ou DCAT vous pouvez les référencer automatiquement sur data.gouv.fr en utilisant notre service de moissonnage. Voir la différence entre API et moissonnage.
Dans cette section, vous apprendrez comment publier un catalogue de données existant par moissonnage.
Chaque moissonnage donne lieu à un rapport accessible depuis l’interface d’administration de data.gouv.fr. Il vous permet de comprendre ce qu’il se passe et, le cas échéant, de corriger les erreurs existantes et de vérifier le filtrage.
1 correspond à l’erreur technique formulée de façon compréhensible pour un humain
2 contient la “stacktrace” de l’erreur qui servira à ceux qui développent des moissonneurs ou contribuent aux existants.
Comprendre les limites du moissonnage
Les différents types de moissonneurs
Mettre en place un moissonneur
Analyser le rapport de moissonnage
Aujourd’hui, data.gouv.fr peut moissonner les plateformes ou formats suivants :
DCAT
CKAN
DKAN, une variante du moissonneur CKAN
OpenDataSoft (ODS)
DCAT est un vocabulaire RDF pour décrire des jeux de données. La Commission européenne a publié son extension de DCAT, appelée DCAT-AP.
Ce moissonneur attend l’URL d’un catalogue DCAT (dcat:Catalog
).
Plusieurs formats sont supportés et découvrables à travers la négociation de contenu :
RDF XML
JSON-LD
Turtle
N3
NT
Trig
La pagination est supportée via l’ontologie Hydra (ainsi que l’ancienne version).
Jeu de données
La notion équivalente au jeu de données sur data.gouv.fr (Dataset
) est un noeud de type dcat:Dataset
en RDF.
DATA.GOUV.FR | RDF | NOTES | |
---|---|---|---|
Autres métadonnées
Certaines propriétés additionnelles sont conservées dans l’attribut harvest
par soucis de traçabilité. Les informations de date sont sauvegardées dans ces métadonnées.
Ressource
La notion équivalente à la ressource sur data.gouv.fr (Resource
) est un noeud de type dcat:Distribution
en RDF.
Autres métadonnées
Certaines propriétés sont conservées dans l’attribut harvest
par souci de traçabilité :
La plupart des logiciels exposant du DCAT (v3 à date) devraient être compatibles a minima avec le moissonneur DCAT de data.gouv.fr. Ci-dessous quelques exemples de logiciels supportés.
Geonetwork
Si vous avez une instance de Geonetwork, vous pouvez publier sur data.gouv.fr.
En effet, il existe un endpoint DCAT alternatif au endpoint CSW habituellement utilisé comme documenté sur la doc Geonetwork officielle.
Ainsi https://geosas.fr/geonetwork/srv/fre/csw deviendra https://geosas.fr/geonetwork/srv/fre/rdf.search par exemple.
GeoNetwork v4 n’est pas encore supporté au moissonnage. Voir ces discussions.
Par souci de lisibilité, les namespaces suivants sont déclarés :
dcat
⇨ http://www.w3.org/ns/dcat#
dct
⇨ http://purl.org/dc/terms/
foaf
⇨ http://xmlns.com/foaf/0.1/
hydra
⇨ http://www.w3.org/ns/hydra/core#
rdfs
⇨ http://www.w3.org/2000/01/rdf-schema#
scv
⇨ http://purl.org/NET/scovo#
skos
⇨ http://www.w3.org/2004/02/skos/core#
vcard
⇨ http://www.w3.org/2006/vcard/ns#
xsd
⇨ http://www.w3.org/2001/XMLSchema#
freq
⇨ http://purl.org/cld/freq/
Ce moissonneur fait partie du coeur de udata
, son code est disponible sur github. Vous pouvez donc soumettre des améliorations ou signaler des anomalies.
CKAN est un logiciel libre permettant de mettre en oeuvre des portails de données.
Le moissonneur utilise l’API de CKAN pour récupérer les métadonnées.
Ce moissonneur attend l’URL racine de l’instance CKAN et non du portail (dans le cas où CKAN est couplé à Drupal par exemple).
Comme le moissonneur utilise l’API de CKAN, il nécessite que celle-ci soit accessible.
Ce moissonneur n’est pas compatible avec les changements de modèles qui peuvent être effectués par certains plugins. Les champs d’un jeu de données doivent rester les mêmes, et le format de leur contenu aussi.
Les champs additionnels du modèle sont ignorés.
Jeu de données
La notion équivalente au jeu de données sur data.gouv.fr (Dataset
) est le Package
dans CKAN.
Autres métadonnées
Certaines propriétés additionnelles sont conservées dans l’attribut harvest
par soucis de traçabilité. Les informations de date sont sauvegardées dans ces métadonnées.
Tous les attributs extras
de CKAN qui ne font pas l’objet d’un traitement particulier sont aussi conservés dans l’attribut extras
.
Ressource
La notion équivalente à la ressource sur data.gouv.fr (Resource
) est aussi la Resource
dans CKAN.
La filtrage donne la possibilité d’inclure ou d’exclure un sous-ensemble de jeux de données du moissonnage.
Lorsqu’un ou plusieurs filtres sont déclarés, seuls les jeux de données remplissant toutes les conditions (ET) seront traités.
Le moissonneur CKAN est publié sur github dans le plugin udata-ckan
. Vous pouvez donc soumettre des améliorations ou signaler des anomalies.
Opendatasoft est un service en PaaS permettant de mettre en œuvre ce qu’on appelle un datastore et le portail de données associé.
Le moissonneur utilise l’API de chaque portail OpenDataSoft pour récupérer les métadonnées.
Ce moissonneur attend l’URL racine de votre portail Opendatasoft. C’est bien l’URL publique (https://data.ma-compagnie.com
) qui est attendue, et non l’URL noire Opendatasoft (https://ma-compagnie.opendatasoft.com
).
Attention: Opendatasoft utilise le slug (la portion identifiant le jeu de données dans les URLs) comme identifiant technique. L’outil laisse la possibilité de changer ce slug ce qui pose un vrai problème de pérénité des identifiants. Ayez donc à l’esprit que ce changement d’identifiant créera des doublons au moissonnage.
Inspire
Il est possible de filtrer les jeu de données identifiés comme venant d’Inspire par Opendatasoft (propriété interop_metas.inspire
). Pour cela il suffit de cocher ou non l’option Inspire du moissonneur. Cela permettra d’éviter des doublons pour les jeux de données déjà moissonnés par ailleurs. Il n’y a pas de règle universelle à son usage, c’est du cas par cas et il est de votre responsabilité de vérifier si ces jeux de données sont déjà pris en charge par une autre source de moissonnage.
Jeu de données
Autres métadonnées
Certaines propriétés additionnelles sont conservées dans l’attribut harvest
par soucis de traçabilité. Les informations de date sont sauvegardées dans ces métadonnées.
Ressources
Il existe 3 types de ressources identifiés chez Opendatasoft :
l’API de données qui donnera lieu à plusieurs ressource sur data.gouv.fr :
un export au format CSV
un export au format JSON
un export au format GeoJSON
dans le cas de données spatiales
un export au format Shapefile
dans le cas de données spatiales
les pièces jointes (attachments
dans l’API Opendatasoft) qui seront chacune reconnue comme une ressource
les exports alternatifs (alternative_exports
dans l’API Opendatasoft) qui seront chacun reconnu comme une ressource
La filtrage donne la possibilité d’inclure ou d’exclure un sous-ensemble de jeux de données du moissonnage.
Lorsqu’un ou plusieurs filtres sont déclarés, seuls les jeux de données remplissant toutes les conditions (ET) seront traités.
Le moissonneur Opendatasoft est publié sur github dans le plugin udata-ods
. Vous pouvez donc soumettre des améliorations ou signaler des anomalies.
Les jeux de données moissonnés possèdent les attributs suivants dans leur champ extras
pour la traçabilité :
Lors du moissonnage, la liste de référence de data.gouv.fr, disponible ici au format json, est utilisée pour détecter la licence du jeu de données distant.
Cette détection utilise les attributs suivants :
id
title
alternate_titles
url
alternate_urls
Le meilleur moyen d’assurer une compatibilité parfaite est d’utiliser l’id
sur le flux distant lorsque c’est possible.
DATA.GOUV.FR HARVEST | RDF | NOTES | |
---|---|---|---|
DATA.GOUV.FR | RDF | NOTES | |
---|---|---|---|
DATA.GOUV.FR RESOURCE HARVEST | RDF | NOTES | |
---|---|---|---|
DATA.GOUV.FR | CKAN | NOTES | |
---|---|---|---|
DATA.GOUV.FR HARVEST | CKAN | NOTES | |
---|---|---|---|
DATA.GOUV.FR | CKAN | NOTES | |
---|---|---|---|
DATA.GOUV.FR | OPENDATASOFT | NOTES | |
---|---|---|---|
DATA.GOUV.FR HARVEST | OPENDATASOFT | NOTES | |
---|---|---|---|
ATTRIBUT | CONTENU |
---|---|
Titre
title
dct:title
Acronyme
acronym
skos:altLabel
Description
description
dct:description
+ dct:abstract
Éventuellement HTML transformé en Markdown. dct:description
est à privilégier
Mots-clés
tags
dcat:keyword
+ dcat:theme
Les RdfResource
ne sont pas supportées pour le champ dcat:theme
. dcat:keyword
est à privilégier
Licence
license
dct:license
et dct:right
depuis dcat:distributions
Couverture spatiale
spatial
❌
Couverture temporelle
temporal_coverage
dct:temporal
Séparé par /
dans le cas de dates de début et de fin, ex: 2011-01-01/2011-12-31
Fréquence de mise à jour
frequency
dct:accrualPeriodicity
Dublin Core Frequency ou un équivalent au plus proche des Fréquences Européennes
Identifiant distant
remote_id
dct:identifier
Conservé aussi sous dct:identifier
URI
uri
ID du noeud
URIRef
URL de consultation
remote_url
dcat:landingPage
ou l’identifier RDF s’il s’agit d’une URI
Date de création
created_at
dct.issued
Date de modification
modified_at
dct.modified
Titre
title
dct:title
Propriété facultative, un nom est généré sinon
Description
description
dct:description
Éventuellement HTML transformé en Markdown
URL
url
dcat:downloadURL
et dcat:accessURL
Priorité à dcat:downloadURL
Taille
filesize
dcat:byteSize
Type MIME
mime
dcat:mediaType
Format
format
dct:format
Somme de contrôle
checksum
spdx:checksum
(spdx:algorithm
+ spdx:checksumValue
)
Identifiant distant
dct:identifier
dct:identifier
URI
uri
dct:identifier
Si dct:identifier
est un URIRef
Date de création
created_at
dct.issued
Date de modification
modified_at
dct.modified
Slug
slug
name
Création uniquement, si disponible
Titre
title
title
Acronyme
acronym
❌
Description
description
notes
Mots-clés
tags
tags.name
Date de création
created_at
metadata_created
Date de mise à jour
last_modified
metadata_modified
Licence
license
license_id
et license_title
deviné
Couverture spatiale
spatial
extras.spatial
et extras.spatial-test
deviné
Couverture temporelle
temporal_coverage
extras.temporal_start
et extras.temporal_end
Fréquence de mise à jour
frequency
extras.frequency
Identifiant distant
remote_id
id
Slug
ckan_name
name
Car slug
peut déjà être pris
URL de consultation
remote_url
url
Conservé dans ckan:source
si URL invalide
Identifiant
id
id
Un UUID valide
Titre
title
name
Description
description
description
URL
url
url
Type
filetype
resource_type
api
ou remote
Type MIME
mime
mimetype
Format
format
format
Date de création
harvest.created_at
created
Date de mise à jour
harvest.modified_at
last_modified
Title
title
title
Acronyme
acronym
❌
Description
description
description
HTML converti en Markdown
Mots-clés
tags
keywords
+ themes
Licence
license
license
champ libre: deviné sinon LOv2
Couverture spatiale
spatial
❌
Couverture temporelle
temporal_coverage
❌
Fréquence de mise à jour
frequency
❌
Identifiant distant
harvest:remote_id
datasetid
⚠ Attention au changement
URL de consultation
ods_url
site
/explore/dataset/datasetid
/
Référence interne
ods_reference
reference
Présence de données
ods_has_records
has_records
Données spatiales
ods_geo
features.geo
Date de modification
modified_at
metas.modified
harvest:domain
Nom de domaine moissonné
harvest:source_id
Identifiant technique du moissonneur
harvest:remote_id
Identifiant distant du jeu de données
harvest:last_update
Date du dernier moissonnage