Les différents types de moissonneurs
Dernière mise à jour
Dernière mise à jour
Aujourd’hui, data.gouv.fr peut moissonner les plateformes ou formats suivants :
DCAT (GeoNetwork, OpenDataSoft, etc.)
CKAN
DKAN, une variante du moissonneur CKAN
DCAT est un vocabulaire RDF pour décrire des jeux de données. La Commission européenne a publié son extension de DCAT, appelée DCAT-AP.
Ce moissonneur attend l’URL d’un catalogue DCAT (dcat:Catalog
).
Plusieurs formats sont supportés et découvrables à travers la négociation de contenu :
RDF XML
JSON-LD
Turtle
N3
NT
Trig
La pagination est supportée via l’ontologie Hydra (ainsi que l’ancienne version).
Jeu de données
La notion équivalente au jeu de données sur data.gouv.fr (Dataset
) est un noeud de type dcat:Dataset
en RDF.
DATA.GOUV.FR | RDF | NOTES | |
---|---|---|---|
Autres métadonnées
Certaines propriétés additionnelles sont conservées dans l’attribut harvest
par soucis de traçabilité. Les informations de date sont sauvegardées dans ces métadonnées.
Ressource
La notion équivalente à la ressource sur data.gouv.fr (Resource
) est un noeud de type dcat:Distribution
en RDF.
Autres métadonnées
Certaines propriétés sont conservées dans l’attribut harvest
par souci de traçabilité :
La plupart des logiciels exposant du DCAT (v3 à date) devraient être compatibles a minima avec le moissonneur DCAT de data.gouv.fr. Ci-dessous quelques exemples de logiciels supportés.
GeoNetwork
Si vous avez une instance de Geonetwork, vous pouvez publier sur data.gouv.fr.
Une documentation détaillée est précisée sur la page du moissonnage des données géographiques.
OpenDataSoft
Opendatasoft est un service en PaaS permettant de mettre en œuvre ce qu’on appelle un datastore et le portail de données associé.
Le moissonneur utilise l'export au format DCAT de chaque portail OpenDataSoft pour récupérer les métadonnées.
Spécifications techniques : Ce moissonneur attend l’URL publique d'export DCAT de votre portail Opendatasoft. Ce sera par exemple https://data.ma-compagnie.com/api/explore/v2.1/catalog/exports/dcat/
. Il est possible (et souvent nécessaire) de renseigner dans l'URL les filtres des jeux de données cibles à moissonner (afin par exemple de moissonner les jeux de données du producteur X avec le mot clé Y). Vous trouverez plus d'information sur la mise en place d'un moissonneur DCAT pour un portail OpenDataSoft sur la documentation dédiée d'OpenDataSoft.
Attention: OpenDataSoft utilise le slug (la portion identifiant le jeu de données dans les URLs) comme identifiant technique. L’outil laisse la possibilité de changer ce slug ce qui pose un vrai problème de pérennité des identifiants. Ayez donc à l’esprit que ce changement d’identifiant créera des doublons au moissonnage.
Isogeo
Les portails Isogeo exposent du DCAT et sont donc moissonnables par data.gouv.fr.
Cette documentation officielle explique en détail la mise en place d’un moissonneur DCAT pour un portail Isogeo.
Par souci de lisibilité, les namespaces suivants sont déclarés :
dcat
⇨ http://www.w3.org/ns/dcat#
dct
⇨ http://purl.org/dc/terms/
foaf
⇨ http://xmlns.com/foaf/0.1/
hydra
⇨ http://www.w3.org/ns/hydra/core#
rdfs
⇨ http://www.w3.org/2000/01/rdf-schema#
scv
⇨ http://purl.org/NET/scovo#
skos
⇨ http://www.w3.org/2004/02/skos/core#
vcard
⇨ http://www.w3.org/2006/vcard/ns#
xsd
⇨ http://www.w3.org/2001/XMLSchema#
freq
⇨ http://purl.org/cld/freq/
Ce moissonneur fait partie du coeur de udata
, son code est disponible sur github. Vous pouvez donc soumettre des améliorations ou signaler des anomalies.
Les jeux de données moissonnés possèdent les attributs suivants dans leur champ extras
pour la traçabilité :
Lors du moissonnage, la liste de référence de data.gouv.fr, disponible ici au format json, est utilisée pour détecter la licence du jeu de données distant.
Cette détection utilise les attributs suivants :
id
title
alternate_titles
url
alternate_urls
Le meilleur moyen d’assurer une compatibilité parfaite est d’utiliser l’id
sur le flux distant lorsque c’est possible.
DATA.GOUV.FR HARVEST | RDF | NOTES | |
---|---|---|---|
DATA.GOUV.FR | RDF | NOTES | |
---|---|---|---|
DATA.GOUV.FR RESOURCE HARVEST | RDF | NOTES | |
---|---|---|---|
DATA.GOUV.FR | CKAN | NOTES | |
---|---|---|---|
DATA.GOUV.FR HARVEST | CKAN | NOTES | |
---|---|---|---|
DATA.GOUV.FR | CKAN | NOTES | |
---|---|---|---|
ATTRIBUT | CONTENU |
---|---|
Titre
title
dct:title
Acronyme
acronym
skos:altLabel
Description
description
dct:description
+ dct:abstract
Éventuellement HTML transformé en Markdown. dct:description
est à privilégier
Mots-clés
tags
dcat:keyword
+ dcat:theme
Les RdfResource
ne sont pas supportées pour le champ dcat:theme
. dcat:keyword
est à privilégier
Licence
license
dct:license
et dct:right
depuis dcat:distributions
Couverture spatiale
spatial
DCT.spatial
Uniquement les couverture géométriques sont supportées pour l'instant. Soit un Polygon en tant que littéral WKT (exemple), soit un GeoJSON directement (datatype application/vnd.geo+json
).
Couverture temporelle
temporal_coverage
dct:temporal
Séparé par /
dans le cas de dates de début et de fin, ex: 2011-01-01/2011-12-31
Fréquence de mise à jour
frequency
dct:accrualPeriodicity
Dublin Core Frequency ou un équivalent au plus proche des Fréquences Européennes
Identifiant distant
remote_id
dct:identifier
Conservé aussi sous dct:identifier
URI
uri
ID du noeud
URIRef
URL de consultation
remote_url
dcat:landingPage
ou l’identifier RDF s’il s’agit d’une URI
Date de création
created_at
dct.issued
Date de modification
modified_at
dct.modified
Titre
title
dct:title
Propriété facultative, un nom est généré sinon
Description
description
dct:description
Éventuellement HTML transformé en Markdown
URL
url
dcat:downloadURL
et dcat:accessURL
Priorité à dcat:downloadURL
Taille
filesize
dcat:byteSize
Type MIME
mime
dcat:mediaType
Format
format
dct:format
Somme de contrôle
checksum
spdx:checksum
(spdx:algorithm
+ spdx:checksumValue
)
Identifiant distant
dct:identifier
dct:identifier
URI
uri
dct:identifier
Si dct:identifier
est un URIRef
Date de création
created_at
dct.issued
Date de modification
modified_at
dct.modified
Slug
slug
name
Création uniquement, si disponible
Titre
title
title
Acronyme
acronym
❌
Description
description
notes
Mots-clés
tags
tags.name
Date de création
created_at
metadata_created
Date de mise à jour
last_modified
metadata_modified
Licence
license
license_id
et license_title
deviné
Couverture spatiale