Les différents types de moissonneurs

Les différents moissonneurs

Aujourd’hui, data.gouv.fr peut moissonner les plateformes ou formats suivants :

  • DCAT (GeoNetwork, OpenDataSoft, etc.)

  • CKAN

  • DKAN, une variante du moissonneur CKAN

DCAT

DCAT est un vocabulaire RDF pour décrire des jeux de données. La Commission européenne a publié son extension de DCAT, appelée DCAT-AP.

Spécificités techniques

Ce moissonneur attend l’URL d’un catalogue DCAT (dcat:Catalog).

Plusieurs formats sont supportés et découvrables à travers la négociation de contenu :

  • RDF XML

  • JSON-LD

  • Turtle

  • N3

  • NT

  • Trig

La pagination est supportée via l’ontologie Hydra (ainsi que l’ancienne version).

Correspondance des champs du modèle

Jeu de données

La notion équivalente au jeu de données sur data.gouv.fr (Dataset) est un noeud de type dcat:Dataset en RDF.

DATA.GOUV.FRRDFNOTES

Titre

title

dct:title

Acronyme

acronym

skos:altLabel

Description

description

dct:description + dct:abstract

Éventuellement HTML transformé en Markdown. dct:description est à privilégier

Mots-clés

tags

dcat:keyword + dcat:theme

Les RdfResource ne sont pas supportées pour le champ dcat:theme. dcat:keyword est à privilégier

Licence

license

dct:license et dct:right depuis dcat:distributions

Couverture spatiale

spatial

DCT.spatial

Uniquement les couverture géométriques sont supportées pour l'instant. Soit un Polygon en tant que littéral WKT (exemple), soit un GeoJSON directement (datatype application/vnd.geo+json).

Couverture temporelle

temporal_coverage

dct:temporal

Séparé par / dans le cas de dates de début et de fin, ex: 2011-01-01/2011-12-31

Fréquence de mise à jour

frequency

dct:accrualPeriodicity

Dublin Core Frequency ou un équivalent au plus proche des Fréquences Européennes

Autres métadonnées

Certaines propriétés additionnelles sont conservées dans l’attribut harvest par soucis de traçabilité. Les informations de date sont sauvegardées dans ces métadonnées.

DATA.GOUV.FR HARVESTRDFNOTES

Identifiant distant

remote_id

dct:identifier

Conservé aussi sous dct:identifier

URI

uri

ID du noeud

URIRef

URL de consultation

remote_url

dcat:landingPage ou l’identifier RDF s’il s’agit d’une URI

Date de création

created_at

dct.issued

Date de modification

modified_at

dct.modified

Ressource

La notion équivalente à la ressource sur data.gouv.fr (Resource) est un noeud de type dcat:Distribution en RDF.

DATA.GOUV.FRRDFNOTES

Titre

title

dct:title

Propriété facultative, un nom est généré sinon

Description

description

dct:description

Éventuellement HTML transformé en Markdown

URL

url

dcat:downloadURL et dcat:accessURL

Priorité à dcat:downloadURL

Taille

filesize

dcat:byteSize

Type MIME

mime

dcat:mediaType

Format

format

dct:format

Somme de contrôle

checksum

spdx:checksum (spdx:algorithm + spdx:checksumValue)

Autres métadonnées

Certaines propriétés sont conservées dans l’attribut harvest par souci de traçabilité :

DATA.GOUV.FR RESOURCE HARVESTRDFNOTES

Identifiant distant

dct:identifier

dct:identifier

URI

uri

dct:identifier

Si dct:identifier est un URIRef

Date de création

created_at

dct.issued

Date de modification

modified_at

dct.modified

Logiciels supportés

La plupart des logiciels exposant du DCAT (v3 à date) devraient être compatibles a minima avec le moissonneur DCAT de data.gouv.fr. Ci-dessous quelques exemples de logiciels supportés.

GeoNetwork

Si vous avez une instance de Geonetwork, vous pouvez publier sur data.gouv.fr.

Une documentation détaillée est précisée sur la page du moissonnage des données géographiques.

OpenDataSoft

Opendatasoft est un service en PaaS permettant de mettre en œuvre ce qu’on appelle un datastore et le portail de données associé.

Le moissonneur utilise l'export au format DCAT de chaque portail OpenDataSoft pour récupérer les métadonnées.

Spécifications techniques : Ce moissonneur attend l’URL publique d'export DCAT de votre portail Opendatasoft. Ce sera par exemple https://data.ma-compagnie.com/api/explore/v2.1/catalog/exports/dcat/. Il est possible (et souvent nécessaire) de renseigner dans l'URL les filtres des jeux de données cibles à moissonner (afin par exemple de moissonner les jeux de données du producteur X avec le mot clé Y). Vous trouverez plus d'information sur la mise en place d'un moissonneur DCAT pour un portail OpenDataSoft sur la documentation dédiée d'OpenDataSoft.

Attention: OpenDataSoft utilise le slug (la portion identifiant le jeu de données dans les URLs) comme identifiant technique. L’outil laisse la possibilité de changer ce slug ce qui pose un vrai problème de pérennité des identifiants. Ayez donc à l’esprit que ce changement d’identifiant créera des doublons au moissonnage.

Isogeo

Les portails Isogeo exposent du DCAT et sont donc moissonnables par data.gouv.fr.

Cette documentation officielle explique en détail la mise en place d’un moissonneur DCAT pour un portail Isogeo.

Namespaces utilisés

Par souci de lisibilité, les namespaces suivants sont déclarés :

  • dcathttp://www.w3.org/ns/dcat#

  • dcthttp://purl.org/dc/terms/

  • foafhttp://xmlns.com/foaf/0.1/

  • hydrahttp://www.w3.org/ns/hydra/core#

  • rdfshttp://www.w3.org/2000/01/rdf-schema#

  • scvhttp://purl.org/NET/scovo#

  • skoshttp://www.w3.org/2004/02/skos/core#

  • vcardhttp://www.w3.org/2006/vcard/ns#

  • xsdhttp://www.w3.org/2001/XMLSchema#

  • freqhttp://purl.org/cld/freq/

Contribuer

Ce moissonneur fait partie du coeur de udata, son code est disponible sur github. Vous pouvez donc soumettre des améliorations ou signaler des anomalies.

Métadonnées communes

Les jeux de données moissonnés possèdent les attributs suivants dans leur champ extras pour la traçabilité :

ATTRIBUTCONTENU

harvest:domain

Nom de domaine moissonné

harvest:source_id

Identifiant technique du moissonneur

harvest:remote_id

Identifiant distant du jeu de données

harvest:last_update

Date du dernier moissonnage

Détection des licences par le moissonnage

Lors du moissonnage, la liste de référence de data.gouv.fr, disponible ici au format json, est utilisée pour détecter la licence du jeu de données distant.

Cette détection utilise les attributs suivants :

  • id

  • title

  • alternate_titles

  • url

  • alternate_urls

Le meilleur moyen d’assurer une compatibilité parfaite est d’utiliser l’id sur le flux distant lorsque c’est possible.

Dernière mise à jour