LogoLogo
✉️ Contact💬 Forum
Guides de data.gouv.fr
Guides de data.gouv.fr
  • Bienvenue
  • ❓Foire aux questions
  • Documentation de data.gouv.fr
    • Créer un compte utilisateur et rejoindre une organisation
    • Organisation
      • Créer une organisation
      • Suivre l'activité et modifier son organisation
      • Gérer les membres de son organisation
      • Certifier une organisation
      • Supprimer une organisation
    • Jeux de données
      • Publier un jeu de données
        • Publier une Base Adresse Locale
      • Gérer un jeu de données
      • Explorer un jeu de donnée
      • Télécharger le catalogue de données de data.gouv.fr
      • Accéder au catalogue via SPARQL
    • API
      • Publier une API
      • Gérer une API
      • Outils pour les administrations
        • Doctrine des API
        • Accompagnement humain
        • Datapass : Outil d'habilitations
        • Bouquets API Entreprise et API Particulier
    • Réutilisations
      • Publier une réutilisation
      • Gérer une réutilisation
    • Statistiques
    • Ressource communautaire
    • Moissonnage
      • Comprendre les limites du moissonnage
      • Les différents types de moissonneurs
      • Mettre en place un moissonneur
      • Analyser le rapport de moissonnage
      • Moissonnage des plateformes géographiques
    • API de data.gouv.fr
      • Prise en main de l'API
      • Tutoriel d'utilisation
      • Gérer un jeu de données par l'API
      • Référence
        • site
        • datasets
        • reuses
        • discussions
        • organizations
        • spatial
        • users
        • me
        • contacts
        • workers
        • tags
        • topics
        • posts
        • transfer
        • notifications
        • avatars
        • harvest
  • Guides open data
    • Guide juridique
      • Producteurs de données
        • Comprendre la notion d'open data
        • Qui est concerné ?
        • Quelles sont les obligations ?
      • Réutilisateurs de données
        • Respecter les conditions de réutilisation
      • Chronologie de l'open data
    • Guide qualité
      • Evaluer le niveau de qualité d'un jeu de données
      • Préparer un jeu de données de qualité
        • Extraire un jeu de données d'un système d'information
        • Structurer un jeu de données
          • Structurer une Base Adresse Locale
        • Lier des données à un référentiel
      • Documenter des données
        • Bien documenter un jeu de données
        • Diffuser la documentation d'un jeu de données
      • Améliorer la qualité d'un jeu de données en continu
        • Améliorer le score de qualité des métadonnées
        • Connaître et suivre les usages d'un jeu de données
        • Mettre en place une stratégie organisationnelle
      • Maîtriser les schémas de données
        • Comprendre les bénéfices d'utiliser un schéma de données
        • Créer un schéma de données
          • Etape 1 : Phase d'investigation
          • Etape 2 : Phase de concertation
          • Etape 3 : Phase de construction
          • Etape 4 : Phase de promotion et de maintien
          • Focus : Construire un schéma TableSchema
        • Intégrer un schéma de données à schema.data.gouv.fr
        • Produire des données en conformité avec un schéma
        • Indiquer et vérifier qu'une ressource respecte un schéma de données
  • Guides sur l'utilisation des données
    • Introduction à l'open data
      • Comprendre la notion d'open data
      • Comprendre l'écosystème de l'open data
      • Comprendre les conditions d'utilisation des données en open data
      • Découvrir et utiliser data.gouv.fr
    • Guide traitement et analyse de données
      • Trouver des données
      • Prendre connaissance et évaluer la qualité de données
      • Explorer des données
      • Récupérer des données
      • Manipuler des données
        • Ouvrir des données
        • Filtrer des données
        • Nettoyer des données
        • Croiser des données
        • Géocoder des adresses
      • Analyser des données
        • Analyser des données avec le tableur LibreOffice Calc
        • Analyser des données avec Python
        • Analyser des données avec R
      • Visualiser des données
      • Cartographier des données
      • Réaliser des projets utiles et s'inspirer
      • Poser des questions aux producteurs de données
      • Valoriser ses travaux
      • Autres ressources pédagogiques
    • Guide API géographiques
      • Utiliser l'API Adresse
        • Rappel sur les données adresses
        • Géocoder des adresses - théorie
        • Géocoder des adresses - cas pratiques
        • FAQ Adresse
      • Utiliser l'API Découpage administratif
      • Utiliser les tuiles vectorielles
    • Guide données du cadastre
      • Comprendre les données du cadastre et leurs usages
      • Manipuler les données du cadastre
      • Foire aux questions sur le cadastre
    • Guide données météorologiques
    • Guide API "Adresse" de l'IGN
  • Autres ressources utiles
    • Lexique de l'open data
    • Données de la commande publique
      • Publier les données essentielles d’attribution des marchés
      • Déclaration d’un profil d’acheteur
    • Données de forte valeur : métadonnées obligatoires et modalités de rapportage
    • Ressources OpenDataFrance
    • Documentation de transport.data.gouv.fr
    • Les algorithmes publics : pourquoi et comment les expliquer ?
      • Les algorithmes publics : enjeux et obligations
      • Fiche pratique : l'obligation de mention explicite
      • Fiche pratique : l'inventaire des principaux traitements algorithmiques
      • Liste de ressources
    • Codes sources du secteur public : lesquels ouvrir, pourquoi et comment ?
      • Ce document n'est pas...
      • Cadre juridique
    • Catalogage de données - GRIST
    • 📒Guide du participant au Hackathon Météo
      • Ressources du hackathon
        • Données
        • Prise en main des données
        • Outils
        • Programme
        • Informations pratiques
        • Contacts
      • Avant le hackathon
      • Pendant le hackathon : règles et bonnes pratiques
        • Choix du défi
        • Constitution des équipes
        • Sollicitation des mentors
        • Documentation des réalisations
        • Rendu intermédiaire
        • Soumission du projet
        • Evaluation des projets
      • Après le hackathon
        • Evaluation du hackathon
        • Valorisation de votre projet
Propulsé par GitBook
Sur cette page
  • Les différents moissonneurs
  • Détection des licences par le moissonnage

Cet article vous a-t-il été utile ?

Modifier sur GitHub
Exporter en PDF
  1. Documentation de data.gouv.fr
  2. Moissonnage

Les différents types de moissonneurs

PrécédentComprendre les limites du moissonnageSuivantMettre en place un moissonneur

Dernière mise à jour il y a 6 mois

Cet article vous a-t-il été utile ?

Les différents moissonneurs

Aujourd’hui, data.gouv.fr peut moissonner les plateformes ou formats suivants :

  • DCAT (GeoNetwork, OpenDataSoft, etc.)

  • CKAN

  • DKAN, une variante du moissonneur CKAN

DCAT

est un vocabulaire RDF pour décrire des jeux de données. La Commission européenne a publié son extension de DCAT, appelée .

Spécificités techniques

Ce moissonneur attend l’URL d’un catalogue DCAT (dcat:Catalog).

Plusieurs formats sont supportés et découvrables à travers la négociation de contenu :

  • RDF XML

  • JSON-LD

  • Turtle

  • N3

  • NT

  • Trig

La pagination est supportée via l’ontologie (ainsi que l’ancienne version).

Correspondance des champs du modèle

Jeu de données

La notion équivalente au jeu de données sur data.gouv.fr (Dataset) est un noeud de type dcat:Dataset en RDF.

DATA.GOUV.FR
RDF
NOTES

Titre

title

dct:title

Acronyme

acronym

skos:altLabel

Description

description

dct:description + dct:abstract

Éventuellement HTML transformé en Markdown. dct:description est à privilégier

Mots-clés

tags

dcat:keyword + dcat:theme

Les RdfResource ne sont pas supportées pour le champ dcat:theme. dcat:keyword est à privilégier

Licence

license

dct:license et dct:right depuis dcat:distributions

Couverture spatiale

spatial

DCT.spatial

Couverture temporelle

temporal_coverage

dct:temporal

Séparé par / dans le cas de dates de début et de fin, ex: 2011-01-01/2011-12-31

Fréquence de mise à jour

frequency

dct:accrualPeriodicity

Autres métadonnées

Certaines propriétés additionnelles sont conservées dans l’attribut harvest par soucis de traçabilité. Les informations de date sont sauvegardées dans ces métadonnées.

DATA.GOUV.FR HARVEST
RDF
NOTES

Identifiant distant

remote_id

dct:identifier

Conservé aussi sous dct:identifier

URI

uri

ID du noeud

URIRef

URL de consultation

remote_url

dcat:landingPage ou l’identifier RDF s’il s’agit d’une URI

Date de création

created_at

dct.issued

Date de modification

modified_at

dct.modified

Ressource

La notion équivalente à la ressource sur data.gouv.fr (Resource) est un noeud de type dcat:Distribution en RDF.

DATA.GOUV.FR
RDF
NOTES

Titre

title

dct:title

Propriété facultative, un nom est généré sinon

Description

description

dct:description

Éventuellement HTML transformé en Markdown

URL

url

dcat:downloadURL et dcat:accessURL

Priorité à dcat:downloadURL

Taille

filesize

dcat:byteSize

Type MIME

mime

dcat:mediaType

Format

format

dct:format

Somme de contrôle

checksum

spdx:checksum (spdx:algorithm + spdx:checksumValue)

Autres métadonnées

Certaines propriétés sont conservées dans l’attribut harvest par souci de traçabilité :

DATA.GOUV.FR RESOURCE HARVEST
RDF
NOTES

Identifiant distant

dct:identifier

dct:identifier

URI

uri

dct:identifier

Si dct:identifier est un URIRef

Date de création

created_at

dct.issued

Date de modification

modified_at

dct.modified

Logiciels supportés

La plupart des logiciels exposant du DCAT (v3 à date) devraient être compatibles a minima avec le moissonneur DCAT de data.gouv.fr. Ci-dessous quelques exemples de logiciels supportés.

GeoNetwork

Si vous avez une instance de Geonetwork, vous pouvez publier sur data.gouv.fr.

OpenDataSoft

Le moissonneur utilise l'export au format DCAT de chaque portail OpenDataSoft pour récupérer les métadonnées.

Attention: OpenDataSoft utilise le slug (la portion identifiant le jeu de données dans les URLs) comme identifiant technique. L’outil laisse la possibilité de changer ce slug ce qui pose un vrai problème de pérennité des identifiants. Ayez donc à l’esprit que ce changement d’identifiant créera des doublons au moissonnage.

Isogeo

Les portails Isogeo exposent du DCAT et sont donc moissonnables par data.gouv.fr.

Namespaces utilisés

Par souci de lisibilité, les namespaces suivants sont déclarés :

  • dcat ⇨ http://www.w3.org/ns/dcat#

  • dct ⇨ http://purl.org/dc/terms/

  • foaf ⇨ http://xmlns.com/foaf/0.1/

  • hydra ⇨ http://www.w3.org/ns/hydra/core#

  • rdfs ⇨ http://www.w3.org/2000/01/rdf-schema#

  • scv ⇨ http://purl.org/NET/scovo#

  • skos ⇨ http://www.w3.org/2004/02/skos/core#

  • vcard ⇨ http://www.w3.org/2006/vcard/ns#

  • xsd ⇨ http://www.w3.org/2001/XMLSchema#

  • freq ⇨ http://purl.org/cld/freq/

Contribuer

CKAN

Le moissonneur utilise l’API de CKAN pour récupérer les métadonnées.

Spécifications techniques

Ce moissonneur attend l’URL racine de l’instance CKAN et non du portail (dans le cas où CKAN est couplé à Drupal par exemple).

Comme le moissonneur utilise l’API de CKAN, il nécessite que celle-ci soit accessible.

Ce moissonneur n’est pas compatible avec les changements de modèles qui peuvent être effectués par certains plugins. Les champs d’un jeu de données doivent rester les mêmes, et le format de leur contenu aussi.

Les champs additionnels du modèle sont ignorés.

Correspondance des champs du modèle

Jeu de données

La notion équivalente au jeu de données sur data.gouv.fr (Dataset) est le Package dans CKAN.

DATA.GOUV.FR
CKAN
NOTES

Slug

slug

name

Création uniquement, si disponible

Titre

title

title

Acronyme

acronym

❌

Description

description

notes

Mots-clés

tags

tags.name

Date de création

created_at

metadata_created

Date de mise à jour

last_modified

metadata_modified

Licence

license

license_id et license_title

deviné

Couverture spatiale

spatial

extras.spatial et extras.spatial-test

deviné

Couverture temporelle

temporal_coverage

extras.temporal_start et extras.temporal_end

Fréquence de mise à jour

frequency

extras.frequency

Autres métadonnées

Certaines propriétés additionnelles sont conservées dans l’attribut harvest par soucis de traçabilité. Les informations de date sont sauvegardées dans ces métadonnées.

DATA.GOUV.FR HARVEST
CKAN
NOTES

Identifiant distant

remote_id

id

Slug

ckan_name

name

Car slug peut déjà être pris

URL de consultation

remote_url

url

Conservé dans ckan:source si URL invalide

Tous les attributs extras de CKAN qui ne font pas l’objet d’un traitement particulier sont aussi conservés dans l’attribut extras.

Ressource

La notion équivalente à la ressource sur data.gouv.fr (Resource) est aussi la Resource dans CKAN.

DATA.GOUV.FR
CKAN
NOTES

Identifiant

id

id

Un UUID valide

Titre

title

name

Description

description

description

URL

url

url

Type

filetype

resource_type

api ou remote

Type MIME

mime

mimetype

Format

format

format

Date de création

harvest.created_at

created

Date de mise à jour

harvest.modified_at

last_modified

Filtrage

La filtrage donne la possibilité d’inclure ou d’exclure un sous-ensemble de jeux de données du moissonnage.

Lorsqu’un ou plusieurs filtres sont déclarés, seuls les jeux de données remplissant toutes les conditions (ET) seront traités.

Portail multiproducteur : restriction à une organisation

Exclusion de mots-clés

Combinaisons multiples

Contribuer

Métadonnées communes

Les jeux de données moissonnés possèdent les attributs suivants dans leur champ extras pour la traçabilité :

ATTRIBUT
CONTENU

harvest:domain

Nom de domaine moissonné

harvest:source_id

Identifiant technique du moissonneur

harvest:remote_id

Identifiant distant du jeu de données

harvest:last_update

Date du dernier moissonnage

Détection des licences par le moissonnage

Cette détection utilise les attributs suivants :

  • id

  • title

  • alternate_titles

  • url

  • alternate_urls

Le meilleur moyen d’assurer une compatibilité parfaite est d’utiliser l’id sur le flux distant lorsque c’est possible.

Uniquement les couverture géométriques sont supportées pour l'instant. Soit un Polygon en tant que littéral WKT (), soit un GeoJSON directement (datatype application/vnd.geo+json).

ou un équivalent au plus proche des

Une documentation détaillée est précisée sur la .

est un service en PaaS permettant de mettre en œuvre ce qu’on appelle un datastore et le portail de données associé.

Spécifications techniques : Ce moissonneur attend l’URL publique d'export DCAT de votre portail Opendatasoft. Ce sera par exemple https://data.ma-compagnie.com/api/explore/v2.1/catalog/exports/dcat/. Il est possible (et souvent nécessaire) de renseigner dans l'URL les filtres des jeux de données cibles à moissonner (afin par exemple de moissonner les jeux de données du producteur X avec le mot clé Y). Vous trouverez plus d'information sur la mise en place d'un moissonneur DCAT pour un portail OpenDataSoft sur la .

Cette explique en détail la mise en place d’un moissonneur DCAT pour un portail Isogeo.

Ce moissonneur fait partie du coeur de udata, . Vous pouvez donc soumettre des améliorations ou signaler des anomalies.

est un logiciel libre permettant de mettre en oeuvre des portails de données.

Exemple de restriction à une seule organisation
Exemple d'exclusion de mots-clés
Exemple de combinaison de filtres

Le moissonneur CKAN est publié sur github dans le plugin . Vous pouvez donc soumettre des améliorations ou signaler des anomalies.

Lors du moissonnage, la liste de référence de data.gouv.fr, , est utilisée pour détecter la licence du jeu de données distant.

DCAT
DCAT-AP
Hydra
Opendatasoft
documentation dédiée d'OpenDataSoft
documentation officielle
son code est disponible sur github
CKAN
udata-ckan
disponible ici au format json
exemple
Dublin Core Frequency
Fréquences Européennes
Dublin Core Frequency
Détection des licences
page du moissonnage des données géographiques