Guide données météorologiques

Récupérer les données météorologiques en utilisant l’API de data.gouv.fr

data.gouv.fr est souvent uniquement assimilé à un site web. Or, il permet aussi :

  • de moissonner des ressources distantes comme des catalogues ;

  • de consulter via une API les pages, les jeux de données associés à des pages, les organisations, leurs jeux de données, les réutilisations, etc.

  • de mettre à jour les jeux de données via l'API.

Il existe une référence à ce propos sur https://doc.data.gouv.fr/api/reference/. Un guide est disponible sur https://guides.data.gouv.fr/guide-data.gouv.fr/api.

Pour le hackathon nous vous avons préparé un dépôt github contenant des utilitaires vous permettant de télécharger les données.

Dépôt Github d'assistance au téléchargement des données météos

Vous trouverez ci-dessous des exemples plus génériques vous expliquant en détail comment télécharger les données sur la plateforme data.gouv.fr. Nos exemples sont réalisés soit en ligne de commande en Bash, soit en Python. Pour les exemples Bash, il faut disposer de curl, wget, jq et xsv installés sur votre machine.

Lister les ressources et les jeux de données d'une organisation

On cible ici Météo-France.

En bash, on passe en CSV.


# Nous trichons un peu : nous savons qu'il n'y a que 106 jeux de données pour le moment et cela nous évite de paginer ici.
curl '<https://www.data.gouv.fr/api/1/organizations/534fff8ba3a7292c64a77ed4/datasets/?page=1&page_size=200>' | jq . >| meteo-france-organization.json
echo '"ds_id","ds_title","ds_page","id","title","format","filetype","mime","type","url"' >| datasets_organization_meteo_france.csv
jq -r '.data[] | .page as $ds_page | .title as $ds_title| .id as $ds_id | .resources[] | [$ds_id, $ds_title, $ds_page, .id, .title, .format, .filetype, .mime, .["type"], .url] | @csv' meteo-france-organization.json >> datasets_organization_meteo_france.csv

En Python, on récupère les données.

Il est aussi possible de passer par les fichiers du catalogue de données de data.gouv.fr pour obtenir un contenu similaire. Le lien web est : https://www.data.gouv.fr/fr/datasets/catalogue-des-donnees-de-data-gouv-fr/#/resources

Inconvénient : il est mis à jour tous les jours, cette fréquence bien qu'importante ne convient pas forcément à tous les utilisateurs.

Avantage : les fichiers sont exploitables via des logiciels de type tableur

Récupérer les jeux de données d'un dataset

Il s'agit de pages de jeux de données comme https://www.data.gouv.fr/fr/datasets/donnees-climatologiques-de-base-horaires/

En Bash

En Python

Récupérer les id des organisations ("organizations") ou des jeux de données ("datasets")

Pour récupérer les id des organisations

  1. Passez par data.gouv.fr ;

  2. Cherchez l'organisation Météo-France et rendez-vous sur sa page ;

  3. Allez dans l'onglet "Informations" ;

  4. Descendez en bas pour voir mentionné l'id comme sur : https://www.data.gouv.fr/fr/organizations/meteo-france/#/information

Vous pouvez réexploiter cette id via une URL du type https://www.data.gouv.fr/api/1/organizations/534fff8ba3a7292c64a77ed4/datasets/?page=1&page_size=10 pour l'organisation 534fff8ba3a7292c64a77ed4

Pour récupérer les id des jeux de données

  1. Allez sur un jeu de données des "Données climatologiques de base - horaires", https://www.data.gouv.fr/fr/datasets/donnees-climatologiques-de-base-horaires/

  2. Rendez-vous dans l'onglet "Informations" pour retrouver l'id du jeu de données.

Ensuite, il faudra entrer comme URL https://www.data.gouv.fr/api/1/datasets/6569b4473bedf2e7abad3b72/ avec l'id 6569b4473bedf2e7abad3b72 pour accéder au json des ressources associées au jeu de données.

Le "raccourci" possible

Nous avons tendance à préférer les identifiants techniques mais un autre moyen plus rapide est de passer le slug de la page ou de l'organisation.

Pour l'organisation https://www.data.gouv.fr/fr/organizations/meteo-france/, il suffit de copier la partie meteo-france de l'url et d'ouvrir la page https://www.data.gouv.fr/api/1/organizations/meteo-france/datasets/?page=1&page_size=10 pour avoir le même résultat que https://www.data.gouv.fr/api/1/organizations/534fff8ba3a7292c64a77ed4/datasets/?page=1&page_size=10.

Pour le jeu de données https://www.data.gouv.fr/fr/datasets/donnees-climatologiques-de-base-horaires/, les URLs https://www.data.gouv.fr/api/1/datasets/donnees-climatologiques-de-base-horaires/ ou https://www.data.gouv.fr/api/1/datasets/6569b4473bedf2e7abad3b72/ sont équivalentes.

meteo.data.gouv.fr : les "topics"

Derrière meteo.data.gouv.fr se cache un site dérivé de data.gouv.fr.

L'API de data.gouv.fr expose ce que l’on appelle des "topics", qui sont des regroupements de données et qui sont consommés via le front de meteo.data.gouv.fr.

3 topics sont actuellement utilisés sur meteo.data.gouv.fr :

  • Données climatologiques de base

  • Données climatologiques de référence pour le changement climatique

  • Données de prévision numérique du temps (PNT)

Boucler sur les topics

Il est ensuite possible de retrouver les correspondances entre noms des topics sur meteo.data.gouv.fr.

Ainsi, on a la correspondance suivante :

Si on veut toutes les données du portail meteo.data.gouv.fr, voici un recette en bash :

Utiliser les données météorologiques

Les formats de données météorologiques sont des formats multidimensionnels, en particulier pour les données liées aux satellites car ils nécessitent de gérer les coordonnées soit ponctuelles soit associées à une grille (déjà 2 dimensions), des dates d'acquisition (une autre dimension) et des mesures diverses (encore une dimension).

Pour cela, plusieurs formats sont utilisés. On stocke généralement les données brutes sous forme de fichiers dits GRIB, un format standardisé par l'OMM (Organisation Mondiale de la Météorologie). Vous pouvez en savoir plus en passant par la page Wikipédia GRIB.

Manipuler les formats de fichiers grib2

Inspection en Bash

Inspection en Python

Pour l'exemple ci-dessous, passez par conda avec conda install --channel conda-forge xarray cfgrib eccodes -y

Inspection dans QGIS

Inspection grib2 dans Qgis

Mettre les données en bases de données

Cela peut surtout s'avérer utile pour mettre des données attributaires comme les stations ou les mesures associées prises sur les stations. Il est ensuite plus facile de les manipuler si vous avez des connaissances en SQL. Néanmoins, rien ne vous empêche selon vos préférences de faire tous vos traitements dans des dataframes en Python ou en R.

SQLite

C'est un format de fichier qui contient une base de données relationnelle ne nécessitant aucune installation.

En utilisant l’utilitaire sqlite-utils, installable via pip install sqlite-utils

Pour exploiter le fichier généré, vous pouvez lancer une commande du type

Pour en savoir plus, lire la documentation sur la partie ligne de commande

GPKG

C'est un format qui s'appuie sur la base de données SQLite. La particularité est qu'il permet de gérer de la donnée géographique en intégrant des fonctionnalités spatiales du type "recherche toutes stations à moins de 10 km de chez moi".

Parquet

Ce format permet des sélections rapides même en passant par des fichiers distants, évitant par exemple des téléchargements complets sur votre machine. Il existe une variation dite GeoParquet qui permet de stocker les données géographiques.

L'outil pour facilement manipuler ces fichiers est l'outil duckdb qui peut être appelé en R, Python, dans le navigateur comme en ligne de commande.

La différence notable est que la taille du GPKG généré est de l’ordre de 20 fois plus gros que le fichier GeoParquet.

PostgreSQL/PostGIS

PostgreSQL est une base de données client/serveur. Elle nécessite une installation sur votre machine ou un serveur distant. Elle peut gérer de très gros volumes de données, étant en concurrence avec des SGBD type Oracle ou MySQL Server.

Si vous manipulez de la donnée géographique, vous ne pourrez pas passer à côté de sa cartouche spatiale PostGIS qui est à ce jour la meilleure du marché dans les SGBD existants.

Vous pouvez si nécessaire consulter un guide d'installation.

Charger les données dans PostgreSQL avec le client psql (fourni dès l'installation de PostgreSQL/PostGIS) en ligne de commande

PostgreSQL/PostGIS - Python avec Psycopg2

PostgreSQL/PostGIS - Python avec Pandas

Voir https://pandas.pydata.org/docs/user_guide/io.html#insertion-method

Manipuler les données : quelques outils

En ligne de commande

Quelques utilitaires intéressants :

  • Pour récupérer les données : curl/wget

  • Pour manipuler du JSON : jq

  • Pour manipuler du CSV : xsv/csvkit

  • Pour manipuler des données géographiques vecteur ou raster : ogrinfo/ogr2ogr/gdalinfo/gdalwarp fournis par GDAL

  • Pour manipuler des données csv ou passer par du parquet facilement : duckdb

En Python

Pensez à passer par des Notebooks Jupyter. Utilisez conda/mamba et des environnements virtuels

Les bibliothèques qui pourraient vous être utiles :

  • pandas avec son module “géo” geopandas

  • xarray, cfgrib, eccodes pour manipuler les grib2 type Arome ou Arpège

  • matplotlib avec cartopy et basemap

Un bon point d’entrée pour des exemples (en particulier pour les données type Arome/Arpege) : https://github.com/meteofrance/meteonet/.

Logiciel SIG QGIS

Pour une analyse visuelle rapide, vous pouvez passer par QGIS qui permet de gérer les WMS, les CSV et les GeoJSON.

Vous pouvez vous référer pour un tuto rapide à https://tutoqgis.cnrs.fr.

Vous pouvez également vous référer à la documentation officielle du projet QGIS.

Utiliser les API de Météo-France

Bien que les données soient ouvertes sous licence Etalab, les APIs nécessitent de créer un compte sur https://portail-api.meteofrance.fr (pour éviter les abus et pouvoir suivre les usages).

Après création d’un compte, il est possible souscrire à des APIs. Par défaut, le compte ne permet rien sauf de souscrire à des APIs. Quand on a choisi une API, on peut souscrire puis commencer à utiliser pour son usage.

La page d’accueil du site reproduite ci-dessous est très claire à ce propos.

Page d'accueil du site des API de Météo-France

Exemple avec QGIS

Ajout de WMS Arome

Exemple d'ajout de WMS Arome

Mis à jour

Ce contenu vous a-t-il été utile ?