Géocoder des adresses
Qu'est-ce que le géocodage ?
Lexique : Géocodage Le géocodage consiste à affecter des coordonnées géographiques (longitude/latitude) à une adresse postale (Wikipédia).
Il permet ainsi de positionner des adresses sur une carte ou encore de trouver les points de départ et d’arrivée pour déterminer votre trajet lorsque vous voyagez par exemple.
Les indispensables pour réaliser un géocodage
Pour réaliser un géocodage, il est nécessaire de disposer :
Le fonctionnement d'un géocodeur
Un géocodeur transforme une donnée textuelle des données de référence en utilisant des algorithmes qui séparent l’adresse en syllabes, mots et groupes de mots.
Les différents éléments sont indexés, puis en s’appuyant sur des algorithmes relatifs à du traitement textuel, le géocodeur compare la similarité entre les mots constituant l’adresse à rechercher et ceux qui sont indexés depuis les données de référence.
Un algorithme permet généralement d’ordonner les résultats. Il s’agit par exemple de faire apparaitre en premier les résultats ayant les coordonnées fixes les plus proches ou encore ceux dont la population est la plus forte.
Il est également possible de filtrer selon des critères comme le pays (si le géocodeur a une vocation internationale, comme Nominatim) ou encore par type de résultat.
En pratique, un certain nombre de géocodeurs visent à réaliser des recherches de communes et de POIs (Points Of Interest ou points d’intérêts) et pas seulement des adresses.
Le géocodage peut aussi se faire de façon inverse, c’est-à-dire retourner une adresse en envoyant une coordonnée. Dans ce cas de figure, il s’agit de trouver la donnée de référence la plus proche des coordonnées envoyées.
Les limites du géocodage
Nous nous concentrons ici sur les cas liés aux adresses, le géocodeur utilisé par adresse.data.gouv.fr étant spécifiquement conçu pour répondre à ce besoin.
La qualité des données de référence
Les données textuelles de l’adresse de référence ne sont pas toujours uniformes.
Exemple : "rue" peut être représenté par les lettres "r" ou "R" ou "rue" ou "Rue".
Il s’agit donc en premier lieu d’uniformiser les différentes manières de décrire le type de voie.
Il s’agit également d’omettre les articles lors d’une comparaison.
Exemple : chercher "rue métanies" au lieu de "rue des métanies".
D’un autre côté, les coordonnées géographiques peuvent manquer de précision. Dans certains cas, il arrive de disposer uniquement du centroïde de la commune, de la voie ou du lieu dit (point d’une zone géographique choisi au voisinage de son centre de gravité et dont les coordonnées servent de localisant pour cette zone).
Dans d’autres cas, les coordonnées peuvent avoir été interpolées : les adresses ont été positionnées en fonction du nombre de numéros dans une voie et la longueur de celle-ci.
Les principales problématiques liées aux adresses
Cas pratiques
Comment faire si une recherche d’adresse ne fonctionne pas ?
Vérifier en utilisant l’autocomplétion :
Tapez votre adresse. Par exemple, "20 avenue de Ségur". Si le numéro est bien proposé et que la commune est la bonne pour le premier résultat, c’est la manière dont vous avez récupéré l’adresse qui est en cause. Si vous êtes en mode "batch", la première adresse retournée peut être mauvaise et c’est la 2ème ou 3ème adresse que vous attendiez.
Imaginons que vous pensiez que le numéro existe, mais ne le trouvez pas dans votre résultat de géocodage. Essayez alors de trouver la rue. Essayons "87 avenue de Ségur". On ne voit que des rues qui sont retournées suite à la recherche. Cliquez sur la rue qui semble correspondre à votre recherche. Cela va zoomer. Vous allez pouvoir voir s’il y a des adresses et lesquelles sont inventoriées.
La donnée de référence n’est pas présente : c’est un oubli ou personne ne l’a encore produite.
Le résultat est une adresse BAL. Votre commune est entrée dans une démarche de recensement et valorisation de ces adresses.
Vous pouvez confirmer si l'adresse existe en allant sur https://adresse.data.gouv.fr/deploiement-bal.
Zoomez sur la carte pour trouver votre commune ou l'organisme qui porte votre BAL, par exemple un intercommunalité.
Cliquez sur le polygone. Allons par exemple à la communauté d'agglomération Arles Crau Camargue Montagnette.
Descendons et recherchons une commune puis cliquons dessus, par exemple Arles.
On peut maintenant chercher par nom de voie ou lieu dit pour vérifier que la voie existe. Prenons l'allée des Manades.
Nous pouvons ensuite vérifier dans la liste l'existence du numéro.
Adresse IGN vs adresse cadastre vs adresse BAL.
La donnée est présente, mais les termes de recherche ne permettent pas de la trouver.
Vous êtes un particulier ? Vous pouvez récupérer les coordonnées de votre commune pour lui faire part de vos retours en passant par https://adresse.data.gouv.fr/contribuer puis en cherchant votre commune.
Comment faire de l’autocomplétion d’adresse ?
Il existe plusieurs solutions pour faire de l’autocomplétion dans un outil web.
Vous pouvez vous appuyer sur de nombreuses bibliothèques, celles-ci étant généralement liées à des bibliothèques cartographiques.
Solutions basées sur Leaflet
Exemples :
Solutions basées sur OpenLayers
Exemples :
Solutions indépendantes de bibliothèques cartographiques
Exemples :
Comment faire du géocodage par adresse unitaire ?
Avec Python, pour faire des appels unitaires, vous pouvez :
utiliser le code de ce script ;
passer par Geopy : il existe une classe
BANFrance
pour ce besoin.
En JavaScript, vous pouvez utiliser ces exemples que ce soit pour un usage côté navigateur ou côté serveur (Node.js/deno).
Comment réaliser un géocodage massif ?
Lorsqu'on choisit cette option, on privilégie l'appel par le endpoint CSV de l'API.
Il faut préalablement s'assurer que son CSV est bien formaté : il s'avère que le géocodage peut ponctuellement dysfonctionner si le CSV n'est pas bien formaté.
Option manuelle
Il existe une interface graphique pour envoyer des fichiers CSV sur https://adresse.data.gouv.fr/csv dont la taille maximum est de 50Mo.
Pour tester, téléchargeons le fichier exemple puis suivez l'exemple en utilisant le GIF animé ci-dessous.
Pour réaliser un géocodage massif, il faut généralement vérifier le formatage de votre CSV.
Python seul
Solution partant d'appels unitaires plutôt que des appels CSV : https://github.com/MTES-MCT/bulk-geocoding-python-client
Solution partant d'appels à l'API CSV. Il suffit de récupérer le zip, de décompresser le fichier. Ensuite, il vous suffit de lancer le script Python avec
python chunk-csv-python.py
. Cela permettra de faire l'appel vers l'API CSV soit en une fois, soit en plusieurs phases. On obtiendra ainsi le fichierannuaire-des-debits-de-tabac-2018-utf8-20lines.geocoded.csv
qui est la version géocodée par l'API CSV d'un fichier de 20 lignes ainsi quemyresults.csv
qui est une version qui résulte d'une phase de découpage d'un gros fichier en plusieurs morceaux, d'appels à l'API CSV à partir de chacun de ces fichiers, puis du réassemblage des fichiers ainsi retournés. Vous n'avez plus qu'à adapter le code du fichierchunk-csv-python.py
.https://github.com/MTES-MCT/bulk-geocoding-python-client (attention, la solution fait des appels unitaires plutôt que des appels CSV)
JavaScript
Géocodage massif avec une solution en ligne de commande utilisant Node.js : https://github.com/jdesboeufs/addok-geocode-stream
Autres outils utilisant la BAN
--> Vous faites du SIG, néophyte comme expert et utilisez le logiciel SIG QGIS ?
Recherchez des adresses : https://oslandia.gitlab.io/qgis/french_locator_filter/
Géocodez des tables depuis une table dans QGIS QBano : https://www.data.gouv.fr/en/reuses/plugin-experimental-qbano-pour-qgis/. À ce jour, le plug-in est mal maintenu, il vaut mieux récupérer ce zip puis installer le plug-in depuis celui-ci.
Avec PyQGIS, vous pouvez aussi géocoder en partant de : https://gis.stackexchange.com/a/395415/638
--> Vous utilisez d’autres outils?
Vous faites du R ? https://cran.r-project.org/web/packages/banR/index.html
Vous souhaitez intégrer la recherche dans le CMS SPIP ? http://plugins.spip.net/gisban.html
Que faire lorsqu'on est un gros consommateur de l’API api-adresse.data.gouv.fr ?
Si vous êtes un organisme public, vous pouvez faire une demande pour augmenter les quotas par défaut sur l’API publique api-adresse.data.gouv.fr.
Si ce n’est pas le cas, vous pouvez vous autohéberger.
Dans ce cas, le plus simple est de passer par l’utilisation de Docker : https://github.com/etalab/addok-docker#readme.
Il est possible aussi de regarder du côté de Addok, le logiciel open source derrière l’API Adresse si vous avez des besoins plus spécifiques au niveau de votre installation ou de la personnalisation de la recherche : https://github.com/addok/addok.
Quels autres géocodeurs est-il possible d'utiliser ?
Même si nous avons abordé l’usage du géocodeur Addok, utilisé par adresse.data.gouv.fr, il existe d'autres possibilités pour géocoder.
Leurs principaux intérêts sont de pouvoir chercher des POIs (un centre commercial, une enseigne, etc.) ainsi que de marcher sur des données internationales, contrairement à l'instance publique de Addok.
Il est ainsi possible d'installer des solutions OpenSource comme :
Il est aussi possible de détourner Addok pour lui faire effectuer d’autres types de recherche, par exemple des POIs en utilisant le projet https://github.com/osm-fr/osmpoi4addok par exemple.
Une instance alternative d'Addok (http://demo.addok.xyz) est mise à disposition et contient des données venant de la BANO, des POIs d'OpenStreetMap ainsi que des intersections de rues/routes.
Vous pouvez aussi vous appuyer sur les services mis à disposition par l’IGN pour le géocodage : https://geoservices.ign.fr/services-web-experts-calcul (voir les sections "Services de géocodage" et "Service de recherche Look4"). Vous pouvez aussi regarder leur nouveau service de géocodage.
Dernière mise à jour