Open Source Places, une base de données de 100 millions de POI en open source (Foursquare)


Source : « Foursquare Open Source Places : A new foundational dataset for the geospatial community » (Foursquare)

La plate-forme Foursquare, qui se présente comme « leader du secteur pour tout ce qui concerne le géospatial », lance Open Source Places (FSQ OS Places), un ensemble de données ouvertes comprenant 100 millions de lieux d’intérêt (POI) classés selon 22 attributs de base. 



1) Diffuser des POI en open source, un enjeu majeur

Les données rassemblent des informations livrées par des sociétés « à partir de sources tierces faisant autorité ainsi que de milliards de photos, de conseils et d'avis générés par les utilisateurs, issus de 10 ans d'expérience en matière de collecte de commentaires des consommateurs »Ces données POI sont destinées selon Foursquare à « stimuler l'innovation dans l'ensemble de la communauté géospatiale ». Etant donné leur origine, il n'est pas étonnant de voir dominer les données concernant des lieux ayant un usage commercial. 

Même si ces données sont gratuites, il s'agit pour Foursquare de valoriser son image d'entreprise spécialisée dans le géospatial. Les POI fournissent souvent la couche fondamentale pour le développement open source. Foursquare a bâti nombre de ses applications à partir de ces données. Foursquare Places a été construit sur un système de crowdsourcing, à partir des données d'utilisateurs utilisant ses applications mobiles. Tout l'enjeu est désormais de parvenir à maintenir une base de données synchronisée avec le monde réel. C'est certainement l'un des enjeux de la mise à disposition de ces données POI en open source : poursuivre, voire amplifier le travail de saisie et de mise à jour de ces données sur une base contributive, ce qui est l'objectif de sa Placemaker Community, souvent mise en avant par Foursquare comme une des spécificités de l'entreprise.

2) L'accès aux données au format parquet

L’ensemble des données est fourni au format parquet. Il est prévu qu'il soit mis à jour mensuellement. Ces données peuvent être filtrées par catégories et par type de lieux commerciaux ou non commerciaux (voir le schéma de base ici).

L'extraction des données à partir de gros fichiers au format parquet nécessite des compétences techniques. On peut utiliser l'interface Fused qui permet de faire des extractions simples à partir d'un secteur géographique (téléchargement des données au format geojson). Mark Litwintschik et Simon Willison fournissent des conseils pour procéder à des extractions avec DuckDB ou pour les récupérer sur Github (plus de 10 Go de données à télécharger en plusieurs fichiers).

Certains data analystes comme Tim Wallace soulignent l'intérêt de pouvoir disposer d'une telle masse de données ouvertes. Mais comme pour tout jeu de données, ouvert ou non, il est bon de savoir à quoi on a affaire. Certaines données sont quelque peu incohérentes ou mal renseignées. Avec le temps, il devrait être possible d'éliminer ces bizarreries. 

3) La consultation à travers une interface cartographique

Les données peuvent être visualisées directement à travers l'interface cartographique Fourquare Studio
À mesure que l'on zoome, on voit apparaître les cellules géométriques qui donnent la somme de lieux et leurs catégories. 


Pour aller plus loin, il faut cependant s'abonner à l'application Studio. D'où l'intérêt de télécharger les données dans un SIG pour pouvoir faire des analyses plus fines. 


Articles connexes

AllThePlaces : géodonnées et vision du monde commercial à travers Internet

Guide de l'Insee pour faciliter l’accès aux données

Cartes et données sur la population mondiale (Population & Sociétés, 2024)

Jeu de données SEDAC sur l'évolution des villes dans le monde entre 1975 et 2030

Cartographier l'empreinte humaine à la surface du globe

Utiliser Wikidata pour chercher des informations géographiques

Une base de données historiques sur les personnages célèbres dans le monde (de 3500 avant JC à 2018)

Geonames, une base mondiale pour chercher des noms de lieux géographiques

OpenDataSoft : une plateforme avec plus de 1800 jeux de données en accès libre

Data France, une plateforme de visualisation de données en open data

Numbeo, une banque de données et de cartes sur les conditions de vie dans le monde