Open Source Places, une base de données de 100 millions de POI en open source (Foursquare)


Source : « Foursquare Open Source Places : A new foundational dataset for the geospatial community » (Foursquare)

La plate-forme Foursquare, qui se présente comme « leader du secteur pour tout ce qui concerne le géospatial », lance Open Source Places, un ensemble de données ouvertes comprenant 100 millions de lieux d’intérêt (POI) classés selon 22 attributs de base. La carte reflète la diversité des lieux d'intérêt dans le monde. L'inégale densité de l'information traduit l'inégale répartition de la population (les pleins et les vides de l'oekoumène). Cette couverture inégale est aussi celle de millions d'utilisateurs qui ont contribué à saisir l'information (principalement dans les zones développées bénéficiant de bonnes connexions et d'utilisateurs bien équipés). D'une certaine manière, la carte reflète l'inégale géonumérisation du monde. 

L'inégale densité des « lieux d'intérêt » ou POI selon Open Source Places  (source : Foursquare)


1) Diffuser des POI en open source, un enjeu majeur

Les données rassemblent des informations livrées par des sociétés « à partir de sources tierces faisant autorité ainsi que de milliards de photos, de conseils et d'avis générés par les utilisateurs, issus de 10 ans d'expérience en matière de collecte de commentaires des consommateurs »Ces données POI sont destinées selon Foursquare à « stimuler l'innovation dans l'ensemble de la communauté géospatiale ». Étant donné leur origine, il n'est pas étonnant de voir dominer les données concernant des lieux ayant un usage commercial. 

Même si ces données sont gratuites, il s'agit pour Foursquare de valoriser son image d'entreprise spécialisée dans le géospatial. Les POI fournissent souvent la couche fondamentale pour le développement open source. Foursquare a bâti nombre de ses applications à partir de ces données ouvertes. Foursquare Places a été construit sur un système de crowdsourcing, à partir des données d'utilisateurs utilisant ses applications mobiles. Tout l'enjeu est désormais de parvenir à maintenir une base de données synchronisée avec le monde réel. C'est certainement l'une des raisons qui ont conduit à la mise à disposition de ces données POI en open source : poursuivre, voire amplifier le travail de saisie et de mise à jour de ces données sur une base contributive, ce qui est l'objectif de sa Placemaker Community, souvent mise en avant par Foursquare comme une des spécificités de l'entreprise.

2) L'accès aux données au format parquet

L’ensemble des données est fourni au format parquet. Il est prévu qu'il soit mis à jour mensuellement. Ces données peuvent être filtrées par catégories et par type de lieux commerciaux ou non commerciaux (voir le schéma de base ici).

L'extraction des données à partir de gros fichiers au format parquet nécessite des compétences techniques. On peut utiliser l'interface Fused qui permet de faire des extractions simples à partir d'un secteur géographique (téléchargement des données au format geojson). Mark Litwintschik et Simon Willison fournissent des conseils pour procéder à des extractions avec DuckDB ou pour les récupérer sur Github (plus de 10 Go de données à télécharger en plusieurs fichiers).

Certains data analystes comme Tim Wallace soulignent l'intérêt de pouvoir disposer d'une telle masse de données ouvertes. Mais comme pour tout jeu de données, ouvert ou non, il est bon de savoir à quoi on a affaire. Bien que Foursquare garantisse des données gratuites et de haute qualité, certaines données sont quelque peu incohérentes ou mal renseignées. Avec le temps, il devrait être possible d'éliminer ces bizarreries. 

3) La consultation à travers une interface cartographique

Les données peuvent être visualisées directement à travers l'interface cartographique Fourquare Studio


À mesure que l'on zoome, on voit apparaître les cellules géométriques qui donnent la somme de lieux et leurs grandes catégories (vente de détail, manger et boire, voyage et transports, services aux entreprises et professionnels, événementiel). Pour aller plus loin, il faut s'abonner à l'application Studio. D'où l'intérêt de télécharger les données dans un SIG pour pouvoir faire des analyses plus fines à l'échelle des sous-catégories. A noter cependant : on ne dispose pas de la nature et de la géolocalisation précises des données, celles-ci ayant été catégorisées et agrégées avant diffusion à l'échelle de chaque cellule. En cela, le jeu de données Open Source Places montre bien l'intérêt et les limites du big data et de l'open data tels qu'ils sont mis en oeuvre aujourd'hui par les grandes entreprises.


Articles connexes

AllThePlaces : géodonnées et vision du monde commercial à travers Internet

Le monde de l'Internet en 2021 représenté comme un planisphère par Martin Vargic

Guide de l'Insee pour faciliter l’accès aux données

Cartes et données sur la population mondiale (Population & Sociétés, 2024)

Jeu de données SEDAC sur l'évolution des villes dans le monde entre 1975 et 2030

Cartographier l'empreinte humaine à la surface du globe

Utiliser Wikidata pour chercher des informations géographiques

Une base de données historiques sur les personnages célèbres dans le monde (de 3500 avant JC à 2018)

Geonames, une base mondiale pour chercher des noms de lieux géographiques

OpenDataSoft : une plateforme avec plus de 1800 jeux de données en accès libre

Data France, une plateforme de visualisation de données en open data

Numbeo, une banque de données et de cartes sur les conditions de vie dans le monde