Le projet All The Places extrait les données concernant les « emplacements de magasins » à partir de sites web du monde entier. Les données sont extraites ("scrapées") à partir d'Internet et regroupées par des robots d'indexation (spiders) selon plus de 2500 catégories. La carte reflète une vision du monde commercial tel qu'il se donne à voir sur Internet, laissant de fait les sites de petits commerces de détail dans l'invisibilité, particulièrement dans les pays du Sud (#BlancsDesCartes).
Les données d'emplacement de magasins ont été extraites avec Scrapy, un outil de web scraping assez connu basé sur le langage Python. En sortie, près de 5 millions de lignes ont été extraites en juin 2024 réparties ensuite en 2555 catégories de manière à fournir un ensemble de données POI au format GeoJSON. Disponibles sous licence Creative Communs CC-0 et régulièrement mises à jour, ces données sont téléchargeables en open data sur le site Alltheplaces.xyz.
Une interface web permet de visualiser directement les données sans avoir besoin de les télécharger. En zoomant, on accède au détail des POI. On voit apparaître surtout des enseignes commerciales, des réseaux de banques et assurances, des chaînes de restauration, des concessions autos, etc... Il s'agit des enseignes les plus visibles sur Internet. D'une certaine manière, la carte reflète les enseignes commerciales capables de faire le plus de branding sur Internet.
Zoom sur les sites commerciaux géolocalisés à travers l'interface web d'AllThePlaces
Pour les banques on constate que ce sont surtout l'emplacement des distributeurs de billets ("visa") qui ressortent. Ils représentent plus de la moitié de la base de données. Pour les mobilités, on voit apparaître principalement les bornes de véhicules deux roues en libre-service dans les espaces urbains ("gbfs" ou "General Bikeshare Feed Specification").
Le téléchargement des fichiers geojson (plus de 300 Mo de données géolocalisées) permet de conduire des analyses géographiques, comme par exemple l'implantation de grandes chaînes de distribution alimentaire. A noter que l'indexation par robots laisse des "trous dans la raquette" si l'on peut dire : les magasins Casino, Carrefour, Aldi, Lidl sont bien indexés pour la France, alors qu'Auchan par exemple n'y figure pas ou seulement pour d'autres pays. Les données n'étant pas homogènes selon les catégories et selon les pays, on aura intérêt à utiliser ce type de données en complément d'autres jeux de données issues de Wikidata ou d'OpenStreetMap.
Comparaison de l'implantation de quelques grandes chaînes de distribution en France
Une base de données historiques sur les personnages célèbres dans le monde (de 3500 avant JC à 2018)
Geonames, une base mondiale pour chercher des noms de lieux géographiques
OpenDataSoft : une plateforme avec plus de 1800 jeux de données en accès libre
Data France, une plateforme de visualisation de données en open data
Numbeo, une banque de données et de cartes sur les conditions de vie dans le monde
Mapping Diversity, une plate-forme pour représenter la diversité des noms de rues en Europe
Le forum d'OpenstreetMap, un lieu d'échange autour des enjeux de la cartographie collaborative et de l'open data