Cartographie numérique: Données carroyées de population à l'échelle mondiale sur le site WorldPop

Le site WorldPop fournit des données carroyées qui permettent d'étudier la distribution de la population à l'échelle mondiale : http://www.worldpop.org/

WorldPop a été lancé en octobre 2013 afin de combiner différents projets de cartographie de la population dans des pays en développement (AfriPop, AsiaPop et AmeriPop). Le projet vise à assurer un libre accès aux données géospatiales concernant la population de l'Amérique du Sud et de l'Amérique centrale, de l'Afrique et de l'Asie. Le but est de soutenir des applications de développement et des interventions lors de catastrophes ou d'opérations sanitaires. Les méthodes utilisées sont conçues dans un esprit de libre accès et d'application opérationnelle, en utilisant des méthodes transparentes, entièrement documentées et évaluées par des pairs pour produire des cartes facilement actualisables et accompagnées de métadonnées et de mesures d'incertitude (ce qui peut être utile pour organiser des opérations humanitaires).

La résolution est très précise (100 mètres), ce qui génère de gros fichiers raster à manipuler (au format geotiff). Worldpop s'est associé à de nombreux autres organismes dont le CIESIN et a participé au visualisateur du SEDAC qui permet de consulter les données directement en ligne.

En février 2021, Worldpop a mis à disposition une version 2.0 (100 mètres de résolution) concernant les données du bâti pour 21 pays africains (les autres pays d'Afrique restent disponibles, mais en version 1.0) :

https://wopr.worldpop.org/?/Buildings

Mieux comprendre la répartition de la #population au #Burkina, #Mali et #Niger avec une trame régulière et une visualisation 2.5D, #QGISmade #AidViz pic.twitter.com/CMBp4ftQ8T
— Joseph Benita (@JsphBen) February 23, 2021

WorldPop propose trois applications en ligne :

WOPR Vision
WorldPop Open Population Repository (WOPR) est une carte interactive qui permet d'explorer les estimations de population et les mesures de l'incertitude pour des emplacements et des groupes démographiques spécifiques à l'aide de modèles de population sur mesure.
Peanut Butter
Permet de produire ses propres estimations quadrillées de la population à l'aide de la méthode du « beurre d'arachide » : répartissez vos estimations de la taille moyenne des ménages uniformément sur les bâtiments de chaque type de village à l'aide de cartes haute résolution des empreintes de bâtiments relevées à partir d'images satellite récentes.
Demographics
Fournit des données sur les structures par âge et par sexe de la population infranationale obtenues en employant un certain nombre de sources pour garantir des détails et une représentativité à l'échelle infranationale pour tous les domaines concernés.

Worldpop a conduit également plusieurs études en période de Covid-19, notamment concernant ses effets sur la distanciation sociale : http://www.worldpop.org/covid19

Now available for 10 countries in Sub-Saharan Africa - new #geospatial datasets for an ease of social distancing index in urban areas, based on space around buildings and population density. Download the data from https://t.co/dJ6O514qI0 #covid19 pic.twitter.com/G1wmtp8cQ5
— Heather Chamberlain (@HeatherCh100) February 23, 2021

Liens ajoutés le 15 juin 2025

WorldPop propose désormais des co-variables géospatiales harmonisées et à haute résolution à l'échelle mondiale (version R2024 1.0). Ces données jouent un rôle essentiel dans l'estimation de la population par grille. Elles servent de données auxiliaires pour appréhender, informer et expliquer les variations de densité et de répartition de la population à petite échelle. WorldPop a compilé de manière systématique 73 jeux de données annuels harmonisés spatio-temporellement, destinés à améliorer la cartographie des variations de densité de population à petite échelle. Ces jeux de données maillés couvrent la topographie, le climat, l'éclairage nocturne, l'occupation des sols, les eaux intérieures, les infrastructures, les aires protégées et les zones bâties à l'échelle mondiale, avec une résolution spatiale de 3 secondes d'arc (environ 100 mètres). Les données sont disponibles sous forme de séries chronologiques annuelles de 2015 à 2020 inclus, et jusqu'en 2023 lorsque les données sources le permettent. Ces ensembles de données permettent non seulement de modéliser les populations, mais aussi de trouver des applications dans les secteurs de l'environnement, de l'économie et de la santé. Pour plus de détails sur les méthodes, veuillez consulter Woods D, McKeen T, Cunningham A et al. Global gridded multi-temporal datasets to support human population distribution modelling [version 11. VeriXiv 2025, 2:149 (https://doi.org/10.12688/verixiv.1078.1).

Référence bibliographique :

D. Woods, T. McKeen, A. Cunningham, R. Priyatikanto, A. Sorichetta, A.J. Tatem et M. Bondarenko. Covariables géospatiales mondiales annuelles harmonisées à haute résolution WorldPop 2024. Version 1.0. » Université de Southampton : Southampton, Royaume-Uni. DOI : 10.5258/SOTON/WP00772.

Les anciens ensembles de données produits pour des pays et continents spécifiques sont toujours disponibles au téléchargement ici : Global 1.

Lien ajouté le 1er mai 2026

Heather R. Chamberlain, Claire A. Dooley, Frank Kakungu, Andrew J. Tatem (2026). "Assessing the accuracy of census-independent small area modelled population datasets" [Évaluation de la précision des ensembles de données démographiques modélisées à l'échelle de petites zones indépendantes du recensement], Research Square, https://doi.org/10.21203/rs.3.rs-9558335/v1

Les estimations de population à petite échelle sont essentielles à une prise de décision efficace dans les secteurs public, humanitaire, du développement et commercial. De nombreux pays sont confrontés à une incertitude croissante quant à leurs chiffres de population en raison de recensements tardifs ou incomplets – un problème mis en lumière lors du recensement de 2020, marqué par de nombreux retards et l'absence de recensement pour 15 % des pays. Pour pallier ce manque, des méthodes d'estimation de population modélisées, indépendantes du recensement ou « ascendantes », ont été développées. Elles combinent des données géospatiales issues de l'imagerie satellitaire avec des échantillons de données démographiques, au sein d'un cadre de modélisation statistique. Ces méthodes ont été appliquées en collaboration avec les gouvernements de plus de dix pays à ce jour, généralement dans des contextes où les données sont rares et où les possibilités de validation externe sont limitées. La Zambie fait exception : des estimations de population modélisées, indépendantes du recensement, y ont été élaborées en 2020, et un recensement national a été mené ultérieurement en 2022. À partir des données du recensement zambien de 2022, cette étude présente la première comparaison nationale des estimations modélisées, indépendantes du recensement, avec les résultats du recensement récent. Nous comparons directement les estimations modélisées aux données de recensement à différentes échelles géographiques et explorons des sous-ensembles d'estimations considérés comme les plus représentatifs des populations résidentes. Nos résultats montrent que les estimations modélisées sont fortement corrélées au recensement de 2022 (R > 0,95 pour les quartiers et les districts), mais tendent à dépasser les chiffres du recensement. La prise en compte de la localisation des ménages lors du recensement réduit considérablement ces disparités, soulignant la nécessité d'une meilleure stratification des types d'habitat bâti dans les données d'entrée du modèle. Cette étude renforce les données probantes en faveur de la modélisation démographique ascendante comme option lorsque la réalisation d'un recensement est impossible, tout en identifiant les priorités en matière de développement méthodologique.

Lien ajouté le 19 mai 2026

W. Zhang, E. Cleary, F. Rowe, S. Chaudhuri, M. Bondarenko, S. Lai, A. J. Tatem (2026). "Geospatial foundation-model embeddings improve population estimation unevenly across space and scale" [Les modèles géospatiaux fondamentaux améliorent l'estimation de la population de manière inégale dans l'espace et à différentes échelles], https://arxiv.org/pdf/2605.01650

Google a transformé 46 000 lieux en empreintes numériques de 330 chiffres, puis les a utilisées pour prédire les zones d'habitation avec une précision supérieure à celle des cartes basées sur l'éclairage nocturne, les routes et les bâtiments. Cette nouvelle étude du WorldPopProject témoigne d'un changement majeur dans la cartographie des populations. Pendant des décennies, l'approche standard a consisté à estimer la population à partir d'éléments visibles depuis l'espace : éclairage nocturne, réseau routier, bâtiments, occupation des sols, accessibilité, altitude, pente et autres traces physiques d'occupation du sol. L'idée de base est que les gens ont tendance à vivre là où se trouvent des maisons, des routes, de l'éclairage, des services et des terrains accessibles. Or, le monde visible peut nous induire en erreur. Un endroit lumineux peut être une zone industrielle. Un réseau routier dense peut desservir les navetteurs plutôt que les résidents. Deux zones urbanisées peuvent sembler similaires vues de l'espace tout en présentant des tailles de ménages, des revenus, des schémas migratoires ou des histoires d'occupation du sol totalement différents.

Ce projet teste le modèle PDFM (Population Dynamics Foundation) de Google. Au lieu de lui fournir une liste fixe de variables géographiques définies manuellement, PDFM attribue à chaque lieu un vecteur de 330 dimensions. On peut comparer ce vecteur à une empreinte digitale compressée : un ensemble de nombres qui capture des schémas trop complexes pour être décrits manuellement. Ces 330 nombres proviennent de plusieurs sources. Les 128 premières dimensions sont issues de tendances de recherche agrégées. Les 128 suivantes proviennent de cartes et d'indicateurs d'activité. Les 74 dernières proviennent de données météorologiques et de la qualité de l'air. Le modèle relie ensuite les lieux entre eux dans un graphe, où les districts, les codes postaux, les zones de code postal et les zones d'administration locale sont traités comme des nœuds connectés. Les lieux peuvent être connectés parce qu'ils sont géographiquement proches, parce qu'ils appartiennent à la même structure administrative, ou parce que leurs signaux comportementaux sont similaires. Ainsi, le modèle apprend en réalité le fonctionnement global de chaque lieu. Le regroupement est important car les localités voisines partagent souvent les mêmes routes, marchés, éclairages, infrastructures et schémas d’implantation. Si un modèle est entraîné sur une zone et prédit les données de la zone voisine, sa précision peut paraître supérieure à sa réalité. Le modèle PDFM s'est avéré particulièrement efficace lorsque les indicateurs physiques courants d'intensité et d'accessibilité des établissements humains n'expliquaient pas déjà correctement la répartition de la population. Dans les zones où l'éclairage nocturne, les bâtiments, les routes et l'accessibilité étaient déjà très informatifs, les covariables traditionnelles sont restées pertinentes.

La modélisation de la population évolue d'un monde construit autour d'indicateurs visibles d'établissements humains vers un monde construit autour de représentations spatiales plus riches. L'ancienne question était : que pouvons-nous observer depuis l'espace ? La nouvelle question est : quelle combinaison de signaux physiques, comportementaux, environnementaux et administratifs explique le mieux où vivent réellement les gens ? Ce changement est important car le recensement reste la référence, mais les recensements sont coûteux, inégaux, tardifs et parfois politiquement difficiles. Les images satellites permettent de combler les lacunes, mais elles ne capturent généralement que la surface visible des zones urbanisées. Les représentations vectorielles ajoutent une dimension supplémentaire : le contexte appris de l’activité humaine autour d’un lieu. L’avenir appartient probablement aux modèles hybrides. Utiliser les données du recensement lorsqu’elles existent. Utiliser les covariables satellitaires lorsque le paysage physique est informatif. Utiliser les représentations vectorielles apprises lorsque les comportements, l’accessibilité et le contexte local révèlent des informations que le paysage visible ne permet pas de saisir.