Une base de données historique sur les personnages célèbres dans le monde (de 3500 avant JC à 2018)


Source
: Morgane Laouenan, Palaash Bhargava, Jean-Benoît Eyméoud, Olivier Gergaud, Guillaume Plique, Etienne Wasmer (2022) A cross-verified database of notable people, 3500BC-2018AD, Scientific Data, volume 9, juin 2022.

Les auteurs de cet article paru dans la revue Nature en juin 2022 ont recueilli une quantité massive de données provenant de diverses éditions de Wikipédia et de Wikidata. La base de données contient plus de 2 millions d'individus ; elle peut être utilisée à des fins de recherche. En utilisant des techniques de déduplication des sources qui se chevauchent partiellement, ils ont pu vérifier chaque information. Cette stratégie aboutit à une base de données vérifiée de 2,29 millions d'individus uniques dont 30% proviennent de 6 éditions non anglaises de Wikipédia, une amélioration significative par rapport aux travaux antérieurs qui se concentraient uniquement sur la version anglaise de cette encyclopédie gratuite. 

La collecte des données est guidée par des questions spécifiques de sciences sociales sur le genre, la croissance économique, le développement urbain et culturel. Les personnages historiques les plus célèbres peuvent par exemple être répartis par période et par sexe, mais aussi par aires géographiques ou domaines d'activités


En utilisant les longitudes et les latitudes des lieux de naissance et de décès, on peut suivre l'évolution des centres géographiques mondiaux. La précision spatiale varie cependant beaucoup d'un lieu à l'autre : par exemple, tout le monde est né avec les mêmes coordonnées géographiques à Helsinki, alors qu'à Londres les données, basées sur Wikidata, sont beaucoup plus précises à l'échelle des quartiers.





Voir des pistes d'analyse et d'utilisation de la base de données sur Github et Medialab.

Topi Tjukanov, géographe et concepteur chez Mapbox, en a tiré une cartographie interactive qui  affiche directement sur un globe 3D les noms des personnes célèbres sur leur lieu de naissance (avec possibilité de classer par domaine : culture, science, pouvoir et sport). La taille des noms est proportionnel au degré de notoriété. L'application s'inspire de A People Map of the USLes critères déterminants pour choisir chaque personne sont : 

  • la longueur (exprimé par le nombre total de mots trouvés dans une biographie)
  • le nombre moyen de consultations pour chaque individu entre 2015 et 2018 
  • le nombre d’éléments non manquants récupérés sur Wikipédia ou Wikidata pour la date de naissance, le sexe et le domaine d’influence. L’idée ici est que plus l’individu est notable, plus ses biographies seront documentées. 
  • le nombre total de liens externes (sources, références, etc.) provenant de Wikidata. 
     





Articles connexes

Wikipédia fête ses 20 ans. Mais connaissez-vous ses ressources cartographiques ?

Utiliser Wikidata pour chercher des informations géographiques