Territoires virtuels. Carte interactive des 400 000 projets déposés sur GitHub


Andrei Kashcha (@anvaka) propose une cartographe interactive assez impressionnante à partir de l'ensemble des projets déposés sur la célèbre plateforme d'hébergement de code GitHub (400 000 projets en 2023). Chaque projet apparaît sous la forme d'un point. Les points sont reliés entre eux pour former des réseaux regroupés par clusters thématiques. Quand on zoome sur la carte, on voit apparaître les points correspondant à chaque projet répertorié.

Cartographie de l'ensemble des projets de la plateforme Github (source : Map of GitHub)



Le tout forme 1100 "pays" imaginaires. Les noms de ces territoires virtuels ont été choisis à l'aide de l'application ChatGPT. La plupart des noms dérivent du monde de l'informatique et d'Internet (Cloudderra, Pythonia, Androidia, PHPKingdom...). D'autres noms évoquent le monde plus récent de l'intelligence artificielle (AILandia, Visionaria, DeepLearnia...) ou de l'open data (OpendataLand).

Pour fabriquer cette carte, l'auteur a d'abord cherché à déterminer des proximités entre les projets. Au sein d'un même cluster, deux projets peuvent être considérés comme proches si un même utilisateur a attribué des étoiles aux deux. La taille du point indique le nombre d'étoiles que le projet a reçu. Le projet repose sur une base de données de 350 millions d'étoiles attribuées aux référentiels entre 2020 et fin mars 2023 en utilisant un algorithme de similarité Jaccard, un algorithme de clustering qui a permis à l'auteur de répartir les projets en fonction de thématiques. Il a ensuite produit une carte au format geojson qu'il a mis en ligne sur... GitHub naturellement !

Le code source est accessible sur la plateforme GitHub, où sont décrites toutes les étapes d'élaboration de la carte.


Si vous avez apprécié la carte de GitHub, vous aimerez sûrement la carte des messages de débordement de pile. Cette carte organise les questions postées sur lStack Overflow par des programmeurs à la recherche de solutions à leurs problèmes techniques. La carte visualise les relations entre différents sujets sur Stack Overflow. La carte a été créée à l'aide de Vertex AI pour générer des incorporations de messages à partir de Stack Overflow. Les imbrications sont un type de représentation qui capture le sens d'un texte. La carte est ensuite créée en utilisant les incorporations pour calculer la similarité entre les différentes publications Stack Overflow. Étant donné que la carte visualise les relations entre différents sujets, elle peut donc être utilisée pour identifier des sujets connexes, pour trouver de nouveaux sujets à découvrir et pour découvrir des questions et réponses spécifiques publiées sur Stack Overflow. La carte a été réalisée avec Nomic Atlas, un outil en ligne permettant de visualiser et d'explorer de grands ensembles de données. Il permet aux utilisateurs de stocker, mettre à jour et organiser des ensembles de données de plusieurs millions de points de texte, d'images et d'incorporations non structurés. 

Cartographie des postes de débordement de pile par incorporations dans Vertex AI (source : atlas.nomic.ai)

Articles connexes

Quand Facebook révèle nos liens de proximité