Un atlas sémantique de Manhattan ou l'espace urbain vu par l'IA (Searchable City)


Searchable City propose une exploration visuelle de Manhattan (New York) à travers des images Street View prises au niveau des rues. Le site permet de découvrir des objets urbains, des styles architecturaux et des textures urbaines grâce à une recherche sémantique basée sur l'IA. Il s'agit du premier atlas sémantique à vocabulaire ouvert de la ville de New York. L'auteur, Sean Hardesty Lewis, a traité des centaines de milliers d'images des rues de Manhattan à l'aide d'un modèle de langage visuel (VLM). Au lieu de demander des coordonnées au modèle, il lui a demandé de décrire ce qu'il voyait.

Le premier atlas sémantique à vocabulaire ouvert de la ville de New York

Les cartes sont aveugles

Les cartes traditionnelles représentent la ville comme un simple plan. Elles indiquent les rues, les îlots et les limites des propriétés. Or, une ville se définit par ses différentes strates, et pas seulement par son agencement. En appliquant la vision par ordinateur à l'imagerie au niveau de la rue, l'objectif est de décoder efficacement les systèmes invisibles qui font fonctionner New York. La ville n'est pas qu'un simple quadrillage d'adresses. C'est un flux dense et complexe d'informations visuelles, et pour la première fois, nous avons la puissance de traitement nécessaire pour le lire. 

En transformant le bruit visuel de la rue en données structurées, on peut suivre des phénomènes auparavant impossibles à quantifier. On peut percevoir la densité culturelle, les vecteurs de la gentrification et l'empreinte physique de l'économie. On passe d'une cartographie des lieux à une cartographie du sens. Cependant, cette approche présente des limites intrinsèques. Elle est soumise aux mêmes lois physiques que l'œil humain. Une borne d'incendie peut disparaître derrière un camion de livraison stationné en double file. L'entrée d'un sous-sol peut se fondre dans l'obscurité. Une rampe d'accès pour piéton peut être présente, et pourtant invisible, si le cadre la capture sous un mauvais angle.

L'infrastructure de la vie quotidienne et ses angles morts

Il y a les angles morts structurels : ce que la caméra ne voit jamais. Les cours intérieures. Les halls d’entrée. Les toits. La ville privée derrière le mur de la rue. Street View n’est pas « la ville ». C’est un passage précis, depuis une hauteur précise, un jour précis, le long d’itinéraires qu’une plateforme a choisi de parcourir et de mettre à jour. Contrairement aux données de terrain fournies par la ville, un index visuel est influencé par son point de vue. Il ne voit que ce que voit la voiture de surveillance de Google Street View : ni plus, ni moins. Ces cartes sous forme de heatmaps représentent des probabilités, non des faits absolus. L'absence d'une étiquette ne signifie pas qu'un objet est manquant. En réalité, les zones vides sur la carte révèlent souvent davantage les limites de la collecte de données que la ville elle-même.

La ville vue par l'IA

Imaginez une ville où vous pouvez faire des recherches avec Ctrl+F. L'auteur propose plus de 3 000 étiquettes descriptives. Il ne s'agit pas d'une liste d'adresses : c'est une surface vivante que l'on peut interroger. Recherchez par exemple : « échafaudage », « ombre », « risque d'inondation », « magasin fermé », « marches où les gens s'assoient ». On se dirige vers une réalité continue et consultable. Avec la multiplication des caméras et la réduction des cycles de rafraîchissement, la carte cesse d'être un document figé et devient une question que l'on peut poser à tout moment. L'interface est simple – une barre de recherche – mais le résultat est inédit : une ville organisée par le sens plutôt que par les coordonnées. Voilà ce que permet la cartographie sémantique à vocabulaire ouvert. Non seulement la navigation, mais aussi la perception à grande échelle : la capacité de voir comment la ville change comme si l’on se trouvait à chaque coin de rue simultanément.

Avec le mot-clé "Chinese", l'application parvient à délimiter Chinatown sans connaître le moindre code postal (Searchable City)


En cliquant sur la heatmap, on accède à chaque image StreetView au niveau de la rue, ici par exemple les rues avec des graffitis (Searchable City)


L'auteur du site

L'auteur, Sean Hardesty Lewis, est étudiant en master au sein du pôle technologique urbain de Cornell Tech. Il développe des modèles du monde qui relient la perception à la planification, permettant ainsi un raisonnement hypothétique et une prise de décision fiable pour les systèmes autonomes et les décideurs humains. Ses travaux font progresser la planification basée sur des modèles, la simulation générative et l'aide à la décision tenant compte de l'incertitude. L'objectif est de développer des méthodes transposables à des environnements riches en capteurs et simulés, tels que les villes, les infrastructures, les environnements numériques et les tâches multi-agents. L'auteur souhaite pouvoir mettre à disposition des outils, des jeux de données et des évaluations afin d'accélérer leur adoption et leur reproductibilité.
Articles connexes