Avec le développement des agents conversationnels, il devient possible de conduire des recherches en langage naturel et de mobiliser des données géospatiales. Les modèles de langage (LLMs) utilisés en intelligence artificielle reproduisent à leur manière l'espace et le temps. C'est ce que tend à montrer l'article publié par Gurnee & Tegmark :
Wes Gurnee, Max Tegmark (2023). Language Models Represent Space and Time. ArXiv:2310.02207v1 [cs.LG] 3 Oct 2023. https://arxiv.org/abs/2310.02207
Les capacités des grands modèles linguistiques (LLMs) suscitent des débats autour de la question de savoir si ces systèmes apprennent simplement à partir d'une énorme collection de statistiques ou s'ils constituent un modèle cohérent de génération de données – un modèle mondial. Dans cet article, les auteurs fournissent des preuves concernant le deuxième point en analysant les représentations à partir de trois ensembles de données spatiales (lieux du monde, des États-Unis, de New York) et de trois ensembles de données temporelles (personnages historiques, œuvres d'art, titres d'actualité) dans la famille de modèles Llama-2. Ils montrent que les LLMs apprennent des représentations linéaires de l'espace et du temps à plusieurs échelles. Ces représentations sont robustes pour fournir de l'unité et des variations entre différents types d'entités (par exemple, villes et monuments). De plus, ils identifient des « neurones spatiaux » et des « neurones temporels » individuels qui codent de manière fiable les coordonnées spatiales et temporelles.
Pour télécharger l'article en pdf.
Accès au code et aux données sur Github.
Pour compléter
IA & Géographie. Les intelligences artificielles génératives s'appliquent à beaucoup de domaines, notamment à l'information géospatiale. Il est désormais possible, par exemple, de choisir une liste de lieux, d'en faire chercher automatiquement les coordonnées géographiques par un agent conversationnel (du type ChatGPT ou autre) et de produire directement un fichier kml utilisable dans un globe virtuel (voir ce tutoriel).
Lien ajouté le 19 novembre 2024
Les joueurs de Pokémon Go ont involontairement entraîné l'IA à naviguer dans le monde (404Media). Niantic, la société à l'origine des jeux mobiles de réalité augmentée extrêmement populaires comme Pokémon Go ou Ingress, a annoncé qu'elle utilisait les données collectées par ses millions de joueurs pour créer un modèle d'IA capable de naviguer dans le monde physique.
Lien ajouté le 7 juin 2025
Les LLM maîtrisent-ils enfin la géolocalisation ? (Bellingcat)
Pour évaluer la comparaison actuelle des LLM d'OpenAI, Google, Anthropic, Mistral et xAI, le site Bellingcat a effectué 500 tests de géolocalisation, avec 20 modèles analysant chacun le même ensemble de 25 images. Il ne s'agit pas d'une analyse exhaustive de tous les modèles disponibles, en raison notammentde la rapidité avec laquelle les nouveaux modèles sont actuellement publiés. Lors des tests, ChatGPT o3, o4-mini et o4-mini-high ont été les seuls modèles à surpasser Google Lens pour identifier la position exacte, mais de peu. Tous les autres modèles se sont montrés moins performants pour géolocaliser les photos. Même Gemini, le LLM de Google, a obtenu de moins bons résultats que Google Lens. Étonnamment, il a également obtenu un score inférieur à celui de Grok de xAI, malgré la tendance bien documentée de Grok à halluciner. Le mode Recherche approfondie de Gemini a obtenu des résultats à peu près identiques à ceux des trois modèles Grok testés, DeeperSearch s'avérant le plus efficace des LLM de xAI.
Pour évaluer la comparaison actuelle des LLM d'OpenAI, Google, Anthropic, Mistral et xAI, le site Bellingcat a effectué 500 tests de géolocalisation, avec 20 modèles analysant chacun le même ensemble de 25 images. Il ne s'agit pas d'une analyse exhaustive de tous les modèles disponibles, en raison notammentde la rapidité avec laquelle les nouveaux modèles sont actuellement publiés. Lors des tests, ChatGPT o3, o4-mini et o4-mini-high ont été les seuls modèles à surpasser Google Lens pour identifier la position exacte, mais de peu. Tous les autres modèles se sont montrés moins performants pour géolocaliser les photos. Même Gemini, le LLM de Google, a obtenu de moins bons résultats que Google Lens. Étonnamment, il a également obtenu un score inférieur à celui de Grok de xAI, malgré la tendance bien documentée de Grok à halluciner. Le mode Recherche approfondie de Gemini a obtenu des résultats à peu près identiques à ceux des trois modèles Grok testés, DeeperSearch s'avérant le plus efficace des LLM de xAI.
Articles connexes
Quand Facebook révèle nos liens de proximité
Guerre de pixels sur Reddit. La lutte des places concerne aussi les territoires virtuels
La carte mondiale de l'Internet selon Telegeography
L'essor parallèle de la Silicon Valley et d'Internet : du territoire au réseau et inversement
Cartographie du réseau social Mastodon
La carte mondiale de l'Internet selon Telegeography
L'essor parallèle de la Silicon Valley et d'Internet : du territoire au réseau et inversement
Cartographie du réseau social Mastodon