Rechercher du texte sur les cartes de la collection David Rumsey


Mis en place en août 2023, le nouvel outil Text-on-Maps permet de rechercher du texte par reconnaissance de caractères sur les cartes de la collection David Rumsey (au total 100 millions de mots indexés sur 57 000 cartes). Jusque là, on ne pouvait interroger que les données et métadonnées du catalogue. Désormais il est possible de chercher des cartes en fonction du texte qu'elles contiennent. Qu'il s'agisse des noms de lieux, de rues, de monuments, de rivières, etc..., les cartes anciennes constituent une source inestimable d'informations historiques et géographiques. La reconnaissance automatique de caractères (OCR) permet d'identifier et d'extraire ces éléments, donnant la possibilité d'étudier et d'analyser l'évolution des paysages, de l'occupation du sol, de l'urbanisme ou des changements géographiques. Une fois le mot saisi et les résultats affichés, il suffit de cliquer sur les étiquettes pour accéder aux cartes correspondantes.

Résultats de recherche avec le mot "Reunion" (507 occurrences) - Source : David Rumsey Collection


Il n'est pour l'instant pas possible de rechercher des mots dans des alphabets non latins, mais l'équipe du site travaille à améliorer les performances de l'outil de machine learning mapKurator afin qu'il soit progressivement utilisable dans toutes les langues. Les recherches ne sont pas sensibles à la casse et ne peuvent pas non plus accepter les expressions. Les recherches multi-mots sont toutefois possibles lorsque les mots adjacents se trouvent à une distance de moins de deux caractères par rapport aux deux points les plus éloignés du polygone de délimitation. On peut par exemple repérer les cartes qui utilisent les deux noms "Réunion" et "Bourbon". L'ordre des mots, les différences de graphie et le fait qu'ils soient indiqués (ou non) entre parenthèses apportent des informations intéressantes (pour savoir par exemple combien de temps le nom de Bourbon a été conservé sur les cartes).

Résultats de recherche avec les mots "Reunion" et "Bourbon" (507 occurrences) - Source : David Rumsey Collection

La qualité des résultats varie en fonction des couleurs du fond, des polices de caractères, de la technique d'impression, de la langue, de l'état de conservation de ces cartes anciennes. La graphie d'un même nom a pu également évoluer. Il peut être intéressant par exemple de chercher comment on écrivait et représentait l'Équateur. On peut utiliser Text-on-Maps aussi pour trouver des points d'intérêt, par exemple une mine d'or, un phare, un moulin, une église, un bureau de poste, etc...

Résultats de recherche avec le mot "Equator" (507 occurrences) - Source : David Rumsey Collection

Les utilisateurs de la collection David Rumsey sont invités à corriger les erreurs éventuelles en proposant une meilleure transcription et/ou à un cadre de délimitation plus précis. Il arrive que certaines cartes portent des noms légendaires ou renvoient à des lieux imaginaires, comme par exemple les fameux Monts de Kong en Afrique... qui n'ont j'amais existé ! On peut chercher des lieux mythiques, par exemple l'Eldorado, l'Atlantide, l'Enfer, le Paradis, etc... 

Résultats de recherche avec le mot "Kong" (3 133 occurrences) - source : David Rumsey Collection

Il est possible retrouver des cartogrammes et des graphiques contenus dans des Atlas anciens en saisissant par exemple le terme "data"

Résultats de recherche avec le mot "data" (3 133 occurrences) - source : David Rumsey Collection


Si vous souhaitez affiner les résultats de votre requête avec des filtres basés sur les données du catalogue, vous devez utiliser les fonctionnalités de la recherche avancée. Consultez l'aide détaillée de Text-on-Maps pour obtenir des descriptions complètes sur l'utilisation de cette nouvelle fonctionnalité intéressante.

MapKurator est un outil de machine learning développé par le Knowledge Computing Lab de l'Université du Minnesota pour traiter un grand nombre d'images de cartes historiques numérisées. Les sorties incluent les étiquettes de texte, les polygones de délimitation des étiquettes, les étiquettes après correction post-OCR et un identifiant de géo-entité OpenStreetMap.

The mapKurator System : A Complete Pipeline for Extracting and Linking Text from Historical Maps :
https://arxiv.org/pdf/2306.17059.pdf

Pour accéder à mapKurator sur Github :
https://github.com/knowledge-computing/mapkurator-system


Pour compléter

Google Lens, intégré au moteur Google Image, permet également de reconnaître des noms sur une image ou sur une carte, en important le fichier ou en saisissant simplement son URL. Ce qui permet de récupérer de nombreux toponymes et éventuellement de les traduire en français. 

Détection automatique de texte sur des images ou des cartes avec Google Lens

Qu'il s'agisse du moteur interne du site David Rumsey ou du moteur de recherche sur Internet Google Lens, ces outils de reconnaissance de caractères à partir d'images numérisées viennent considérablement enrichir les possibilités de recherche, de sélection et d'analyse en utilisant les nomenclatures que l'on peut trouver sur les cartes. La carte, on l'oublie souvent, c'est du texte aussi bien que de l'image !

« De la reconnaissance de caractères au panoptisme historique en toponymie et cartographie ? Questions et premiers enseignements d’une évolution qui vient » (Géographies linguistiques).

Articles connexes

Geonames, une base mondiale pour chercher des noms de lieux géographiques