La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Robust Toponym Resolution Based on Surface Statistics Résolution de toponyme robuste basée sur les statistiques de surface

Tomohisa SANO, Shiho Hoshi NOBESAWA, Hiroyuki OKAMOTO, Hiroya SUSUKI, Masaki MATSUBARA, Hiroaki SAITO

  • Vues en texte intégral

    0

  • Citer

Résumé:

Les toponymes et autres entités nommées sont les principaux problèmes de traitement de texte inconnu. Notre objectif est de récupérer des toponymes inconnus, non seulement pour éviter les bruits, mais également pour leur fournir des informations sur les zones candidates auxquelles ils pourraient appartenir. La plupart des méthodes précédentes de résolution de toponymes visaient à lever l’ambiguïté parmi les zones candidates, ce qui était dû à l’existence multiple d’un toponyme. Ces approches étaient principalement basées sur des répertoires géographiques et des contextes. Lorsqu'il s'agit de documents pouvant contenir des toponymes du monde entier, comme des articles de journaux, la résolution des toponymes n'est pas seulement une résolution d'ambiguïté, mais une sélection de zones candidates parmi toutes les régions de la Terre. Ainsi, nous proposons une méthode de résolution automatique de toponymes qui permet d'identifier ses zones candidates sur la base uniquement de leurs statistiques de surface, à la place des approches de recherche dans un dictionnaire. Notre méthode combine deux modules, la réduction des candidats de zone et l'examen des candidats de zone qui utilise des données par blocs, pour obtenir une grande précision sans réduire le taux de rappel. Notre résultat empirique a montré un taux de précision de 85.54 %, un taux de rappel de 91.92 % et une valeur de mesure F de 89 en moyenne. Cette méthode est une approche flexible et robuste pour la résolution toponymique ciblant un nombre illimité de zones.

Publication
IEICE TRANSACTIONS on Information Vol.E92-D No.12 pp.2313-2320
Date de publication
2009/12/01
Publicisé
ISSN en ligne
1745-1361
DOI
10.1587/transinf.E92.D.2313
Type de manuscrit
Special Section PAPER (Special Section on Natural Language Processing and its Applications)
Catégories
Traitement de texte inconnu

Auteurs

Mots-clés

Table des matières