La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Detecting New Words from Chinese Text Using Latent Semi-CRF Models Détection de nouveaux mots à partir d'un texte chinois à l'aide de modèles semi-CRF latents

Xiao SUN, Degen HUANG, Fuji REN

  • Vues en texte intégral

    0

  • Citer

Résumé:

Les nouveaux mots chinois et leur partie du discours (POS) sont particulièrement problématiques dans le traitement du langage naturel chinois. Avec le développement rapide d'Internet et des technologies de l'information, il est impossible d'obtenir un dictionnaire système complet pour le traitement du langage naturel chinois, car de nouveaux mots à partir du dictionnaire système de base sont toujours créés. Un modèle semi-CRF latent, qui combine les atouts du LDCRF (Latent-Dynamic Conditional Random Field) et du semi-CRF, est proposé pour détecter les nouveaux mots avec leur POS de manière synchrone, quels que soient les types de nouveaux mots du texte chinois. sans être pré-segmenté. Contrairement au semi-CRF d'origine, le LDCRF est appliqué pour générer les entités candidates à la formation et tester le semi-CRF latent, ce qui accélère la vitesse de formation et diminue le coût de calcul. La complexité du semi-CRF latent pourrait être encore ajustée en ajustant le nombre de variables cachées dans le LDCRF et le nombre d'entités candidates à partir des sorties Nbest du LDCRF. Un cadre de génération de nouveaux mots est proposé pour la formation et les tests de modèles, dans lequel les définitions et les distributions des nouveaux mots sont conformes à celles existant dans le texte réel. Des fonctionnalités spécifiques appelées « Global Fragment Information » pour la détection de nouveaux mots et le marquage POS sont adoptées dans la formation et les tests du modèle. Les résultats expérimentaux montrent que la méthode proposée est capable de détecter même de nouveaux mots à faible fréquence ainsi que leurs balises POS. Le modèle proposé s'avère performant par rapport aux modèles de pointe présentés.

Publication
IEICE TRANSACTIONS on Information Vol.E93-D No.6 pp.1386-1393
Date de publication
2010/06/01
Publicisé
ISSN en ligne
1745-1361
DOI
10.1587/transinf.E93.D.1386
Type de manuscrit
Special Section PAPER (Special Section on Info-Plosion)
Catégories
Traitement du langage naturel

Auteurs

Mots-clés

Table des matières