La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Contextualized Character Embedding with Multi-Sequence LSTM for Automatic Word Segmentation Incorporation de caractères contextualisés avec LSTM multi-séquence pour la segmentation automatique des mots

Hyunyoung LEE, Seungshik KANG

  • Vues en texte intégral

    0

  • Citer

Résumé:

Les informations contextuelles sont un facteur crucial dans les tâches de traitement du langage naturel telles que l'étiquetage des séquences. Des études antérieures sur l'intégration contextualisée et l'intégration de mots ont exploré le contexte des jetons au niveau des mots afin d'obtenir des fonctionnalités utiles des langages. Cependant, contrairement à l’anglais, la tâche fondamentale dans les langues d’Asie de l’Est est liée aux jetons au niveau des caractères. Dans cet article, nous proposons une méthode d'intégration de caractères contextualisée utilisant des informations multi-séquences n-grammes avec mémoire à long terme (LSTM). On émet l'hypothèse que les intégrations contextualisées sur des séquences multiples dans la tâche s'entraident pour traiter des informations contextuelles à long terme telles que la notion d'étendues et de limites de segmentation. L'analyse montre que l'intégration contextualisée de séquences de caractères bigrammes code bien la notion d'étendues et de limites pour la segmentation des mots plutôt que celle des séquences de caractères unigrammes. Nous découvrons que la combinaison d'intégrations contextualisées à partir de séquences de caractères unigrammes et bigrammes au niveau de la couche de sortie plutôt que de la couche d'entrée des LSTM améliore les performances de segmentation des mots. La comparaison a montré que notre méthode proposée surpasse les modèles précédents.

Publication
IEICE TRANSACTIONS on Information Vol.E103-D No.11 pp.2371-2378
Date de publication
2020/11/01
Publicisé
2020/08/19
ISSN en ligne
1745-1361
DOI
10.1587/transinf.2020EDP7038
Type de manuscrit
PAPER
Catégories
Traitement du langage naturel

Auteurs

Hyunyoung LEE
  Kookmin University
Seungshik KANG
  Kookmin University

Mots-clés

Table des matières