La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

BRsyn-Caps: Chinese Text Classification Using Capsule Network Based on Bert and Dependency Syntax BRsyn-Caps : classification de texte chinois à l'aide d'un réseau de capsules basé sur la syntaxe Bert et les dépendances

Jie LUO, Chengwan HE, Hongwei LUO

  • Vues en texte intégral

    0

  • Citer

Résumé:

La classification de texte est une tâche fondamentale dans le traitement du langage naturel, qui trouve de nombreuses applications dans divers domaines, tels que la détection du spam et l'analyse des sentiments. Les informations syntaxiques peuvent être utilisées efficacement pour améliorer les performances des modèles de réseaux neuronaux dans la compréhension de la sémantique du texte. Le texte chinois présente un haut degré de complexité syntaxique, les mots individuels possédant souvent plusieurs parties du discours. Dans cet article, nous proposons BRsyn-caps, un modèle de classification de texte chinois basé sur un réseau de capsules qui exploite à la fois la syntaxe de Bert et celle des dépendances. Notre approche proposée intègre des informations sémantiques via le modèle de pré-formation de Bert pour obtenir des représentations de mots, extrait des informations contextuelles via un réseau neuronal de mémoire à long terme (LSTM), code des arbres de dépendance syntaxique via un réseau neuronal d'attention graphique et utilise un réseau de capsules pour intégrer efficacement les fonctionnalités. pour la classification des textes. De plus, nous proposons un algorithme de construction de matrice de contiguïté d'arbre de dépendance syntaxique au niveau des caractères, qui peut introduire des informations syntaxiques dans la représentation au niveau des caractères. Des expériences sur cinq ensembles de données démontrent que BRsyn-caps peut intégrer efficacement des informations sémantiques, séquentielles et syntaxiques dans le texte, prouvant ainsi l'efficacité de notre méthode proposée pour la classification des textes chinois.

Publication
IEICE TRANSACTIONS on Information Vol.E107-D No.2 pp.212-219
Date de publication
2024/02/01
Publicisé
2023/11/06
ISSN en ligne
1745-1361
DOI
10.1587/transinf.2023EDP7119
Type de manuscrit
PAPER
Catégories
Traitement du langage naturel

Auteurs

Jie LUO
  Wuhan Institute of Technology
Chengwan HE
  Wuhan Institute of Technology
Hongwei LUO
  Wuhan Institute of Technology

Mots-clés

Table des matières