La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Unified Likelihood Ratio Estimation for High- to Zero-Frequency N-Grams Estimation du rapport de vraisemblance unifié pour les fréquences élevées à nulles N-Grammes

Masato KIKUCHI, Kento KAWAKAMI, Kazuho WATANABE, Mitsuo YOSHIDA, Kyoji UMEMURA

  • Vues en texte intégral

    0

  • Citer

Résumé:

Les rapports de vraisemblance (LR), qui sont couramment utilisés pour le traitement des données probabilistes, sont souvent estimés sur la base des décomptes de fréquence d'éléments individuels obtenus à partir d'échantillons. Dans le traitement du langage naturel, un élément peut être une séquence continue de N articles, appelés un N-gramme, dans lequel chaque élément est un mot, une lettre, etc. Dans cet article, nous tentons d'estimer les LR en fonction de N-informations sur la fréquence des grammes. Une approche d’estimation naïve qui utilise uniquement N-les fréquences gramme sont sensibles aux basses fréquences (rares) N-grammes et non applicable à la fréquence nulle (non observé) N-grammes; ceux-ci sont respectivement connus sous le nom de problèmes de basse fréquence et de fréquence nulle. Pour résoudre ces problèmes, nous proposons une méthode de décomposition N-grammes en unités d'articles, puis en appliquant leurs fréquences avec l'original N-fréquences de gramme. Notre méthode peut obtenir les estimations des N-grammes en utilisant les fréquences unitaires. Bien que l'utilisation uniquement des fréquences unitaires ignore les dépendances entre les éléments, notre méthode tire parti du fait que certains éléments coexistent souvent dans la pratique et maintient donc leurs dépendances en utilisant les éléments pertinents. N-fréquences de gramme. Nous introduisons également une régularisation pour obtenir une estimation robuste pour les cas rares. N-grammes. Nos résultats expérimentaux démontrent que notre méthode est efficace pour résoudre les deux problèmes et peut contrôler efficacement les dépendances.

Publication
IEICE TRANSACTIONS on Fundamentals Vol.E104-A No.8 pp.1059-1074
Date de publication
2021/08/01
Publicisé
2021/02/08
ISSN en ligne
1745-1337
DOI
10.1587/transfun.2020EAP1088
Type de manuscrit
PAPER
Catégories
Science des systèmes mathématiques

Auteurs

Masato KIKUCHI
  Nagoya Institute of Technology
Kento KAWAKAMI
  LINE Corporation
Kazuho WATANABE
  Toyohashi University of Technology
Mitsuo YOSHIDA
  Toyohashi University of Technology
Kyoji UMEMURA
  Toyohashi University of Technology

Mots-clés

Table des matières