La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Rephrasing Visual Questions by Specifying the Entropy of the Answer Distribution Reformuler des questions visuelles en spécifiant l'entropie de la distribution des réponses

Kento TERAO, Toru TAMAKI, Bisser RAYTCHEV, Kazufumi KANEDA, Shin'ichi SATOH

  • Vues en texte intégral

    0

  • Citer

Résumé:

La réponse visuelle aux questions (VQA) est une tâche consistant à répondre à une question visuelle qui est une paire de question et d'image. Certaines questions visuelles sont ambiguës et d’autres claires, et il peut être approprié de modifier l’ambiguïté des questions d’une situation à l’autre. Cependant, cette question n’a été abordée par aucun travail antérieur. Nous proposons une nouvelle tâche, reformulant les questions en contrôlant l'ambiguïté des questions. L'ambiguïté d'une question visuelle est définie par l'utilisation de l'entropie de la distribution des réponses prédite par un modèle VQA. Le modèle proposé reformule une question source donnée avec une image afin que la question reformulée présente l'ambiguïté (ou l'entropie) spécifiée par les utilisateurs. Nous proposons deux stratégies d'apprentissage pour entraîner le modèle proposé avec l'ensemble de données VQA v2, qui ne contient aucune information d'ambiguïté. Nous démontrons l'avantage de notre approche qui permet de contrôler l'ambiguïté des questions reformulées, et une observation intéressante selon laquelle il est plus difficile d'augmenter que de réduire l'ambiguïté.

Publication
IEICE TRANSACTIONS on Information Vol.E103-D No.11 pp.2362-2370
Date de publication
2020/11/01
Publicisé
2020/08/20
ISSN en ligne
1745-1361
DOI
10.1587/transinf.2020EDP7089
Type de manuscrit
PAPER
Catégories
Reconnaissance d'images, vision par ordinateur

Auteurs

Kento TERAO
  Hiroshima University
Toru TAMAKI
  Hiroshima University
Bisser RAYTCHEV
  Hiroshima University
Kazufumi KANEDA
  Hiroshima University
Shin'ichi SATOH
  National Institute of Informatics

Mots-clés

Table des matières