La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

FSPose: A Heterogeneous Framework with Fast and Slow Networks for Human Pose Estimation in Videos FSPose : un cadre hétérogène avec des réseaux rapides et lents pour l'estimation de la pose humaine dans les vidéos

Jianfeng XU, Satoshi KOMORITA, Kei KAWAMURA

  • Vues en texte intégral

    1

  • Citer

Résumé:

Nous proposons un cadre pour l'intégration de réseaux hétérogènes dans l'estimation de la pose humaine (HPE) dans le but d'équilibrer précision et complexité informatique. Bien que de nombreuses méthodes existantes puissent améliorer la précision de HPE en utilisant plusieurs images dans des vidéos, elles augmentent également la complexité des calculs. La principale différence ici est que le cadre hétérogène proposé comporte différents réseaux pour différents types de trames, alors que les méthodes existantes utilisent les mêmes réseaux pour toutes les trames. En particulier, nous proposons de diviser les images vidéo en deux types, y compris les images clés et les images non clés, et d'adopter trois réseaux : les réseaux lents, les réseaux rapides et les réseaux de transfert dans notre cadre hétérogène. Pour les images clés, un réseau lent est utilisé, doté d'une grande précision mais d'une grande complexité de calcul. Pour les images non clés qui suivent une image clé, nous proposons de déformer la carte thermique d'un réseau lent à partir d'une image clé via un réseau de transfert et de la fusionner avec un réseau rapide ayant une faible précision mais une faible complexité de calcul. De plus, lorsqu'on s'étend à l'utilisation de trames à long terme dans lesquelles un grand nombre de trames non clés suivent une trame clé, la corrélation temporelle diminue. Par conséquent, lorsque cela est nécessaire, nous utilisons un réseau de transfert supplémentaire qui déforme la carte thermique d'une image non clé voisine. Les résultats expérimentaux sur les ensembles de données PoseTrack 2017 et PoseTrack 2018 démontrent que la méthode FSPose proposée atteint un meilleur équilibre entre précision et complexité de calcul que la méthode concurrente. Notre code source est disponible sur https://github.com/Fenax79/fspose.

Publication
IEICE TRANSACTIONS on Information Vol.E106-D No.6 pp.1165-1174
Date de publication
2023/06/01
Publicisé
2023/03/20
ISSN en ligne
1745-1361
DOI
10.1587/transinf.2022EDP7182
Type de manuscrit
PAPER
Catégories
Reconnaissance d'images, vision par ordinateur

Auteurs

Jianfeng XU
  KDDI Research, Inc.
Satoshi KOMORITA
  KDDI Research, Inc.
Kei KAWAMURA
  KDDI Research, Inc.

Mots-clés

Table des matières