La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

FiC-RNN: A Multi-FPGA Acceleration Framework for Deep Recurrent Neural Networks FiC-RNN : un cadre d'accélération multi-FPGA pour les réseaux de neurones récurrents profonds

Yuxi SUN, Hideharu AMANO

  • Vues en texte intégral

    0

  • Citer

Résumé:

Les réseaux de neurones récurrents (RNN) se sont révélés efficaces pour les tâches basées sur des séquences grâce à leur capacité à traiter des informations temporelles. Dans les systèmes du monde réel, les RNN profonds sont plus largement utilisés pour résoudre des tâches complexes telles que la reconnaissance vocale à grande échelle et la traduction automatique. Cependant, la mise en œuvre de RNN profonds sur les plates-formes matérielles traditionnelles est inefficace en raison de la dépendance temporelle à longue portée et des modèles de calcul irréguliers au sein des RNN. Cette inefficacité se manifeste par l’augmentation proportionnelle de la latence d’inférence RNN par rapport au nombre de couches de RNN profonds sur les CPU et GPU. Les travaux antérieurs se sont principalement concentrés sur l’optimisation et l’accélération des cellules RNN individuelles. Pour rendre l'inférence RNN profonde rapide et efficace, nous proposons un accélérateur basé sur une plateforme multi-FPGA appelée Flow-in-Cloud (FiC). Dans ce travail, nous montrons que le parallélisme fourni par le système multi-FPGA peut être exploité pour étendre l'inférence de RNN profonds, en partitionnant un grand modèle sur plusieurs FPGA, de sorte que la latence reste proche de constante par rapport à nombre croissant de couches RNN. Pour les RNN monocouche et quatre couches, notre implémentation atteint une accélération 31x et 61x par rapport à un processeur Intel.

Publication
IEICE TRANSACTIONS on Information Vol.E103-D No.12 pp.2457-2462
Date de publication
2020/12/01
Publicisé
2020/09/24
ISSN en ligne
1745-1361
DOI
10.1587/transinf.2020PAP0003
Type de manuscrit
Special Section PAPER (Special Section on Parallel, Distributed, and Reconfigurable Computing, and Networking)
Catégories
Système d'ordinateur

Auteurs

Yuxi SUN
  Keio University
Hideharu AMANO
  Keio University

Mots-clés

Table des matières