La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

A Highly Configurable 7.62GOP/s Hardware Implementation for LSTM Une implémentation matérielle 7.62 GOP/s hautement configurable pour LSTM

Yibo FAN, Leilei HUANG, Kewei CHEN, Xiaoyang ZENG

  • Vues en texte intégral

    0

  • Citer

Résumé:

Le réseau neuronal a été l’une des techniques les plus utiles ces dernières années dans le domaine de la reconnaissance vocale, de la traduction linguistique et de l’analyse d’images. La mémoire à long terme (LSTM), un type populaire de réseaux de neurones récurrents (RNN), a été largement implémentée sur les processeurs et les GPU. Cependant, ces implémentations logicielles offrent un mauvais parallélisme alors que les implémentations matérielles existantes manquent de configurabilité. Afin de combler cette lacune, une implémentation matérielle hautement configurable à 7.62 GOP/s pour LSTM est proposée dans cet article. Pour atteindre cet objectif, le flux de travail est soigneusement organisé pour rendre la conception compacte et à haut débit ; la structure est soigneusement organisée pour rendre la conception configurable ; la stratégie de mise en mémoire tampon et de compression des données est soigneusement choisie pour réduire la bande passante sans augmenter la complexité de la structure ; le type de données, la fonction sigmoïde logistique (σ) et la fonction tangente hyperbolique (tanh) sont soigneusement optimisés pour équilibrer le coût du matériel et la précision. Ce travail atteint une performance de 7.62 GOP/s à 238 MHz sur le FPGA XCZU6EG, qui ne prend que 3K table de recherche (LUT). Par rapport à l'implémentation sur le processeur Intel Xeon E5-2620 à 2.10 GHz, ce travail permet d'obtenir une accélération d'environ 90 fois pour les petits réseaux et de 25 fois pour les grands. La consommation de ressources est également bien inférieure à celle des ouvrages de pointe.

Publication
IEICE TRANSACTIONS on Electronics Vol.E103-C No.5 pp.263-273
Date de publication
2020/05/01
Publicisé
2019/11/27
ISSN en ligne
1745-1353
DOI
10.1587/transele.2019ECP5008
Type de manuscrit
PAPER
Catégories
Électronique intégrée

Auteurs

Yibo FAN
  Fudan University
Leilei HUANG
  Fudan University
Kewei CHEN
  Fudan University
Xiaoyang ZENG
  Fudan University

Mots-clés

Table des matières