La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

RNA: An Accurate Residual Network Accelerator for Quantized and Reconstructed Deep Neural Networks ARN : un accélérateur de réseau résiduel précis pour les réseaux de neurones profonds quantifiés et reconstruits

Cheng LUO, Wei CAO, Lingli WANG, Philip H. W. LEONG

  • Vues en texte intégral

    0

  • Citer

Résumé:

Avec le perfectionnement continu des réseaux de neurones profonds (DNN), une série de réseaux profonds et complexes tels que les réseaux résiduels (ResNets) font preuve d'une précision de prédiction impressionnante dans les tâches de classification d'images. Malheureusement, la complexité structurelle et le coût de calcul des réseaux résiduels rendent la mise en œuvre matérielle difficile. Dans cet article, nous présentons la technique de réseau neuronal profond quantifié et reconstruit (QR-DNN), qui insère d'abord des couches de normalisation par lots (BN) dans le réseau pendant la formation, puis les supprime pour faciliter une mise en œuvre matérielle efficace. De plus, un accélérateur de réseau résiduel (ARN) précis et efficace est présenté sur la base de QR-DNN avec des structures et des poids sans normalisation par lots représentés dans un système de nombres logarithmiques. L'ARN utilise une architecture de réseau systolique pour effectuer des opérations de décalage et d'accumulation au lieu d'opérations de multiplication. Il a été démontré que QR-DNN permet d'obtenir une amélioration de 1 à 2 % de la précision par rapport aux techniques existantes et de l'ARN par rapport aux meilleurs accélérateurs à virgule fixe précédents. Une implémentation FPGA sur un appareil Xilinx Zynq XC7Z045 atteint 804.03 GOPS, 104.15 FPS et une précision top 91.41 de 5 % pour le benchmark ResNet-50, et des résultats de pointe sont également rapportés pour AlexNet et VGG.

Publication
IEICE TRANSACTIONS on Information Vol.E102-D No.5 pp.1037-1045
Date de publication
2019/05/01
Publicisé
2019/02/19
ISSN en ligne
1745-1361
DOI
10.1587/transinf.2018RCP0008
Type de manuscrit
Special Section PAPER (Special Section on Reconfigurable Systems)
Catégories
Applications

Auteurs

Cheng LUO
  Fudan University
Wei CAO
  Fudan University
Lingli WANG
  Fudan University
Philip H. W. LEONG
  University of Sydney

Mots-clés

Table des matières