La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Hybrid Electrical/Optical Switch Architectures for Training Distributed Deep Learning in Large-Scale Architectures de commutateurs électriques/optiques hybrides pour la formation en apprentissage profond distribué à grande échelle

Thao-Nguyen TRUONG, Ryousei TAKANO

  • Vues en texte intégral

    0

  • Citer

Résumé:

Le parallélisme des données est la méthode dominante utilisée pour entraîner des modèles d'apprentissage profond (DL) sur des systèmes de calcul haute performance tels que des clusters GPU à grande échelle. Lors de la formation d'un modèle DL sur un grand nombre de nœuds, la communication entre nœuds devient un goulot d'étranglement en raison de sa latence relativement plus élevée et de sa bande passante de liaison inférieure (que la communication intra-nœud). Bien que certaines techniques de communication aient été proposées pour résoudre ce problème, toutes ces approches visent à résoudre le problème de la grande taille des messages tout en diminuant l'effet de la limitation du réseau inter-nœuds. Dans cette étude, nous étudions l'avantage d'augmenter la bande passante des liaisons inter-nœuds en utilisant des systèmes de commutation hybrides, c'est-à-dire la commutation de paquets électriques et la commutation de circuits optiques. Nous avons constaté que le transfert de données typique de la formation au parallélisme de données synchrone est de longue durée et rarement modifié et peut être accéléré grâce à la commutation optique. Les résultats de simulation sur le simulateur Simgrid montrent que notre approche accélère le temps de formation des applications de deep learning, notamment à grande échelle.

Publication
IEICE TRANSACTIONS on Information Vol.E104-D No.8 pp.1332-1339
Date de publication
2021/08/01
Publicisé
2021/04/23
ISSN en ligne
1745-1361
DOI
10.1587/transinf.2020EDP7201
Type de manuscrit
PAPER
Catégories
Réseau d'informations

Auteurs

Thao-Nguyen TRUONG
  National Institute of Advanced Industrial Science and Technology (AIST)
Ryousei TAKANO
  National Institute of Advanced Industrial Science and Technology (AIST)

Mots-clés

Table des matières