La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Deep-Reinforcement-Learning-Based Distributed Vehicle Position Controls for Coverage Expansion in mmWave V2X Contrôles de position de véhicule distribués basés sur un apprentissage par renforcement profond pour l'extension de la couverture dans mmWave V2X

Akihito TAYA, Takayuki NISHIO, Masahiro MORIKURA, Koji YAMAMOTO

  • Vues en texte intégral

    0

  • Citer

Résumé:

Dans les communications véhiculaires à ondes millimétriques (mmWave), la déconnexion des relais multi-sauts par blocage de la ligne de visée (LOS) est un problème critique, en particulier au début de la phase de diffusion des véhicules disponibles aux ondes mm, où tous les véhicules ne disposent pas de dispositifs de communication mmWave. Cet article propose une méthode de contrôle de position distribuée pour établir de longs trajets de relais à travers des unités routières (RSU). Ceci est réalisé par un système par lequel les véhicules autonomes changent leurs positions relatives pour communiquer entre eux via des chemins LOS. Même si les véhicules avec la méthode proposée n'utilisent pas toutes les informations de l'environnement et ne coopèrent pas entre eux, ils peuvent décider de leur action (par exemple, changement de voie et dépassement) et former de longs relais en utilisant uniquement les informations de leur environnement (par exemple, positions environnantes du véhicule). Le problème de prise de décision est formulé comme un processus de décision markovien tel que les véhicules autonomes peuvent apprendre une stratégie de mouvement pratique pour effectuer de longs relais grâce à un algorithme d'apprentissage par renforcement (RL). Cet article conçoit un algorithme d'apprentissage basé sur un algorithme sophistiqué d'apprentissage par renforcement profond, l'avantage acteur-critique asynchrone (A3C), qui permet aux véhicules d'apprendre rapidement une stratégie de mouvement complexe grâce à son architecture de réseau neuronal profond et son mécanisme d'apprentissage multi-agents. Une fois la stratégie bien maîtrisée, les véhicules peuvent se déplacer de manière indépendante pour établir de longs relais et se connecter aux RSU via les relais. Les résultats de la simulation confirment que la méthode proposée peut augmenter la longueur et la couverture du relais même si les conditions de trafic et le taux de pénétration des dispositifs de communication mmWave dans les phases d'apprentissage et d'exploitation sont différents.

Publication
IEICE TRANSACTIONS on Communications Vol.E102-B No.10 pp.2054-2065
Date de publication
2019/10/01
Publicisé
2019/04/17
ISSN en ligne
1745-1345
DOI
10.1587/transcom.2018EBP3299
Type de manuscrit
PAPER
Catégories
Gestion/Exploitation du réseau

Auteurs

Akihito TAYA
  Kyoto University
Takayuki NISHIO
  Kyoto University
Masahiro MORIKURA
  Kyoto University
Koji YAMAMOTO
  Kyoto University

Mots-clés

Table des matières