La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Penalized and Decentralized Contextual Bandit Learning for WLAN Channel Allocation with Contention-Driven Feature Extraction Apprentissage contextuel des bandits pénalisé et décentralisé pour l'allocation de canaux WLAN avec extraction de fonctionnalités basée sur les conflits

Kota YAMASHITA, Shotaro KAMIYA, Koji YAMAMOTO, Yusuke KODA, Takayuki NISHIO, Masahiro MORIKURA

  • Vues en texte intégral

    0

  • Citer

Résumé:

Dans cette étude, un cadre d'exploration de canal décentralisé basé sur un bandit multi-armé contextuel (CMAB) démêlant une fonction d'utilité de canal (c'est-à-dire la récompense) par rapport aux points d'accès (AP) voisins en conflit est proposé. Le cadre proposé permet aux AP d'évaluer les récompenses observées de manière compositionnelle pour les AP en compétition, permettant à la fois la robustesse contre les fluctuations de récompense dues aux différents canaux des AP voisins et l'évaluation des canaux même inexplorés. Pour réaliser ce cadre, nous proposons l'extraction de caractéristiques basée sur les conflits (CDFE), qui extrait la relation de contiguïté entre les AP en conflit et constitue la base pour exprimer les fonctions de récompense sous une forme démêlée, c'est-à-dire une combinaison linéaire de paramètres associés aux AP voisins sous contention). Cela permet d’exploiter le CMAB avec une exploration conjointe de la limite supérieure de confiance linéaire (JLinUCB) et d’approfondir l’efficacité du cadre proposé. De plus, nous abordons le problème de non-convergence — le cycle d'exploration des canaux — en proposant un JLinUCB pénalisé (P-JLinUCB) basé sur l'idée clé d'introduire un paramètre de remise dans la récompense pour l'exploitation d'un canal différent avant et après le cycle d'apprentissage. . Les évaluations numériques confirment que la méthode proposée permet aux points d'accès d'évaluer la qualité du canal de manière robuste par rapport aux fluctuations de récompense par CDFE et d'obtenir de meilleures propriétés de convergence par P-JLinUCB.

Publication
IEICE TRANSACTIONS on Communications Vol.E105-B No.10 pp.1268-1279
Date de publication
2022/10/01
Publicisé
2022/04/11
ISSN en ligne
1745-1345
DOI
10.1587/transcom.2021EBP3197
Type de manuscrit
PAPER
Catégories
Technologies terrestres de communication/diffusion sans fil

Auteurs

Kota YAMASHITA
  Kyoto University
Shotaro KAMIYA
  Sony Corporation
Koji YAMAMOTO
  Kyoto University
Yusuke KODA
  University of Oulu
Takayuki NISHIO
  Tokyo Institute of Technology
Masahiro MORIKURA
  Kyoto University

Mots-clés

Table des matières