La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Controlling Multiple Cranes Using Multi-Agent Reinforcement Learning: Emerging Coordination among Competitive Agents Contrôler plusieurs grues à l'aide de l'apprentissage par renforcement multi-agents : coordination émergente entre agents compétitifs

Sachiyo ARAI, Kazuteru MIYAZAKI, Shigenobu KOBAYASHI

  • Vues en texte intégral

    0

  • Citer

Résumé:

Cet article décrit le Partage des profits, une approche d'apprentissage par renforcement qui peut être utilisée pour concevoir une stratégie de coordination dans un système multi-agents, et démontre empiriquement son efficacité dans un parc de bobines de fabrication d'acier. Ce domaine se compose de plusieurs grues qui fonctionnent de manière asynchrone mais nécessitent une coordination pour ajuster leurs plans initiaux d'exécution des tâches afin d'éviter les collisions, qui seraient causées par une limitation des ressources. Ce problème dépasse les méthodes classiques de codage manuel de l'expert ainsi que l'analyse mathématique, en raison de la dispersion des informations, des tâches générées de manière stochastique et, de plus, des difficultés à effectuer les tâches dans les délais. Ces dernières années, de nombreuses applications d'algorithmes d'apprentissage par renforcement basés sur Programmation dynamique (DP), tels que Q-learning, méthode des différences temporelles, sont introduits. Ils promettent des performances optimales de l'agent dans les processus de décision markoviens (MDP), mais dans les non-MDP, comme le domaine multi-agents, il n'y a aucune garantie pour la convergence de la politique de l'agent. D'autre part, Partage des profits contraste avec ceux basés sur le DP, pourrait garantir la convergence vers la politique rationnelle, ce qui signifie que l'agent pourrait atteindre l'un des statuts souhaitables, même dans les non-MDP, où les agents apprennent simultanément et de manière compétitive. Par conséquent, nous avons intégré Partage des profits à l'opérateur de grue pour acquérir des règles de coopération dans un domaine aussi dynamique et introduire son applicabilité au monde réaliste au moyen d'une comparaison avec le modèle RAP (Reactive Action Planner), codé par les connaissances d'un expert.

Publication
IEICE TRANSACTIONS on Communications Vol.E83-B No.5 pp.1039-1047
Date de publication
2000/05/25
Publicisé
ISSN en ligne
DOI
Type de manuscrit
Special Section PAPER (IEICE/IEEE Joint Special Issue on Autonomous Decentralized Systems)
Catégories
Contrôle en temps réel

Auteurs

Mots-clés

Table des matières